自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (8)
  • 收藏
  • 关注

原创 堆与堆排序

堆与堆排序堆(二叉堆)定义描述:堆的逻辑结构为完全二叉树,在物理存储上一般表示为一种数组对象。数组中的数据按照其逻辑结构树的广度优先算法(队列优先)来存储对应的值。性质:堆中某个结点的值总是不大于或不小于其父结点的值;即:n个元素的序列{k1,k2,ki,…,kn}。      κi\kappa_iκi​≤\leq≤κ2i\kappa_{2i}κ2i​ && κi\kappa_iκi​≤\leq≤κ2i+1\kappa_{

2021-04-14 00:05:26 281

原创 hive 函数之二 窗口函数 与 分析函数

hive 函数之二 窗口函数 与 分析函数①排序函数1. order by -- 全局排序 所有map端数据,只在一个reduce端进行,全局排序 2. sort by -- 对每一个reduce中进行局部排序 因此在使用sort by之前,需要先设置Reduce的数量>1(set mapreduce.job.reduces=n;)才会做局部排序 distribute by 是控制 map 的输出在reduer 中是如何划分的。

2021-04-09 15:20:10 478

原创 Yarn container 资源分配 与task和Executor关系

Yarn container 资源分配 与task和Executor关系问题: spark on yarn 或者 mapreduce on yarn 中 container 的资源 与 maptask/reducetask 或 Executor的资源分配关系?Yarn container 的个数, 内存与CPU控制一. YARN 机器 – 预留内存总共保留的内存=系统内存+HBASE内存。每台机子内存系统需要的内存HBase需要的内存4GB1GB1GB8G

2021-03-26 13:18:40 2589 3

原创 Spark运行原理&相对mapreduce优势

Spark运行原理&相对mapreduce优势一. 相对mapreduce优势Spark 与 mapreduce 的重要概念区别mapreduce一个 mapreduce 就是一个job一个job 包含N个task ( Map Task /Reduce Task)一个task 对应一个进程Task运行开启进程, task完毕后销毁进程, 对于多个task而言, 开销是比较大的SparkApplication = Driver(mian中创建SparkContex

2021-03-24 19:09:13 545

原创 Hive数据倾斜以及资源分配调试

Hive数据倾斜以及资源分配① Group By 中的计算均衡优化1. map端聚合原理combiner 操作 – 目的: 减少shuffle的数据量[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KqUodkBg-1616497077437)(…/图片/hive图片/skew_map_agg.png)]场景groupby_key 在map端数据有大量重复的时候, 就需要开启。 如果groupby_key 是用户id, 几乎不会有重复的时候,就不

2021-03-23 19:44:55 752

原创 数据仓库建模与分层

数据仓库建模与分层一. 基本理解定义: 面向主题的,集成的,相对稳定的,反映历史变化的 数据集合,用于支持管理决策。什么是主题实体 + 事件怎样划分主题实体:业务关系的对象 ,可以是一个 人 或者 物, 比如:用户 , 订单事件:业务过程, 比如: 报名,注册 ,购买,退费如何相对稳定数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,通常只需要定期的加载、刷新。二. 数据仓库建模Inmon理论:自上而下。先以范式建模构

2021-03-22 16:27:57 2346 1

原创 Linux命令之2-结构话命令

Linux命令2​ 入门级,个人历史学习笔记整理分享存档,错误请指教使用结构话命令对脚本中命令执行的顺序施加一些逻辑流程控制,被称为结构化命令。1. if-thenif command # 如果该命令执行成功,则执行then后面的语句,否则退出then # 如果command 命令执行成功,会返回状态码0,就会执行 then的语句 commandsfi-----------------------------------------------------

2021-03-17 18:42:37 118

原创 Linux命令之1-基础命令

Linux命令​ 入门级,个人历史学习笔记整理分享存档,错误请指教基础命令1. manman命令用来访问存储在Liunx系统上的手册页面养成阅读手册的习惯,尤其是阅读第一段或者DESCRIPTION部分的前两段,会学会很多技术行话。Name 显示命令名和一段简短的描述Synopsis 命令的语法Description 命令的一般性描述Options 命令选项描述q 退出例如: man ls

2021-03-17 18:34:43 370

原创 git操作指南

git个人历史学习笔记整理分享存档,错误请指教1. git仓库初始化: git init2. 提交文件分为两步: git add test.txt //第一步是用git add把文件添加进去,实际上就是把文件修改添加到暂存区 git commit -m "测试类" //第二步是用git commit提交更改,实际上就是把暂存区的所有内容提交到当前分支 3. 查看git仓库状态: git status4. 查看对文件做了怎样的修改 git

2021-03-17 18:06:56 71

原创 Hive中map与reduce数量控制

1. 控制hive任务中的map数和reduce数map数量1.多少map数量合适:遵循两个原则: 使大数据量利用合适的map数;使单个map任务处理合适的数据量;2.主要决定因素:hdfs block-- input的文件总个数,input的文件大小,集群设置的文件块大小(默认128M)InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分 片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端

2021-03-17 15:47:00 1235

原创 Spark Streaming 动态读取配置

Spark Streaming 动态读取配置为什么要动态读取配置?在Spark 流式计算业务中, 比如通常复杂事件处理 (CEP) 的规则或者黑白名单一些配置数据. 当application 在运行期间读取相应的配置文件, 这个时候当这些名单发生改变时, 怎样能让application 动态的获取配置.目前一般采用采用两种实现方式:轮询拉取方式,即作业算子定时或其他方式检测在外部系统的配置是否有变更,若有则同步配置。控制流方式,即作业除了用于计算的一个或多个普通数据流以外,还有提供一个用

2021-03-17 15:15:40 580

转载 storm 架构与原理

storm 架构与原理1 storm简介1.1 storm是什么如果只用一句话来描述 storm 是什么的话:分布式 && 实时 计算系统。按照作者 Nathan Marz 的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存

2017-08-10 22:48:47 281

转载 MapReduce:详解Shuffle过程

/** * author : 冶秀刚 * mail     : [email protected] */         Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job

2017-08-10 19:31:35 240

转载 Hbase底层数据结构

理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.Google's BigTable论文 清楚地解释了什么是BigTable:Bigtable是一个疏松的分布式的持久的多维排序的map,这个ma

2017-08-10 19:19:56 1293

转载 RPC深入浅出--深入篇

目录(?)[-]RPC 功能目标RPC 调用分类RPC 结构拆解RPC 组件职责RPC 实现分析导出远程接口导入远程接口与客户端代理协议编解码传输服务执行调用RPC 异常处理总结《深入篇》我们主要围绕 RPC 的功能目标和实现考量去展开,一个基本的 RPC 框架应该提供什么功能,满足什么要求以及如何去实现它?RPC 功能目标

2017-05-28 10:27:06 481

转载 RPC深入浅出--浅出篇

目录(?)[-]RPC 是什么RPC 起源RPC 结构RPC 实现总结本文来自本人独立博客,为获得更佳阅读体验,请点击 这里----------------------------------------------------------------------------------------------------近几年的项目中,服务

2017-05-28 10:25:42 2473

转载 js基础

js入门语法集锦-基础篇[日期:2017年5月14日]  来源:互联网  作者:小恩伴随着ajax的流行,js又得到了很多人的重视,js最大的优势就是它能够对html上的所有元素进行操作,包括创建标签元素,更改元素属性等,这样就使得我们能够利用js来实现很多的动态效果,来提供给用户更强的交互性!Js测试方法在调试Javascrip

2017-05-14 17:12:48 464

转载 java 反射机制详解

Java反射机制详解| |目录1反射机制是什么2反射机制能做什么3反射机制的相关API·通过一个对象获得完整的包名和类名·实例化Class类对象·获取一个对象的父类与实现的接口·获取某个类中的全部构造函数 - 详见下例·通过反射机制实例化一个类的对象·获取某个类的全部属性·获取某个类的全部方法·通过反射机制调用某个类的方法·通过反射机制操作某个类的属性·反射机制的动态代理4反射

2017-05-02 15:02:01 194

转载 spring IOC 注入方式 2--带有标签的注入 自动扫描

使用注解来构造IoC容器用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册。如:在base-package指明一个包1 context:component-scan base-package="cn.gacl.java"/>表明cn.gacl.java包及其子包中,如果某个类的头上带有特定的注解【@Component

2017-05-02 14:56:01 327

转载 Spring applicationContext.xml 路径配置(1)

[html] view plain copyweb.xml中classpath:和classpath*:  有什么区别?     classpath:只会到你的class路径中查找找文件;   classpath*:不仅包含class路径,还包括jar文件中(class路径)进行查找.         存放位置:  1:src下面  

2017-05-02 14:52:53 742

转载 Spring applicationContext.xml 文件 路径配置 (2)

Spring配置文件详解 - applicationContext.xml文件路径spring的配置文件applicationContext.xml的默认地址在WEB-INF下,只要在web.xml中加入代码org.springframework.web.context.ContextLoaderListenerspring就会被自动加载但在实际的开发过程中,我们可能需

2017-05-02 14:46:59 376

转载 spring applicationContext.xml 配置文件详解

applicationContext.xml 文件[html] view plain copy print?xml version="1.0" encoding="UTF-8"?>  beans xmlns="http://www.springframework.org/schema/beans" xmlns:context="http:

2017-05-02 14:41:50 423

转载 Spring IOC 常用注解

目录(?)[-]Import 类似于基于XML配置中的import基于Java的配置方式提供了Import来组合模块化的配置类自动装配默认根据类型装配如果指定name属性将根据名字装配可以使用如下方式来指定JSR-330注解注解实现Bean配置主要用来进行如依赖注入、生命周期回调方法定义等,不能消除XML文件中的Bean元数据定义,且基于XML配置中的依赖注入的数据将覆

2017-05-02 10:28:41 328

解压获取反编译 工具.zip

macos上对 jar包进行反编译

2020-04-22

二维码生成及解析 jar包

生成二维码,并对生成的二维码进行解析。把要用的jar包下下来,导入到项目里去。qrcode需要设置一个版本号,这个版本号代表你生成的二维码的像素的大小。版本1是21*21的,版本号每增加1,边长增加4。也就是说版本7的大小是45 * 45的。版本号最大值是40。另外,版本7的编码的字节数如果超过了119,那么将无法编码

2018-04-23

sqoop 使用手册

sqoop 使用手册 使用方便,需要的同学可以下载啦!!!

2018-04-03

大批量图片格式转换器安装包

批量图片格式转换器 批量更改图片格式,使用方便 参数可控

2018-04-03

GBase 8a SQL参考手册

GBase 8a SQL参考手册.pdf 全面的sql使用手册,查询方便

2018-04-03

jstl 两个jar包

jstl需要导入的两个jar包:jstl.jar和standard.jar jstljar包,jsp页面使用jstl方便对数据的迭代显示等。 Jstl.jar包是一款java中项目中如果要使用JSTL和EL表达式,就必须导入jstl.jar和standard.jar文件,可以让程序猿们在日常生活中更节约时间。需要的童鞋可以下载学习使用,下载地址安全无误!

2018-04-03

azkaban 3.4 编译后安装文件,分布式多executor(赠送安装文档)

azkaban3.4 安装包,赠送 安装文档, 可搭建分布式多 executor 节点的资源调度。

2018-04-03

azkaban-master

下载后 unzip 解压,就可以 使用了 ,然后编译,便宜的过程比较复杂 ,可以百度 ,

2018-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除