自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 HIVE处理数据时产生小文件的原因和解决方案

一、小文件产生的原因1.往动态分区表插入数据时,会插入大量小文件2.reduce的数量设置的较多,到reduce处理时,会分配到不同的reduce中,会产生大量的小文件3.源数据文件就存在大量的小文件二、大量小文件的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源, 严重影响性能。...

2020-01-02 17:13:59 4590

转载 数仓范式建模和维度建模

一、数仓建模分为传统型的范式建模和新型维度建模:范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长...

2019-11-17 11:37:41 8933

原创 static 、final关键字

一、static关键字1.static可以修饰类、变量、方法、静态代码块2.被static修饰的变量是对象公共的变量,当其中一个对象改变其值时,其它对象中该变量的值也会跟着改变3.父类中被static修饰的方法不能重写,只能被继承,当父类中方法被static 修饰时,继承它的子类同名的方法必须也被static修饰被static修饰的变量和方法可以直接被类名调用...

2019-11-09 11:37:48 210

原创 实例化子类的执行过程

public class People extends Animal { //子类无参构造 public People(){ System.out.println("您好"); } //子类有参构造 public People(String a){ System.out.println("你是"+a); } public s...

2019-11-07 15:57:38 296

原创 HIVE的常规优化

优化一览表:hive查询操作优化-------group by 优化---------set hive.groupby.skewindata=true 如果是group by过程出现倾斜应该设置为true;set hive.groupby.mapaggr.checkintenval=1000000; 这个是group的键对应的记录条数超过这个值则会进行优化-----------join...

2019-10-30 15:24:58 143

原创 MapReduce的执行过程

MR的执行流程从大的步骤上大致分为三大步:一、AM(applicationMaster)的启动1.Client客户端向RM提交job任务申请,RM对任务进行检查,检查无问题后,向客户端返回作业文件的上传路径和jobid;2.客户端根据返回的路径将作业文件上传至HDFS,待准备就绪后向RM提交开启任务申请,RM开启一个container并与对应的NodeManager建立通信,在该con...

2019-10-23 15:20:30 185

原创 linux下常见的定时任务设置

linux下定时执行任务的方法 在LINUX中你应该先输入crontab -e,然后就会有个vi编辑界面,再输入0 3 * * 1 /clearigame2内容到里面 :wq 保存退出。 在LINUX中,周期执行的任务一般由cron这个守护进程来处理[ps -ef|grep cron]。cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间。cron的配置文件称为“crontab”...

2018-06-27 16:36:30 233

转载 python 对 文件、文件夹的操作

python 读写、创建 文件python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出的路径是否是一个文件:o...

2018-06-27 16:15:17 224

转载 数据仓库的数据分层

漫谈数据仓库】 如何优雅地设计数据分层本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。作者:佚名来源:36大数据|2017-10-20 12:59 收藏  分享技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!一、文章主题本文主要...

2018-06-27 14:07:28 2398

转载 使用Sqoop从MySQL导入数据到HBase和hive(转载)

有时候需要将mysql的全量数据导入到hive或者hbase中,使用sqoop是一个比较好用的工具,速度相对来说比较快。mysql的增量数据在用其他方法实时同步。一、mysql同步到hbase导入命令:sqoop import --connect jdbc:mysql://xxx.xxx.xxx.xxx:3306/database --table tablename --hbase-table h...

2018-06-26 17:00:16 740

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除