4 Sowhat胜

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 42w+

HIVE处理数据时产生小文件的原因和解决方案

一、小文件产生的原因1.往动态分区表插入数据时,会插入大量小文件2.reduce的数量设置的较多,到reduce处理时,会分配到不同的reduce中,会产生大量的小文件3.源数据文件就存在大量的小文件二、大量小文件的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源, 严重影响性能。...

2020-01-02 17:13:59

数仓范式建模和维度建模

一、数仓建模分为传统型的范式建模和新型维度建模:范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长...

2019-11-17 11:29:02

static 、final关键字

一、static关键字1.static可以修饰类、变量、方法、静态代码块2.被static修饰的变量是对象公共的变量,当其中一个对象改变其值时,其它对象中该变量的值也会跟着改变3.父类中被static修饰的方法不能重写,只能被继承,当父类中方法被static 修饰时,继承它的子类同名的方法必须也被static修饰被static修饰的变量和方法可以直接被类名调用...

2019-11-09 11:28:54

实例化子类的执行过程

public class People extends Animal { //子类无参构造 public People(){ System.out.println("您好"); } //子类有参构造 public People(String a){ System.out.println("你是"+a); } public s...

2019-11-07 15:45:20

HIVE的常规优化

优化一览表:hive查询操作优化-------group by 优化---------set hive.groupby.skewindata=true 如果是group by过程出现倾斜应该设置为true;set hive.groupby.mapaggr.checkintenval=1000000; 这个是group的键对应的记录条数超过这个值则会进行优化-----------join...

2019-10-30 15:24:17

MapReduce的执行过程

MR的执行流程从大的步骤上大致分为三大步:一、AM(applicationMaster)的启动1.Client客户端向RM提交job任务申请,RM对任务进行检查,检查无问题后,向客户端返回作业文件的上传路径和jobid;2.客户端根据返回的路径将作业文件上传至HDFS,待准备就绪后向RM提交开启任务申请,RM开启一个container并与对应的NodeManager建立通信,在该con...

2019-10-23 15:06:32

linux下常见的定时任务设置

linux下定时执行任务的方法 在LINUX中你应该先输入crontab -e,然后就会有个vi编辑界面,再输入0 3 * * 1 /clearigame2内容到里面 :wq 保存退出。 在LINUX中,周期执行的任务一般由cron这个守护进程来处理[ps -ef|grep cron]。cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间。cron的配置文件称为“crontab”...

2018-06-27 16:36:30

python 对 文件、文件夹的操作

python 读写、创建 文件python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出的路径是否是一个文件:o...

2018-06-27 16:15:17

数据仓库的数据分层

漫谈数据仓库】 如何优雅地设计数据分层本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。作者:佚名来源:36大数据|2017-10-20 12:59 收藏  分享技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!一、文章主题本文主要...

2018-06-27 14:07:28

使用Sqoop从MySQL导入数据到HBase和hive(转载)

有时候需要将mysql的全量数据导入到hive或者hbase中,使用sqoop是一个比较好用的工具,速度相对来说比较快。mysql的增量数据在用其他方法实时同步。一、mysql同步到hbase导入命令:sqoop import --connect jdbc:mysql://xxx.xxx.xxx.xxx:3306/database --table tablename --hbase-table h...

2018-06-26 17:00:16
勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。