Sowhat胜-CSDN博客

转载 HIVE处理数据时产生小文件的原因和解决方案

一、小文件产生的原因1.往动态分区表插入数据时，会插入大量小文件2.reduce的数量设置的较多，到reduce处理时，会分配到不同的reduce中，会产生大量的小文件3.源数据文件就存在大量的小文件二、大量小文件的影响1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。...

2020-01-02 17:13:59 4600

转载数仓范式建模和维度建模

一、数仓建模分为传统型的范式建模和新型维度建模：范式建模 Inmon提出的集线器的自上而下（EDW-DM）的数据仓库架构。操作型或事务型系统的数据源，通过ETL抽取转换和加载到数据仓库的ODS层，然后通过ODS的数据建设原子数据的数据仓库EDW，EDW不是多维格式的，不方便上层应用做数据分析，所以需要通过汇总建设成多维格式的数据集市层。优势：易于维护，高度集成；劣势：结构死板，部署周期较长...

2019-11-17 11:37:41 8939

原创 static 、final关键字

一、static关键字1.static可以修饰类、变量、方法、静态代码块2.被static修饰的变量是对象公共的变量，当其中一个对象改变其值时，其它对象中该变量的值也会跟着改变3.父类中被static修饰的方法不能重写，只能被继承，当父类中方法被static 修饰时，继承它的子类同名的方法必须也被static修饰被static修饰的变量和方法可以直接被类名调用...

2019-11-09 11:37:48 213

原创实例化子类的执行过程

public class People extends Animal { //子类无参构造 public People(){ System.out.println("您好"); } //子类有参构造 public People(String a){ System.out.println("你是"+a); } public s...

2019-11-07 15:57:38 297

原创 HIVE的常规优化

优化一览表：hive查询操作优化-------group by 优化---------set hive.groupby.skewindata=true 如果是group by过程出现倾斜应该设置为true;set hive.groupby.mapaggr.checkintenval=1000000; 这个是group的键对应的记录条数超过这个值则会进行优化-----------join...

2019-10-30 15:24:58 145

原创 MapReduce的执行过程

MR的执行流程从大的步骤上大致分为三大步：一、AM（applicationMaster）的启动1.Client客户端向RM提交job任务申请，RM对任务进行检查，检查无问题后，向客户端返回作业文件的上传路径和jobid；2.客户端根据返回的路径将作业文件上传至HDFS，待准备就绪后向RM提交开启任务申请，RM开启一个container并与对应的NodeManager建立通信，在该con...

2019-10-23 15:20:30 186

linux下定时执行任务的方法在LINUX中你应该先输入crontab -e，然后就会有个vi编辑界面，再输入0 3 * * 1 /clearigame2内容到里面 :wq 保存退出。在LINUX中，周期执行的任务一般由cron这个守护进程来处理[ps -ef|grep cron]。cron读取一个或多个配置文件，这些配置文件中包含了命令行及其调用时间。cron的配置文件称为“crontab”...

2018-06-27 16:36:30 233

转载 python 对文件、文件夹的操作

python 读写、创建文件python中对文件、文件夹（文件操作函数）的操作需要涉及到os模块和shutil模块。得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录：os.removedirs（r“c：\python”）检验给出的路径是否是一个文件：o...

2018-06-27 16:15:17 225

转载数据仓库的数据分层

漫谈数据仓库】如何优雅地设计数据分层本文主要讲解数据仓库的一个重要环节：如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景，超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。作者：佚名来源：36大数据|2017-10-20 12:59 收藏分享技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战！一、文章主题本文主要...

2018-06-27 14:07:28 2402

转载使用Sqoop从MySQL导入数据到HBase和hive(转载）

有时候需要将mysql的全量数据导入到hive或者hbase中,使用sqoop是一个比较好用的工具，速度相对来说比较快。mysql的增量数据在用其他方法实时同步。一、mysql同步到hbase导入命令:sqoop import --connect jdbc:mysql://xxx.xxx.xxx.xxx:3306/database --table tablename --hbase-table h...

2018-06-26 17:00:16 740

Josonli123的博客