hadoop程序猿-CSDN博客

原创从数据库的聚合到shuffle

前言：数据库怎么实现聚合?看过《数据库系统实现》第四章的话，知道有基于散列和基于排序的2种方式，散列理解成hash即可，散列和排序很容易联想到mr的shuffle和spark的shuffle，所以本篇只是很肤浅的...

2020-12-09 10:41:14 500

打开网易云，准备tnd哭目录1.timestamp类型2.统计信息3.看懂执行计划4.临时表使用parquet5.join方式&join顺序6.not in7.写kudu1.timestamp类型把日期字段转为timestamp类型，+日期函数，性能不是一般的赞，注意：kudu中timestamp和impala中的timestamp存储格式不一致，不要将timestamp类型字段作为主键，之前在cdh5.16上，以timestamp作主键，impal...

2020-08-11 16:35:44 2551

原创 spark一次倾斜引发的思考

场景:1大2小表关联其中a表4亿+行，300G左右，b表几w行，17M左右，c表几十w行，90M左右其中b为维表，c为a的子集，a、c以a主键关联，a、b为维度关联

2020-08-10 15:53:41 377

原创调优impala:5个顶级的性能优化对于最牛b的mpp

不生产博客，只是汉化别人的成果pdf链接https://cdn.oreillystatic.com/en/assets/1/event/193/Tuning%20Impala_%20The%20top%20five%20performance%20optimizations%20for%20the%20best%20BI%20and%20SQL%20analytics%20on%20Ha...

2020-01-03 17:28:01 1643

原创 impala paper笔记

不生产博客，只是汉化别人的成果目录摘要介绍用户角度的impala物理schema设计sql 支持架构state distributioncatalog serviceFRONTENDBACKENDruntime code generationI/O管理Storage Formats评估ROADMAPimpala paper...

2020-01-03 14:29:49 574

原创《impala官网笔记》1.1 impala组件

不生产博客，只是官网的搬运工目录impala daemonimpald statestorecatalog serviceimpala是一个分布式的mpp数据库引擎，在cdh集群中由运行在指定主机上的不同的daemon进程组成impala daemon核心的impala组件是impala daemon，由impalad(cdh impala服务impalad角...

2019-12-24 11:32:08 396

原创《kudu官网笔记》6.kudu后台的维护任务

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_background_tasks.htmlkudu依赖很多后台任务来完成重要的任务，包括flush数据到磁盘，compact数据，释放磁盘空间等等maintenance manager这个服务调度并且运行任务，...

2019-11-11 10:35:12 1290

原创《kudu官网笔记》5.kudu事务

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_transaction_semantics.html这篇自认为翻译的最差的，主要对数据库并发控制理解的差，容日后再修改吧贴一篇大佬对kudu paper的笔记https://zhuanlan.zhihu.co...

2019-11-07 15:42:16 1367

原创《kudu官网笔记》4.schema设计

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_schema_design.htmlcolumn设计非主键可为空，支持如下类型8、16、32、64位整数timestamp(64位)float(32位)double(64位)decimalstring(...

2019-11-06 10:53:03 349

原创《kudu官网笔记》3.在kudu上使用impala

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_impala.htmlimpala与kudu集成，允许你使用impala sql来插入、查询和更新、删除kudu的数据，作为kudu api的替代方案，另外，也可以使用jdbc or odbcimpala数据库包...

2019-11-04 15:36:57 1067 1

原创 kerberos客户端的安装(linux和windows版)

不生产博客，只是别人博客的裁缝一入kerberos深似海，从此节操是个玩意儿目录windows版(win10)linux版（suse）kerberos基本操作cdh启用kerberos后，如果我们需要本地连impala或者hive(本地代码测试或者jdbc工具)，都需要在本地装kerberos如果别的服务器需要通过jdbc访问cdh的服务，也需要安装kerbero...

2019-11-01 17:10:47 7479 1

原创 spark消费kafka(cdh启用kerberos)

不生产博客，只是别人博客的裁缝一入kerberos深似海，从此节操是个玩意儿之前写过一篇spark消费kafka问题记录(cdh5.16.2)，主要记录了安装spark2后，spark的问题，和本地可以执行，而一提集群缺包的问题，这篇主要记录下启用kerberos后的一些问题版本信息如下集群启用kerberos后，想用命令行测下kafkakafka-topics --cre...

2019-11-01 16:12:50 1457

原创《kudu官网笔记》2.使用限制

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_limitations.htmlschema设计限制主键:1.表创建后，主键不能更改，必须drop表重新创建指定主键2.创表的时候，主键必须在最前边3.主键不能通过update更新，想要修改主键，必须删除行...

2019-11-01 14:46:58 644

原创 hue集成sentry

前言集群启用kerberos后，访问impala的方式除了impala-shell、jdbc工具，还有hue当然不可能在impala-shell编写sql，jdbc工具的话，电脑上还得装kerberos客户端，虽然不麻烦，确实多了一步所以通过sentry给hue授权，实现不同用户登陆hue拥有不同得权限hue权限参考地址:https://www.cloudera.co...

2019-11-01 13:59:36 1162

原创 spark消费kafka问题记录(cdh5.16.2)

版本如下kafka和spark都安装完成后，执行spark2-shell竟然报错Error: A JNI error has occurred, please check your installation and try again网上搜大概是jdk版本的问题，添加环境变量可以解决export SPARK_DIST_CLASSPATH=$(hadoop clas...

2019-11-01 10:42:29 534

原创《kudu官网笔记》1.组件和架构

不生产博客，只是官网的搬运工https://docs.cloudera.com/documentation/enterprise/5-16-x/topics/kudu_concepts_architecture.html列式存储存储数据在强类型的columns中，适合olap和数据仓库，因为列存，当olap时，读取当个字段或部分字段是，I/O次数更少比起行存，读效率高，行存读单个字段...

2019-10-31 16:43:43 455

原创 mongodb 官网示例

1.安装最新版本为4.0.6，装完可以执行mongo -version查看下载tar包，解压完确实够简洁呀，就bin目录，然后在/etc/profile配下环境变量source下就ok！创建db目录mkdir -p /data/db官网还让创建/var/lib/mongo和/var/log/mongo，创建完启动发现这俩目录也没写入数据。2.启动临时启...

2019-03-25 22:14:43 363

原创 spark sql join

目录join的类型join的重载方法join示例inner joinouter join&full join&fullouter joinleft join & leftouter joinright join& rightouter joinleftsemi joinleftanticross joinjoin的类...

2019-03-20 21:55:54 844

原创 spark sql Dataset&Dataframe算子大全

目录Dataset&DataframeRDD,Dataset,Dataframe互相转换Dataset&Dataframe算子show()na() 返回包含null值的行stat()sortWithinPartitions()sort()&order by()hint()selectExpr()filter&w...

2019-03-20 21:35:52 5262

原创 spark sql 官网示例

目录 1.Dataset/Dataframe基本操作2.RDD转Dataset/Dataframe3.不同数据集对于spark，无论core还是streaming，亦或sql，structed streaming最好的资料就是官网示例+源码本人的spark sql的学习路线是1.官网示例(入门，了解)2.Dataset/Dataframe的各个方法(...

2019-03-20 21:08:57 1426

原创《SQL 必知必会》读书笔记

目录检索数据排序检索数据过滤数据高级过滤数据用通配符进行过滤创建计算字段使用函数处理数据汇总数据分组数据使用子查询联结表(join)创建高级联结组合查询(union)插入数据更新和删除数据创建和操纵表使用视图检索数据SELECT prod_name FROM products; //查询单列SELECT ...

2019-03-16 23:39:20 334

原创 hive存储格式textfile到orc

hive默认存储格式为textfile，orc是一种列式存储格式，读，写，处理数据上比textfile更有优势,更节省磁盘空间由于orc的表不能直接load导入，所以我们仍需要textfile的表将textfile表的查询结果导入到orc表create table api_orc stored as ORC TBLPROPERTIES("orc.compress"="ZLIB")...

2019-03-14 11:42:22 7171

原创 CDH 5.14x 配置spark sql查询hive

配置idea spark sql连接hive1.首先将/etc/hive/conf/的hive-site.xml复制到项目的resources下2.添加maven依赖到pom.xml文件，不仅需要添加spark-sql，还需要添加spark-hive，spark版本2.2.0，scala版本2.10 <!-- https://mvnrepository.co...

2019-03-13 14:03:54 1762

原创 CDH 5.14x 配置hive on spark

cdh版本为5.14网上搜hive on spark大都5.9之前或更早，看着挺麻烦的话不多说首先在CDH界面，hive配置搜索execution默认时MR，选spark就ok了然后提示过期配置重启服务，重启的话重启失败，报如下错误还需要配置服务依赖，找到下面这个默认时none，选择spark，重启就ok了。进hive cli，随便执行一个sql语句...

2019-03-04 15:00:40 2269 4

原创 hive 窗口/分析函数汇总

<一>row_number(),rank,dense_rank()一般用来分组取topN等依次为部门 dep，员工 emp，月薪 sala 101 7a 103 11a 102 9a 109 14b 105 12b 104 12b 106 6b 107 13b ...

2019-02-25 13:17:33 557

原创 spark streaming消费kafka maven依赖选择

当我们的spark streaming程序需要消费kafka数据，我们需要根据自己的spark版本和kafka broker版本选择合适的maven依赖 spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 支持的kafka版本 0.8+ 0.10+ 依赖包使用的spark版本 2.0-及2.0+ ...

2019-01-03 13:42:04 6263 1

原创 spark job提交流程源码

目录 #Job提交流程概览#Task类型1.Task2.DAGTask3.ResultTask4.ShuffleMapTask#Stage划分sc.runJobDAGScheduler.runJobsubmitStage()getMissingParentStages()getShuffleMapStage()#Task提交submitM...

2018-12-05 16:57:28 280

原创 spark RDD源码

spark发展至今，核心设计没什么大变化，如果想快速了解底层实现，可以去看早期的源码，Branch-0.5分支的，https://github.com/apache/spark/tree/branch-0.5，github直接可以找到，相比spark2.x源码的庞大，动辄几十个包，早期的除了注释少点之外，读起来没大的挫败感。目录#源码-RDD的5个特征#源码-RDD的特征一S...

2018-12-05 16:17:09 726

原创《apache kafka 实战》读书笔记

断断续续看了点书，写个博客记录下，图片是百科找的，博客内容都是我比较感兴趣的，书里很多内容都特别详细，感兴趣的可以去买来阅读。<第一章认识apache kafka>kafka核心功能？高性能的消息发送与高性能的消息消费消息引擎系统？1.消息队列模型，提供了点对点的消息传递方式生产者发布一条消息只能被一个消费者消费2.发布/订阅模型(kafka 引入消费...

2018-12-05 15:50:31 1475

原创 CDH角色的日志目录的可用空间不足

CDH主界面发现好多角色都存在隐患点hdfs的隐患发现就是log和临时目录空间不足所引起的。此角色的日志目录所在的文件系统的可用空间小于10.0吉字节。/var/log/hadoop-httpfs/dfs/tmp/xxx到某台节点查看，df -h可以看到由于数据都挂载在根目录，而home目录却空闲了100多个G故在home目录下创建dfs,log...

2018-12-03 11:39:50 4731

原创提交spark streaming产生大量磁盘文件

前一天提交的spark streaming测试程序，master为local[*]第二天从cdh界面发现该主机多了100多G文件查看hdfs 目录下/user/spark/applicationHistory，发现提交的spark程序产生了大量日志文件hdfs dfs -du -h /user/spark/applicationHistory查看前几行，都是些event日志，下面是...

2018-11-30 13:02:50 619

原创 spark streaming DStream算子大全

DStream作为spark 流处理的数据抽象，有三个主要的特征:1.依赖的DStream的列表2.DStream生成RDD的时间间隔3.用来生成RDD的方法本篇pom.xml文件spark streaming版本为1.6.0目录window()reduceByWindow()countByWindow()countByValueAndWindow()red...

2018-11-05 17:50:10 2715

原创 spark RDD算子大全

目录map()&&flatMap()map()&&mapPartitions()mapPartitionsWithIndex()filter()take()&&takeOrdered()&&top()&&first()sample()&&takeSample()union()...

2018-09-25 16:32:11 4730

原创 shell脚本执行.sql文件切换用户执行shell脚本拉取远程mysql数据库

shell脚本执行.sql文件:mysql -uxxx -pxxx db名 < xxx/xxx.sql 切换用书执行shell脚本执行单行脚本: su - 用户 -c 'xxx'执行.sh文件 su - 用户 -s /bin/bash xxx.sh 拉取远程mysql数据库mysqldump -uxxx -pxxx -P 端口号 ...

2018-08-30 14:00:02 1449

原创 Hive SQL窗口函数实现页面统计(以腾云天下页面访问为例)

埋点数据字段为:userid,at,sid,pid分别表示用户id,访问时间,sessionId(区分一次启动),页面id表名为beacon所有数据均为模拟数据2018-07-04 11:46:37 2856 efda26adec1c3eb8 h_012018-07-04 11:46:47 2856 efda26adec1c3eb8 h_032018-07-04 11:46:...

2018-07-18 16:48:03 1954

原创 hive学习之经典sql50题 hive版(四)

21.查询男生、女生人数 select f.c,m.cfrom(select count(sid) c from student where ssex='男') fjoin(select count(sid) c from student where ssex='女') m;22.查询名字中含有"风"字的学生信息select * from student where sname like '%风%...

2018-06-22 17:06:53 3036 2

原创 hive学习之经典sql50题 hive版(三)

11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名select stu.sidfrom(select other.s sid,other.c cidfrom(select cid from sc where sid=01) s01join(select sid s,cid c from sc where sid!=01) otheron other.c=s01.cid) stu...

2018-06-22 17:00:09 3041

原创 hive学习之经典sql50题 hive版(二)

1.查询“某1”课程比“某2”课程成绩高的所有学生的学号select s.idfrom(select s1.sid id,s1.score c1,s2.score c2from (select sid,score from sc where cid=1) s1join (select sid,score from sc where cid=2) s2 on s1.sid=s2...

2018-06-21 13:47:34 3883 2

原创 hive学习之经典sql50题 hive版(一)

尽管hql与sql差不多,但还是想把学生教师成绩sql版的改个hive版的,一方面提升自己hql能力,一方面希望帮到广大准备入手hive的同学建表:create table student(sid string,sname string,sage int,ssex string) row format delimited fields terminated by '\t';create table...

2018-06-20 17:23:02 7486 1

原创断电后cdh集群后续处理

执行jps连接7180 cloudera-manager UI界面,无法连接执行/opt/cloudera-manager/cm-5.14.1/etc/init.d/cloudera-scm-server status提示:cloudera-scm-server dead but pid file exists删除.pid文件rm /opt/cloudera-manager...

2018-06-13 10:33:17 1348 3

空空如也

空空如也