自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 yarn的clinet和cluster模式区别

1、你要切换到yarn-cluster或者yarn-client模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果你没设置,那么,就是standalone模式。2、yarn集群分为主节点和从节点,一个主节点是ResourceManager(RM),多个从节点是No...

2019-09-19 17:36:00 179

转载 kafka中的acks参数

首先acks参数,是在kafkaProducer,也就是在生产者客户端里设置的也就是说,你往kafka写东西的时候,就可以设置这个参数。 这个参数实际上有三种值可以设置,分别是0,1,和all. 第一种选择是把参数设置成0 我的kafkaProducer在客户端,只要把消息发送出去,不管那条数据有没有在哪怕Partition Leader上落到磁盘,就不管他了,直接认为这个消息发送...

2019-09-19 16:57:00 1174

转载 es

es是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进,性能最好的,功能最全的搜索引擎库。 es不仅仅是Lucene和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索。 分布式的实时分析搜索引擎。 可以扩展到上百台服务器,处理PB级结构化和非结构化数据 es是面向文档...

2019-09-17 16:10:00 120

转载 数据仓库简单介绍

https://www.cnblogs.com/hbsygfz/p/4759680.html 人们对数据的处理行为可以分为操作型数据处理和分析型数据处理,操作型数据处理一般放在传统的数据库(DB)中进行,分析型数据处理则需要放在数据仓库(DW)中进行。但是并不是所有的数据处理都可以这样划分,换句话说,人们对数据的处理需求并不只有这两类,比如,有些操作型处理并不适合放在传统的数据库上完成...

2019-09-10 14:46:00 152

转载 基于用户的协同过滤算法

下面讲解的链接 https://blog.csdn.net/shf1730797676/article/details/97100815 基本思路:当用户A需要个性化推荐的时候,可以先找到和他兴趣相似的用户群体G,然后把G中所包含的且A中没有的东西进行预测评估,最后根据预测评估值对用户A进行推荐。 方法:1、找到与用户A兴趣相似的用户群体2、对G中所包含的且A没有听说过或没有见过的...

2019-09-09 15:56:00 155

转载 Hive性能优化

hive配置角度优化: (1)列剪裁 hive在查询时,只查询用到的列 (2)分区裁剪 hive在查询时将分区放入子查询中查询更加高效,可以减少读入的分区数目 (3)join优化 在编写带有join的语句时,将条目少的放在join操作符的左边,因为在reduce阶段,位于join操作符左边的数据会被加载到内存,载入条目较少的表,可以减少oom,所以对于同一个key来说,对应的...

2019-09-06 16:22:00 62

转载 hive静态动态表

静态和动态分区表差不多一样,只不过在导入数据时需要加上条件: insert overwrite table p_user partition(occupationid) select id,gender,age,zip,occupationid from user; insert overwrite table p_user partition(occupationid=22) se...

2019-09-06 14:29:00 122

转载 Hbase过滤器使用

要完成一个过滤操作,至少需要两个参数;(1)抽象的操作符(2)具体的比较器 https://www.cnblogs.com/qingyunzong/p/8681529.html#_label0 抽象操作符(比较运算符) LESS < LESS_OR_EQUAL <= EQUAL = NOT_EQUAL <> GREATER_OR_EQUAL &g...

2019-09-05 16:17:00 149

转载 groupbyKey和reducebyKey的区别

reducebyKey会先在本地机器上进行局部聚合,然后在移动数据,进行全局聚合 groupbyKey会先将数据进行移动,再做聚合 reducebyKey适合使用在大数据量上 转载于:https://www.cnblogs.com/18800105616a/p/11454551.html...

2019-09-03 17:57:00 127

转载 hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。 大小表join时,将小表放在前面,会将小表进行缓存。 mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作 转载于:https://...

2019-09-03 16:59:00 381

转载 hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。 大小表join时,将小表放在前面,会将小表进行缓存。 mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作 转载于:https://...

2019-09-03 16:59:00 363

转载 hive UDF,UDAF,UDTF函数区别

udf:一进一出 udaf:多进一出,聚合函数(min/max/count/) udtf:一进多出,later view explore 转载于:https://www.cnblogs.com/18800105616a/p/11430191.html

2019-08-29 15:59:00 250

转载 hive中的列转行和行转列

https://www.cnblogs.com/zzhangyuhang/p/9791795.html https://www.cnblogs.com/blogyuhan/p/9274784.html 列转行:user_id order_id 104399 1715131 104399 2105395 104399 1758844 104399 9...

2019-08-29 11:39:00 169

转载 hive多行变单行函数collect_set和collect_list

http://blog.sina.com.cn/s/blog_7e04e0d00102xvnk.html select user,concat_ws(',',collect_set(concat(order_type,'(',order_number,')'))) order from user group by user.user 转载于:https://www.cnblogs.c...

2019-08-29 11:01:00 228

转载 hive中的排序函数

order by 只有一个reduce 实现全局排序 sort by 只有一个reduce时功能跟order by一样实现全局排序,reduce有多个时实现每个reduce局部排序 distribute by和sort by结合使用实现分组局部排序 cluster by的功能就是distribute by和sort by相结合 转载于:https://www.cnblogs.co...

2019-08-29 10:21:00 367

转载 hive group sets技术使用

group sets相当于多个group by 和union的结合使用 转载于:https://www.cnblogs.com/18800105616a/p/11428066.html

2019-08-29 10:07:00 299

转载 flink sql

flink window聚合例子: 1.为了持续的监测城市的交通流量,计算每个区域每5分钟的车辆数。我们只关心纽约的区域交通情况,并且只关心至少有5辆车子进入的区域。TUMBLE(rideTime,INTERVAL '5' MINUTE)的使用toAreaID,isInNYC 注册的udf函数 select toAreaID(lon,lat), TUMBLE_END(rideTi...

2019-08-22 16:24:00 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除