4 qq_30130043

尚未进行身份认证

暂无相关描述

等级
TA的排名 27w+

转:关于解决数据倾斜的方案

 https://blog.csdn.net/lingbo229/article/details/82345991 http://www.aboutyun.com/thread-23803-1-1.html

2018-09-03 11:16:49

转:Kafka史上最详细原理总结

https://blog.csdn.net/lingbo229/article/details/80761778?tdsourcetag=s_pctim_aiomsg

2018-08-21 11:13:59

Hive 优化

1)优化的宏观角度        架构:这个是最重要的,是全局的      1.分区表:线上环境是普遍存在的,数据量大,不做好合适的分区会导致查询性能极致下降    2.合理利用中间结果集          说明:假如sql1子查询包含:selecta,b,c,zfromxxxgroup...                      假如sql2子查询包含:sel...

2018-05-31 21:47:15

Hive 内置函数和UDF函数

1)内置函数    hive>showfunctions;  //显示所有函数,比官网详细    hive>descfunctionsubstr;  //查看函数的详细信息    hive>descfunctionextendedsubstr;  //查看函数的更详细信息,包括语法(substr的pos从1开始,<0是从尾开始)2)UDF...

2018-05-30 21:27:57

Hive HiveServer2使用

HiveServer2,即HS2。是一个服务1)开启HiveServer2  $HIVE_HOME/bin/hiveserver22)HiveServer2配合beeline的用法  1. $HIVE_HOME/config/beeline         !connectjdbc:hive2://localhost:10000userpassword(10000就是HS2的...

2018-05-30 20:11:08

Hive 分区

分区表:也是对应于HDFS上的文件夹1)静态分区  单级分区:CREATETABLEruoze_order_partition(                        order_numberstring,                        event_timestring                   )PARTITIONEDBY(event_m...

2018-05-30 19:28:59

Hive DML操作(插入、导出、导入)

DML  DataManipulationLanguage1)插入数据操作  1.LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename       [PARTITION(partcol1=val1,partcol2=val2...)]    //插入            OVERWRITE...

2018-05-30 16:28:23

Hive 数据类型及数据表操作

1)数据类型    int    bigint ===>long    float     double    string    boolean TRUE/FALSE ==>生产用1/0替换,明显提升性能    date/timestamp 用string替换     decimal  精度很高,银行用到  生产上基本就用这两大类:数值/字符串 数值用于...

2018-05-28 23:56:27

Hive 数据抽象及数据库操作

1)2)数据库操作   数据库:包含一系列的表,是对应HDFS上的一个文件夹,默认是/user/hive/warehouse  1.创建数据库        CREATE(DATABASE|SCHEMA)[IFNOTEXISTS]database_name            [COMMENTdatabase_comment]            [LOCATIONhd...

2018-05-27 17:15:27

Hive 入门及环境搭建

1)Hive主要用途  解决海量结构化日志数据的统计文件,即离线统计分析2)架构图      HIVE本身就是一个客户端,不需要集群。  生产可以在几个hadoop机器上都配hive,目的不是集群,是几个节点都可以提交hive作业。    以上缺陷:MySQL单点故障3)HiveVSRDBMS  1)都是使用sql来查询的  2)实时性:RDBMS实行性高(延时短),Hiv...

2018-05-27 15:15:45

Kafka终极

Kafka生产调优参数:Producer:  acks:all buffer.memory:536870912 compression.type:snappy retries:100    max.in.flight.requests.per.connection=1 batch.size:10000字节不是条数    max.request.size=20...

2018-05-24 23:25:46

Hadoop 文件写流程

1)流程图    2)流程解读  1. 客户端执行命令(或者代码读取),调用的是dfs的create的方法,输入的是要上传的文件目录  2.NN会验证这个目录是否存在和是否有权限去创建。  3.校验完成后,NN会创建一个空文件,还没有数据流和block映射关系,返回给一个FSDataOutputStream的对象  4.客户端调用write方法,将数据流一个一个块地写入  ...

2018-05-24 16:05:09

Hadoop 文件读流程

1)流程图    2)流程解读  1.客户端执行命令(或者代码读取),调用的是dfs的FileSystem.open的方法,open传的是文件路径   2.根据文件路径去NN找,NN把block块和所在位置的信息的映射关系,返回给一个FSDataInoputStream的对象  3.客户端拿到FSDataInoputStream对象(即block块地址列表),根据最近的网段去循环...

2018-05-24 15:07:24

Hadoop 机架及副本策略

1)机架     1.rack机柜,每个机柜分别有各自的IP段      Q:企业里为什么要机架?      A:ip网段1挂了(一般整个机架全挂),网段2还能提供服务    2.管理的机器有机架,为什么可以不使用?    因为使用的是刀片服务器,比如网段为:192.168.138.xxx,可以跟256个机器         假如五台刀片服务器:192.168.138...

2018-05-24 14:12:29

(RDD)五大特性

1)RDD五大特性 * -Alistofpartitions     每个RDD有一堆分区 * -Afunctionforcomputingeachsplit      对于RDD做计算,其实是对于每个分区做相同的function * -AlistofdependenciesonotherRDDs      RDD之类是有依赖关系的;RDDA...

2018-05-20 19:45:58

内存调优

使用SizeEstimator.estimate(RDD),可以实验出占多少内存,也可以知道广播出去的空间2)优化数据结构(TurningDatastructures)------非着重点ThefirstwaytoreducememoryconsumptionistoavoidtheJavafeaturesthataddoverhead,suchaspo...

2018-05-15 14:32:12

(RDD)Lineage 血缘关系 和 Dependence 依赖关系

1)Lineage说明    Lineage 保存了RDD的依赖关系  如:有这样的依赖关系:A=map=>B=filter=>C       假设B的RDD某个分区挂了,就可以通过血缘关系重新计算map的函数获取回来          即:一个RDD是如何从父RDD计算过来的 2)假如某RDD的分区是通过几个分区reducebykey算出来的,这时候得几个...

2018-05-15 10:20:56

(RDD)Accumulators 计数器

1)说明    Accumulatorsarevariablesthatareonly“added”tothroughanassociativeandcommutativeoperationandcanthereforebeefficientlysupportedinparallel.Theycanbeusedtoimplementcount...

2018-05-14 23:46:39

(RDD)Broadcast 广播变量

1)假设某个作业有10000个tasks,每个task上有100M的变量,这个数据是很可怕的  所以:10000tasks==>100executor  广播变量是广播到executor上的,每个executor上的所有task共享2)使用案例  mapjoin  把小表的数据广播出去    BroadcastJoin=MapJoin 3)说明    Broadca...

2018-05-14 23:40:20

(RDD)Cache 缓存使用详解

CacheRDDA==>RDDB==>RDDC 对相同的RDD做action操作cache和persist的区别 cachelazyvalmap=.....//100M10000tasks==>....M100executor BroadcastJoin=MapJoin  read-only     Lineage 血缘关系/血统A=map=&gt...

2018-05-14 21:26:20

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!