5 qq_30130043

尚未进行身份认证

暂无相关简介

等级
TA的排名 19w+

转:关于解决数据倾斜的方案

 https://blog.csdn.net/lingbo229/article/details/82345991 http://www.aboutyun.com/thread-23803-1-1.html

2018-09-03 11:16:49

转:Kafka史上最详细原理总结

https://blog.csdn.net/lingbo229/article/details/80761778?tdsourcetag=s_pctim_aiomsg

2018-08-21 11:13:59

Hive 优化

1)优化的宏观角度        架构:这个是最重要的,是全局的        1. 分区表:线上环境是普遍存在的,数据量大,不做好合适的分区会导致查询性能极致下降        2. 合理利用中间结果集            说明:假如sql1子查询包含:select a,b,c,z from xxx group ...                       假如sql2子查询包含:sel...

2018-05-31 21:47:15

Hive 内置函数和UDF函数

1)内置函数    hive> show functions;    // 显示所有函数,比官网详细    hive> desc function substr;    // 查看函数的详细信息    hive> desc function extended substr;    // 查看函数的更详细信息,包括语法(substr的pos从1开始,<0是从尾开始)2)UDF...

2018-05-30 21:27:57

Hive HiveServer2使用

HiveServer2,即HS2。是一个服务1)开启HiveServer2    $HIVE_HOME/bin/hiveserver22)HiveServer2 配合 beeline 的用法    1.  $HIVE_HOME/config/beeline         !connect jdbc:hive2://localhost:10000 user password(10000就是HS2的...

2018-05-30 20:11:08

Hive 分区

分区表:也是对应于HDFS上的文件夹1)静态分区    单级分区:CREATE TABLE ruoze_order_partition (                        order_number string,                        event_time string                     ) PARTITIONED BY (event_m...

2018-05-30 19:28:59

Hive DML操作(插入、导出、导入)

DML   Data Manipulation Language1)插入数据操作    1. LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename         [PARTITION (partcol1=val1, partcol2=val2 ...)]    // 插入            OVERWRITE...

2018-05-30 16:28:23

Hive 数据类型及数据表操作

1) 数据类型    int    bigint   ===> long    float     double    string    boolean   TRUE/FALSE  ==> 生产用1/0替换,明显提升性能    date/timestamp   用string替换     decimal    精度很高,银行用到    生产上基本就用这两大类:数值/字符串  数值用于...

2018-05-28 23:56:27

Hive 数据抽象及数据库操作

1)2)数据库操作     数据库:包含一系列的表,是对应HDFS上的一个文件夹,默认是/user/hive/warehouse    1. 创建数据库        CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name            [COMMENT database_comment]            [LOCATION hd...

2018-05-27 17:15:27

Hive 入门及环境搭建

1)Hive主要用途    解决海量结构化日志数据的统计文件,即离线统计分析2)架构图        HIVE本身就是一个客户端,不需要集群。    生产可以在几个hadoop机器上都配hive,目的不是集群,是几个节点都可以提交hive作业。    以上缺陷:MySQL单点故障3)Hive VS RDBMS    1)都是使用sql来查询的    2)实时性:RDBMS实行性高(延时短),Hiv...

2018-05-27 15:15:45

Kafka终极

Kafka 生产调优参数:Producer:  acks: all buffer.memory: 536870912 compression.type :snappy retries: 100        max.in.flight.requests.per.connection = 1 batch.size: 10000 字节 不是条数        max.request.size = 20...

2018-05-24 23:25:46

Hadoop 文件写流程

1)流程图    2)流程解读    1. 客户端执行命令(或者代码读取),调用的是dfs的create的方法,输入的是要上传的文件目录    2. NN会验证这个目录是否存在和是否有权限去创建。    3. 校验完成后,NN会创建一个空文件,还没有数据流和block映射关系,返回给一个FSDataOutputStream的对象    4. 客户端调用write方法,将数据流一个一个块地写入   ...

2018-05-24 16:05:09

Hadoop 文件读流程

1)流程图    2)流程解读    1. 客户端执行命令(或者代码读取),调用的是dfs的FileSystem.open的方法,open传的是文件路径     2. 根据文件路径去NN找,NN把block块和所在位置的信息的映射关系,返回给一个FSDataInoputStream的对象    3. 客户端拿到FSDataInoputStream对象(即block块地址列表),根据最近的网段去循环...

2018-05-24 15:07:24

Hadoop 机架及副本策略

1)机架     1. rack机柜,每个机柜分别有各自的 IP 段        Q:企业里为什么要机架?        A:ip网段1挂了(一般整个机架全挂),网段2还能提供服务    2. 管理的机器有机架,为什么可以不使用?        因为使用的是刀片服务器,比如网段为:192.168.138.xxx,可以跟256个机器            假如五台刀片服务器:192.168.138...

2018-05-24 14:12:29

(RDD)五大特性

1)RDD五大特性 *  - A list of partitions        每个RDD有一堆分区 *  - A function for computing each split        对于RDD做计算,其实是对于每个分区做相同的function *  - A list of dependencies on other RDDs        RDD之类是有依赖关系的;RDDA ...

2018-05-20 19:45:58

内存调优

使用SizeEstimator.estimate(RDD),可以实验出占多少内存,也可以知道广播出去的空间2)优化数据结构(Turning Data structures) ------ 非着重点The first way to reduce memory consumption is to avoid the Java features that add overhead, such as po...

2018-05-15 14:32:12

(RDD)Lineage 血缘关系 和 Dependence 依赖关系

1)Lineage 说明    Lineage  保存了RDD的依赖关系    如:有这样的依赖关系:A =map=> B =filter=>C            假设B的RDD某个分区挂了,就可以通过血缘关系重新计算map的函数获取回来            即:一个RDD是如何从父RDD计算过来的 2)假如某RDD的分区是通过几个分区reducebykey算出来的,这时候得几个...

2018-05-15 10:20:56

(RDD)Accumulators 计数器

1)说明    Accumulators are variables that are only “added” to through an associative and commutative operation and can therefore be efficiently supported in parallel. They can be used to implement count...

2018-05-14 23:46:39

(RDD)Broadcast 广播变量

1)假设某个作业有10000个tasks,每个task上有100M的变量,这个数据是很可怕的    所以:10000tasks ==>100 executor    广播变量是广播到executor上的,每个executor上的所有task共享2)使用案例    map join    把小表的数据广播出去    BroadcastJoin = MapJoin 3)说明    Broadca...

2018-05-14 23:40:20

(RDD)Cache 缓存使用详解

CacheRDDA ==> RDDB ==> RDDC 对相同的RDD做action操作cache和persist的区别 cache lazyval map = ..... //100M10000tasks ==> ....M100 executor BroadcastJoin = MapJoin  read-only     Lineage  血缘关系/血统A =map=&gt...

2018-05-14 21:26:20

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!