qq_30130043-CSDN博客

转载转：关于解决数据倾斜的方案

https://blog.csdn.net/lingbo229/article/details/82345991 http://www.aboutyun.com/thread-23803-1-1.html

2018-09-03 11:16:49 185

转载转：Kafka史上最详细原理总结

https://blog.csdn.net/lingbo229/article/details/80761778?tdsourcetag=s_pctim_aiomsg

2018-08-21 11:13:59 542

原创 Hive 优化

1）优化的宏观角度架构：这个是最重要的，是全局的 1. 分区表：线上环境是普遍存在的，数据量大，不做好合适的分区会导致查询性能极致下降 2. 合理利用中间结果集说明：假如sql1子查询包含：select a,b,c,z from xxx group ... 假如sql2子查询包含：sel...

2018-05-31 21:47:15 270

原创 Hive 内置函数和UDF函数

1）内置函数 hive> show functions; // 显示所有函数，比官网详细 hive> desc function substr; // 查看函数的详细信息 hive> desc function extended substr; // 查看函数的更详细信息，包括语法（substr的pos从1开始，<0是从尾开始）2）UDF...

2018-05-30 21:27:57 1367

原创 Hive HiveServer2使用

HiveServer2，即HS2。是一个服务1）开启HiveServer2 $HIVE_HOME/bin/hiveserver22）HiveServer2 配合 beeline 的用法 1. $HIVE_HOME/config/beeline !connect jdbc:hive2://localhost:10000 user password（10000就是HS2的...

2018-05-30 20:11:08 771

原创 Hive 分区

分区表：也是对应于HDFS上的文件夹1）静态分区单级分区：CREATE TABLE ruoze_order_partition ( order_number string, event_time string ) PARTITIONED BY (event_m...

2018-05-30 19:28:59 133

原创 Hive DML操作（插入、导出、导入）

DML Data Manipulation Language1）插入数据操作 1. LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] // 插入 OVERWRITE...

2018-05-30 16:28:23 207

原创 Hive 数据类型及数据表操作

1）数据类型 int bigint ===> long float double string boolean TRUE/FALSE ==> 生产用1/0替换，明显提升性能 date/timestamp 用string替换 decimal 精度很高，银行用到生产上基本就用这两大类：数值/字符串数值用于...

2018-05-28 23:56:27 219

原创 Hive 数据抽象及数据库操作

1）2）数据库操作数据库：包含一系列的表，是对应HDFS上的一个文件夹，默认是/user/hive/warehouse 1. 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hd...

2018-05-27 17:15:27 226

原创 Hive 入门及环境搭建

1）Hive主要用途解决海量结构化日志数据的统计文件，即离线统计分析2）架构图 HIVE本身就是一个客户端，不需要集群。生产可以在几个hadoop机器上都配hive，目的不是集群，是几个节点都可以提交hive作业。以上缺陷：MySQL单点故障3）Hive VS RDBMS 1）都是使用sql来查询的 2）实时性：RDBMS实行性高（延时短），Hiv...

2018-05-27 15:15:45 276

原创 Kafka终极

Kafka 生产调优参数:Producer: acks: all buffer.memory: 536870912 compression.type :snappy retries: 100 max.in.flight.requests.per.connection = 1 batch.size: 10000 字节不是条数 max.request.size = 20...

2018-05-24 23:25:46 1535

原创 Hadoop 文件写流程

1）流程图 2）流程解读 1. 客户端执行命令（或者代码读取），调用的是dfs的create的方法，输入的是要上传的文件目录 2. NN会验证这个目录是否存在和是否有权限去创建。 3. 校验完成后，NN会创建一个空文件，还没有数据流和block映射关系，返回给一个FSDataOutputStream的对象 4. 客户端调用write方法，将数据流一个一个块地写入 ...

2018-05-24 16:05:09 263

原创 Hadoop 文件读流程

1）流程图2）流程解读 1. 客户端执行命令（或者代码读取），调用的是dfs的FileSystem.open的方法，open传的是文件路径 2. 根据文件路径去NN找，NN把block块和所在位置的信息的映射关系，返回给一个FSDataInoputStream的对象 3. 客户端拿到FSDataInoputStream对象（即block块地址列表），根据最近的网段去循环...

2018-05-24 15:07:24 355 1

原创 Hadoop 机架及副本策略

1）机架 1. rack机柜，每个机柜分别有各自的 IP 段 Q：企业里为什么要机架？ A：ip网段1挂了（一般整个机架全挂），网段2还能提供服务 2. 管理的机器有机架，为什么可以不使用？因为使用的是刀片服务器，比如网段为：192.168.138.xxx，可以跟256个机器假如五台刀片服务器：192.168.138...

2018-05-24 14:12:29 1014

原创（RDD）五大特性

1）RDD五大特性 * - A list of partitions 每个RDD有一堆分区 * - A function for computing each split 对于RDD做计算，其实是对于每个分区做相同的function * - A list of dependencies on other RDDs RDD之类是有依赖关系的；RDDA ...

2018-05-20 19:45:58 463

使用SizeEstimator.estimate(RDD)，可以实验出占多少内存，也可以知道广播出去的空间2）优化数据结构（Turning Data structures） ------ 非着重点The first way to reduce memory consumption is to avoid the Java features that add overhead, such as po...

2018-05-15 14:32:12 331

原创（RDD）Lineage 血缘关系和 Dependence 依赖关系

1）Lineage 说明 Lineage 保存了RDD的依赖关系如：有这样的依赖关系：A =map=> B =filter=>C 假设B的RDD某个分区挂了，就可以通过血缘关系重新计算map的函数获取回来即：一个RDD是如何从父RDD计算过来的 2）假如某RDD的分区是通过几个分区reducebykey算出来的，这时候得几个...

2018-05-15 10:20:56 3239

原创（RDD）Accumulators 计数器

1）说明 Accumulators are variables that are only “added” to through an associative and commutative operation and can therefore be efficiently supported in parallel. They can be used to implement count...

2018-05-14 23:46:39 393

原创（RDD）Broadcast 广播变量

1）假设某个作业有10000个tasks，每个task上有100M的变量，这个数据是很可怕的所以：10000tasks ==>100 executor 广播变量是广播到executor上的，每个executor上的所有task共享2）使用案例 map join 把小表的数据广播出去 BroadcastJoin = MapJoin 3）说明 Broadca...

2018-05-14 23:40:20 1167

原创（RDD）Cache 缓存使用详解

CacheRDDA ==> RDDB ==> RDDC 对相同的RDD做action操作cache和persist的区别 cache lazyval map = ..... //100M10000tasks ==> ....M100 executor BroadcastJoin = MapJoin read-only Lineage 血缘关系/血统A =map=&gt...

2018-05-14 21:26:20 2708

原创 HistoryServer 相关

1）开关 $SPARK_HOME ./sbin/start-history-server.sh2）日志记到什么地方去 $SPARK_HOME vi /conf/spark-defaults.conf spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop000:8020/spark...

2018-05-14 00:39:02 141

原创 Spark 编译全过程

1）官网下载source源码。版本：spark-2.2.0 [root@hadoop000 spark-2.2.0]# wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0.tgz --no-check-certificate2）解压[root@hadoop000 spark-2.2.0]# tar ...

2018-05-12 14:39:08 174

原创 Hadoop 高级（一）

1）Hadoop集群的规划学习部署：1台 4G VM 集群部署：3台/5台 VM 生产部署：实时数仓1+2+242）Zookeeper组件 http://zookeeper.apache.org/ 2.1 概念分布式服务框架。协调服务 Q：HDFS的NN（namenode）和SNN(second namenode)，checkpoi...

2018-05-04 10:23:46 293

原创 Kafka 3

1）Kafka的消费语义分析（面试）Flume-->Kafka-->Spark streamingFlume: source: CDH NN LOG / xxx.logsink: kafkaAt most once: 最多一次，消息可能丢失，但是不会重复投递At lea...

2018-04-29 20:04:15 558 1

原创 Kafka 2

1）核心概念：./kafka-topics.sh --create \--zookeeper 192.168.137.141:2181,192.168.137.142:2181,192.168.137.143:2181/kafka \--replication-factor 3 --partitions 3 --topic ruozedata...

2018-04-26 23:11:28 537 1

原创 Kafka 1

Kafka A distributed streaming platform. 使用心得：很多大数据的框架都会使用到kafka，核心是在业务高峰的时候起到了缓冲的作用，避免计算压力过大；其次kafka能做到分布式的、高效的消息系统。1）Kafka 两种案例说明Kafka is generally used for two broad classes of applicatio...

2018-04-25 21:43:40 263 1

原创 Flume 进阶

1）基于exec解决文件小的问题 hdfs.rollInterval 30 根据时间滚动，滚动文件的时间间隔，需要调整这个值（配置0，永远不滚动） hdfs.rollSize 1024 根据大小滚动，单位字节（配置0，永远不根据大小滚动） hdfs.rollCount 10 根据条数滚动（配置0，永远不根据...

2018-04-25 01:34:20 230

原创 Flume 入门

1）Flume产生背景如果数据在关系型数据库（RDBMS）里面，可通过Sqoop进行抽取。（Spark SQL可代替）如果日志在其他机器上，就有了Flume的产生；Flume就是干日志采集的事情。2）From outside To inside：如何使用集群外的数据，得先抽取到Hadoop集群中。 3）定时收集ng产生的日志到HDFS 传统shell方式 {...

2018-04-22 18:56:00 298

转载 Spark SQL 4

1) mock data2) DataFrame vs Dataset DataFrame = Dataset[Row] SchemaRDD ============> DataFrame ==========> Dataset rename due to compile-time type safety(编译时就能提示错误) OO structure change Cata...

2018-04-11 00:16:48 72

转载 Spark SQL3

Spark SQL Story Write less code spark.table("").groupBy()..... 从wc的角度来看： external datasource api schema json："dirty" V1：id username age("20") V2：id username nickname age address V3： ...

2018-04-09 00:28:35 202

转载 Spark SQL 2

RDD <==> DataFrame reflection infer scheme 使用反射推导RDD的schema RDD : know the schema case class 好处：底层调用的是apply方法一句话：预先定义好一个case class,然后通过文件读进来变成一个RDD，把每一行的元素作用到case class上 progr...

2018-04-07 21:43:14 98

转载 Spark SQL 1

Spark SQL 1.0 Shark Spark SQL ==> Spark Hive on Spark ==> Hive SparkSQL on Hive ........Spark SQL is not about SQLSpark SQL is about more than SQLSpark SQL is Apache Spark's module for wo...

2018-04-07 18:42:55 570

转载 spark core 4

Memory execution： computation storage： caching and propagating 1.6 StaticMemoryManager 1.6+ UnifiedMemoryManager SizeEstimator.estimate(file) List<Integer> list = new ArrayList<Integer&gt...

2018-04-07 17:22:13 150

转载 spark core 3

sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1...

2018-04-07 11:42:20 117

转载 Spark Core2

CacheRDDA ==> RDDB ==> RDDC 对相同的RDD做action操作cache和persist的区别 cache lazyval map = ..... //100M10000tasks ==> ....M100 executor BroadcastJoin = MapJoin read-only Lineage 血缘关系/血统A =map=&gt...

2018-04-04 20:23:43 100

转载 Spark Core 1

Spark Core API来实现一些案例 create table states_raw(code string, name string)ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";load data local inpath "/home/hadoop/data/seq.txt" overwrite into table states_raw...

2018-04-04 00:12:29 99

转载 Spark on YARN

Spark on YARNMapReduce1.x JobTracker 资源的管理和作业的调度 TaskTracker 单点缺点:单点故障，作业没法提交 JobTracker是瓶颈仅支持MapReduce 资源利用率空闲时没有利用好资源 Hadoop2.x YARN ApplicationMaster 职责：管理Task作业 RM 要配HA...

2018-04-01 22:34:57 155

转载 Hive函数

函数build-in cast(value AS TYPE) cast('100' AS INT) binary类型==>string binary==>string==>int User-Defined Functions (UDFs) built-in的满足不了我们的业务需求自定义函数 db2/oracle ==> 云化(Hadoop)UDF: one2one...

2018-03-27 20:43:30 197

转载 Hive(DML)

INSERT OVERWRITE [LOCAL] DIRECTORY directory1 [ROW FORMAT row_format] [STORED AS file_format] SELECT ... FROM ... INSERT OVERWRITE LOCAL DIRECTORY '/home/hadoop/tmp/hivetmp'ROW FORMAT DELIMITED ...

2018-03-27 00:15:21 135

转载 Hive(DLL)

Hive DDL Data Definition Language create drop alter Database 数据库：必然是包含一系列的表是对应HDFS上的一个文件夹 default： /user/hive/warehouseCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name[COMMENT database_commen...

2018-03-26 21:23:17 257

空空如也

空空如也