6 疯狂哈丘

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

Hbase 读写流程分析

先占个坑,后面来补

2019-09-30 10:22:54

【linux命令学习】— sar 命令学习

文章目录一、命令使用介绍二、系统各个维度的性能分析1、CPU相关指标1.1、-P或者-u输出CPU使用情况的统计信息1.2、-q输出CPU队列的相关统计信息2、磁盘相关指标(建议用iostat)2.1、-b输出磁盘基本信息2.2、-d输出磁盘更详细的信息2.3、小结3、内存相关指标(-n参数)3.1、-r查看内存的使用情况3.2、-B查看内存分页的情况3.3、-W查看...

2019-09-20 19:46:00

【转发】算力提升117%,资源使用下降50%,打开集群优化正确姿势

导读:美图日益增长的庞大数据和计算任务,对大数据集群的计算能力、存储能力、稳定性、扩展性等都提出了较大的挑战。目前美图技术团队针对大数据集群做了系列的优化,通过对计算引擎进行改造而达到算力的提升,通过对集群的不断优化提升稳定性的同时规范集群使用。在大数据集群优化的实践中,我们也总结了一些实践经验,也期待和大家有更多的探讨。作者简介:余谦,来自数据智能部的大数据部团队,2018年2月加入美图,...

2019-09-05 10:16:13

【Hive任务优化】—— 小文件合并相关参数

sethive.merge.mapfiles=true;sethive.merge.mapredfiles=true;sethive.merge.smallfiles.avgsize=256000000;sethive.merge.size.per.task=256000000;(未完待续)

2019-08-31 21:31:38

Hbase中的各个组件介绍

文章目录一、Hbase中的4大组件1、hbase-client2、Zookeeper3、HMaster4、HRegionServer二、Hbase组件的HA保证1、zk的HA保证2、HMaster的HA保证3、HRegionServer的HA保证一、Hbase中的4大组件1、hbase-client客户端,用来访问hbase集群。可以和Hbase交互,也可以和HRegionServer交互...

2019-08-28 19:23:56

Spark TaskAttempt目录未删除问题排查

文章目录一、问题描述二、问题分析三、总结一、问题描述有业务反馈spark任务结束后会遗留一些attempt目录在输出目录上,影响数据的读取。主要现象如下:二、问题分析之前排查过一个类似的问题,也是输出目录下有个遗留的_temporary目录未删除干净:Spark任务输出目录_temporary目录未删除问题排查一开始以为就是这个问题,但是仔细分析了下,发现逻辑走不通。因此仔细做了下...

2019-08-03 17:47:40

【linux命令学习】— iostat 命令学习

当我们要看系统IO情况时,一般最先想到的应该就是iostat命令的。iostat提供了丰富的参数给我们查询各种维度的io数据。学习iostat有助于我们排查IO相关问题时可以更快的定位到问题根源。以下内容大多来自iostat的man文档,会加上部分自己的理解,英文水平好的同学也可以直接看man文档一、命令相关参数命令使用:iostat[-c][-d][-N][-n...

2019-08-03 17:08:18

MapReduce任务运行慢问题排查

文章目录一、问题描述二、问题分析1、第一次失败(yarn的磁盘健康检查机制导致的任务失败)2、第二次失败(map和reduce资源竞争导致的死锁)三、总结参考资料一、问题描述今天有业务反馈有个MapReduce任务运行很慢,于是看了下JobHIstory上任务的运行情况,发现任务就剩一个reduce还在执行,当时第一反应以为是出现了数据倾斜。但实际排查后发现不是,因为这个任务的reducet...

2019-07-31 18:11:04

【Hive任务优化】—— Map、Reduce数量调整

文章目录一、如何调整任务map数量1、FileInputFormat的实现逻辑介绍1.1getSplits方法实现2、CombineFileInputFormat的实现逻辑介绍2.1getSplits方法实现3、HiveInputFormat的实现逻辑介绍4、CombineHiveInputFormat的实现逻辑介绍5、map数量调整总结二、如何调整任务reduce数量三、关于maptas...

2019-07-26 10:30:40

【linux命令学习】— top 命令学习

文章目录一、基本使用及参数介绍二、top界面各个维度的含义1、第一行(系统相关统计信息)loadaverage解释2、第二行(进程统计信息)3、第三行(cpu相关信息)4、第四行(内存信息)5、第五行(虚拟内存信息)6、第六行+(进程列表)选择指定列展示/不展示进程列表排序顺序调整三、top的一些小问题四、其他当需要排查一些问题或者要看系统的一些指标时,我们经常会用到top命令。但是我们大多...

2019-07-13 10:40:31

Hive导出数据时输出_SUCCESS文件解决方案

文章目录一、_SUCCESS的作用和实现1、输出_SUCCESS文件的代码实现二、Hive任务导出数据时没生成_SUCCESS的原因三、解决方案1、自己实现一个OutputCommitter替代NullOutputCommitter(不建议)2、改写FileSinkOperator(不建议)3、改写MoveTask一、_SUCCESS的作用和实现我们在跑完mr或者spark程序时,会发现...

2019-07-02 18:54:50

HiveServer2 架构源码详解

文章目录一、HiveServer2的启动二、HiveServer2的各个服务组件1、ThriftCLIService2、CLIService3、SessionManager4、OperationManager三、一个命令的具体处理过程1、一个命令的处理流程2、关于SessionHandle和OperationHandlebeeline客户端是如何获取日志输出的四、HiveServer2中的那些重要...

2019-06-29 17:46:29

【linux命令学习】— cut 和 tr 命令学习

文章目录一、cut命令学习按字节进行切割按字符进行切割按指定字符进行切割二、tr命令学习替换字符使用demo-c,-d参数使用demo-s参数使用demo-t参数使用demotr中的一些转义符三、总结一、cut命令学习cut命令主要用来切割字符串,可以对输入的数据进行切割然后输出,它可以支持三种形势的切割:按字节(bytes)进行切割按字符进行切割按指定的分割符进行切割在l...

2019-06-25 20:42:48

Spark MetadataFetchFailedException 问题排查

文章目录一、问题描述二、问题定位Executor异常退出的原因猜测1、OOM导致Executor异常退出2、linuxOOMKiller3、因磁盘问题Executor被yarnKill4、因内存问题Executor被yarnKill问题总结三、解决方案四、扩展:Executor因内存问题被YarnKill的情况1、Overhead区域使用超过预期值2、Executor又开启了子进程导致总...

2019-06-25 16:33:15

Spark任务输出文件过程详解

文章目录一、Spark任务输出文件的总过程二、Commit细节分析1、commitTask介绍1.1、判断是否需要commit1.2、task的commit细节2、commitJob介绍三、V1和V2commiter版本比较1、性能方面2、数据一致性方面3、总结参考资料一、Spark任务输出文件的总过程当一个Job开始执行后,输出文件的相关过程大概如下:1、Job启动时创建一个目录:...

2019-06-14 19:47:52

spark-submit 任务提交过程分析

文章目录一、spark-submit脚本分析二、Main类的作用三、SparkSubmit类提交任务的过程如何和ResourceManger建立连接spark任务配置的优先级client模式的真正运行方式一、spark-submit脚本分析spark-submit的脚本内容很简单:#如果没设置SPARK_HOME的环境变量,调用find-spark-home文件寻找spark-homei...

2019-06-11 19:05:13

Spark Adaptive Execution调研

文章目录一、Spark目前现有的一些问题问题一:Shufflepartition数量没有达到最优问题二:现有执行计划的一些不足问题三:数据倾斜的问题二、SparkAdaptiveExecution提出的相关解决方案1、自动设置ShufflePartition数量一些关键点:开启方式:2、执行过程中动态调整执行计划开启方式:3、自动处理数据倾斜开启方式:三、总结参考资料一、Spark目...

2019-05-29 20:15:33

Spark 任务输出目录_temporary目录未删除问题排查

文章目录一、问题描述二、问题定位三、driverkilltask的时间四、解决方案参考资料一、问题描述在hdfs上看到有个输出目录有_temporary目录,但任务实际已经结束了。有_SUCCESS文件表示这个任务已经结束了。二、问题定位Spark输出数据到HDFS时,需要解决如下问题:由于多个Task同时写数据到HDFS,如何保证要么所有Task写的所有文...

2019-05-29 20:06:44

Spark Thrift Server 架构和原理介绍

文章目录一、SparkThriftServer介绍二、部署SparkThriftServer三、SparkThriftServer的架构四、SparkThriftServer如何执行SQL五、和HiveServer2的区别SparkThriftServer的优点SparkThriftServer的缺点六、结论一、SparkThriftServer介绍SparkTh...

2019-05-19 10:32:23

python利器——pipenv和pyenv介绍

文章目录一、pyenv二、pipenv三、virtualenv四、线上部署参考资料在写python程序时,经常会被版本管理以及第三方包管理搞的很头疼。这两天看了业内相关的解决方案,觉的很不错。一、pyenv我们经常在开发时会需要用到多个python版本,为了解决版本问题,比较常见的做法是修改环境变量来切换版本,但是修改环境变量终究比较麻烦。另外,我们在安装新的python版本时也会小心翼翼,...

2019-05-09 23:10:27

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。