6 疯狂哈丘

尚未进行身份认证

暂无相关描述

等级
博文 85
排名 3w+

【linux命令学习】— top 命令学习

文章目录一、基本使用及参数介绍二、top界面各个维度的含义1、第一行(系统相关统计信息)loadaverage解释2、第二行(进程统计信息)3、第三行(cpu相关信息)4、第四行(内存信息)5、第五行(虚拟内存信息)6、第六行+(进程列表)选择指定列展示/不展示进程列表排序顺序调整三、top的一些小问题四、其他当需要排查一些问题或者要看系统的一些指标时,我们经常会用到top命令。但是我们大多...

2019-07-13 10:40:31

Hive导出数据时输出_SUCCESS文件解决方案

文章目录一、_SUCCESS的作用和实现1、输出_SUCCESS文件的代码实现二、Hive任务导出数据时没生成_SUCCESS的原因三、解决方案1、自己实现一个OutputCommitter替代NullOutputCommitter(不建议)2、改写FileSinkOperator(不建议)3、改写MoveTask一、_SUCCESS的作用和实现我们在跑完mr或者spark程序时,会发现...

2019-07-02 18:54:50

HiveServer2 架构源码详解

文章目录一、HiveServer2的启动二、HiveServer2的各个服务组件1、ThriftCLIService2、CLIService3、SessionManager4、OperationManager三、一个命令的具体处理过程1、一个命令的处理流程2、关于SessionHandle和OperationHandlebeeline客户端是如何获取日志输出的四、HiveServer2中的那些重要...

2019-06-29 17:46:29

【linux命令学习】— cut 和 tr 命令学习

文章目录一、cut命令学习按字节进行切割按字符进行切割按指定字符进行切割二、tr命令学习替换字符使用demo-c,-d参数使用demo-s参数使用demo-t参数使用demotr中的一些转义符三、总结一、cut命令学习cut命令主要用来切割字符串,可以对输入的数据进行切割然后输出,它可以支持三种形势的切割:按字节(bytes)进行切割按字符进行切割按指定的分割符进行切割在l...

2019-06-25 20:42:48

Spark MetadataFetchFailedException 问题排查

文章目录一、问题描述二、问题定位Executor异常退出的原因猜测1、OOM导致Executor异常退出2、linuxOOMKiller3、因磁盘问题Executor被yarnKill4、因内存问题Executor被yarnKill问题总结三、解决方案四、扩展:Executor因内存问题被YarnKill的情况1、Overhead区域使用超过预期值2、Executor又开启了子进程导致总...

2019-06-25 16:33:15

Spark任务输出文件过程详解

文章目录一、Spark任务输出文件的总过程二、Commit细节分析1、commitTask介绍1.1、判断是否需要commit1.2、task的commit细节2、commitJob介绍三、V1和V2commiter版本比较1、性能方面2、数据一致性方面3、总结参考资料一、Spark任务输出文件的总过程当一个Job开始执行后,输出文件的相关过程大概如下:1、Job启动时创建一个目录:...

2019-06-14 19:47:52

spark-submit 任务提交过程分析

文章目录一、spark-submit脚本分析二、Main类的作用三、SparkSubmit类提交任务的过程如何和ResourceManger建立连接spark任务配置的优先级client模式的真正运行方式一、spark-submit脚本分析spark-submit的脚本内容很简单:#如果没设置SPARK_HOME的环境变量,调用find-spark-home文件寻找spark-homei...

2019-06-11 19:05:13

Spark Adaptive Execution调研

文章目录一、Spark目前现有的一些问题问题一:Shufflepartition数量没有达到最优问题二:现有执行计划的一些不足问题三:数据倾斜的问题二、SparkAdaptiveExecution提出的相关解决方案1、自动设置ShufflePartition数量一些关键点:开启方式:2、执行过程中动态调整执行计划开启方式:3、自动处理数据倾斜开启方式:三、总结参考资料一、Spark目...

2019-05-29 20:15:33

Spark 任务输出目录_temporary目录未删除问题排查

文章目录一、问题描述二、问题定位三、driverkilltask的时间四、解决方案参考资料一、问题描述在hdfs上看到有个输出目录有_temporary目录,但任务实际已经结束了。有_SUCCESS文件表示这个任务已经结束了。二、问题定位Spark输出数据到HDFS时,需要解决如下问题:由于多个Task同时写数据到HDFS,如何保证要么所有Task写的所有文...

2019-05-29 20:06:44

Spark Thrift Server 架构和原理介绍

文章目录一、SparkThriftServer介绍二、部署SparkThriftServer三、SparkThriftServer的架构四、SparkThriftServer如何执行SQL五、和HiveServer2的区别SparkThriftServer的优点SparkThriftServer的缺点六、结论一、SparkThriftServer介绍SparkTh...

2019-05-19 10:32:23

python利器——pipenv和pyenv介绍

文章目录一、pyenv二、pipenv三、virtualenv四、线上部署参考资料在写python程序时,经常会被版本管理以及第三方包管理搞的很头疼。这两天看了业内相关的解决方案,觉的很不错。一、pyenv我们经常在开发时会需要用到多个python版本,为了解决版本问题,比较常见的做法是修改环境变量来切换版本,但是修改环境变量终究比较麻烦。另外,我们在安装新的python版本时也会小心翼翼,...

2019-05-09 23:10:27

Spark Streaming架构原理剖析

文章目录一、SparkStreaming原理概述二、DStream生成RDD实例的过程1、什么是DStream2、DStreamGraph3、通过DStream生成RDD实例3.1何时生成RDD实例3.2如何通过DStream生成RDD实例3.3.1、一般DStream生成RDD的过程3.3.2、InputDStream生成RDD的过程三、数据的收集和划分1、Receiver的启动过程2、...

2019-05-06 20:43:33

Hive ACID和事务表支持详解

文章目录一、ACID介绍二、使用限制三、支持的一些新的语法四、主要设计和实现base和delta文件夹的基本结构事务表的读取delta文件的压缩1、压缩类型2、Initiator组件3、Worker4、Cleaner5、AcidHouseKeeperService6、SHOWCOMPACTIONS事务表的隐藏字段五、相关配置客户端方面的修改服务端方面为事务新增的相关配置一些旧的配置修改...

2019-04-28 19:17:10

Spark 动态资源失效问题排查

文章目录一、问题描述二、动态资源相关原理初试executor数量executor数量的变动1、ExecutorAdd2、ExecutorRemove三、问题定位SparkTask的本地化调度本地化调度级别没有及时推进导致的问题四、解决方案1、问题一2、问题二3、总结一、问题描述最近开启动态资源后,有用户反馈他的任务运行很慢,去SparkHistoryServer页面看了下,发现只剩下一...

2019-04-20 14:28:48

Hdfs FileSystem 使用姿势不对导致的内存泄露

文章目录一、问题描述二、问题排查JavaHeapDump文件使用Jmap获取运行中的jvm内存在Jhat页面查找对应类实例具体的引用问题定位三、解决方案四、总结一、问题描述有用户反馈访问httpfs服务偶尔出现502的情况,所以上httpfs服务器看了下,发现有一台因为OOM挂掉了(运维告警没弄好,所以没及时通知到)。目前有两台HttpFs,通过nginx转发,如果刚好请求转发到挂掉的那...

2019-04-14 21:25:39

Hive提交到yarn的任务一直在running问题排查

一、问题描述最近有数据平台的同学反馈yarn上面有一些任务跑了很久没有结束,状态一直处于running中。去SparkHistoryServer查看任务详情也没看到相关运行记录,需要人为手动kill任务才会停止并释放资源。二、问题排查从SparkHistoryServer可以看出,任务的Driver虽然启动了,但是并未执行job,并且一直阻塞在那没有退出。从yarn的角度来看,这个...

2019-04-13 15:46:50

写博客一年多的一些感想

今天闲来无事翻了下自己的往期博客,发现从去年3月起至今日,我已经坚持写了1年多的博客。这一年平均下来一个月也有4、5篇,不禁颇有感触。刚毕业的时候,有写过几篇很水的博客,都还留在CSDN上,虽然质量不怎么样,但作为早年的回忆,也没把那些博客删掉。正如那几年的博客数量所映射的,在毕业的这2、3年里,感觉自己进步很小,虽然也有在学习,但学习速度很慢,并没有得到突破性的成长。所幸去年因为要跳槽开始醒悟...

2019-03-23 20:25:18

yarn ResourceManager Active频繁易主问题排查

文章目录一、故障现象二、问题分析RM的HA机制分析ZK问题分析部分任务状态更新失败问题分析三、解决和优化方案1.调大jute.maxbuffer参数2.修改yarn的源码3.快速让集群恢复稳定的方法四、总结本周三公司的yarn集群出现故障,导致两台ResourceManger频繁易主,并且许多提交到集群的任务状态为NEW_SAVING,无法执行。这里对此次的故障排查进行一个总结。一、...

2019-03-23 11:44:37

不要替换运行中JVM的相关jar包

文章目录具体场景具体原因探索总结在java程序运行时,如果替换classpath下的某个jar包文件,可能会导致程序出现ClassNotFoundException**。具体场景我们要升级线上服务时,可能经常只需要替换其中一两个jar包即可完成升级。有时我们为了方便,经常会先替换完jar包再进行重启。其实这样的做法会有一个隐患,如果在你重启之前程序需要从这个jar包加载某个类的话,即使这个类...

2019-03-22 22:52:37

Java JVMTI和Instrumention机制介绍

文章目录1、JVMTI介绍1.1Agent的工作形式1.2JDPA相关介绍2、Instrumention机制2.1Instrumention支持的功能2.2基于Instrumention开发一个Agent2.2.1编写premain函数2.2.2打成jar包2.2.3编写测试类2.3如何在运行时加载agent3、参考资料1、JVMTI介绍JVMTI(JVMToolI...

2019-03-09 16:17:35
奖章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。