10 wankunde

尚未进行身份认证

暂无相关描述

等级
博文 236
排名 2w+

Spark DAG 执行流程

文章目录Action启动程序执行DAGScheduler.scala提交Job执行根据Job创建StageDAG图Stage执行结束Task的调度和执行Action启动程序执行//Dataset.scala//scalastyle:offprintlndefshow(numRows:Int,truncate:Boolean):Unit=if(t...

2019-05-30 18:45:38

Spark SQL 程序调度执行框架(一)

NodeManager启动ExecutorShell启动脚本NodeManagerdefault_container_executor.shbash-c‘java..CoarseGrainedExecutorBackend’-->启动Executor接收task计算任务bash-c‘java..ExecutorLauncher’-->这里应该是直接奔着...

2019-05-30 18:33:53

Spark 读取和使用Hive Permanent Function 原理

SparkFunctionRegisterSpark2.*UDF查找过程//Spark程序启动objectSparkSubmit:main(args)0="--class"1="org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver"2="spark-internal"c...

2019-05-30 18:22:27

ORC文件存储格式和数据写入过程

文章目录ORC文件格式,配置参数及相关概念ORC文件格式UML类图OrcFilewriter创建OrcFileWriter配置参数相关概念动态数组DynamicIntArray和DynamicByteArray初始化chunk扩容OrcFilewriter的write()方法写数据WriterImpladdRow程序入口StringTreeWriter:voidw...

2019-05-16 18:05:54

StandBy NameNode 合并并回传FSImage

文章目录启动StandbyCheckpointerdoCheckpointsaveFSImage文件启动独立线程,SNN向NNPUTFSImageImageServlet接收FSImage启动StandbyCheckpointer//接上篇StandbyStatepublicvoidenterState(HAContextcontext)NameNodeHAConte...

2019-05-09 20:33:14

Hadoop HDFS HA 状态切换源码

文章目录NameNode启动进入StandByStateZKFC进程监控和切换NameNodeHAState启动HDFSZKFC服务启动HealthMonitor服务NameNodeRpcServerdoHealthChecks()ActiveStandbyElector和ActiveStandbyElectorCallbackzkClient操作异步方法回调Elector...

2019-05-09 20:13:09

HDFS NAMENODE QJM HA方案实现-1

文章目录JournalNodeQJM方案对象实现过程确定EditsDirs实例FSImage和FSEditLogNameNode服务启动和journalSet实例初始化journalSet初始化JournalManager/QuorumJournalManager初始化AsyncLoggerSetclassIPCLoggerChannelimplementsAsyncL...

2019-05-08 19:06:12

Hadoop Metrics2实现原理

HadoopMetrics2的实现应该是在14年左右就已经非常成熟了,研究的人也比较多了。一个出现很久的东西,并非没有学习价值。如Metrics2和之前的Metrics一代做了哪些改进?如果我们自己设计一套Metrics信息,哪些是可以借鉴的地方?所有Source和Sink全部是可配置的(和我们常见的Log4j配置一样),这样可以在不修改源码的情况下,自定义Metrics的监控Met...

2019-05-03 22:14:42

Spark是如何实现远程Thread Dump 的?

问题研究入口还是从web页面ExecutorThreadDumpPage入手,提供ThreadDump的入口在SparkContext的getExecutorThreadDump方法。//1.查看ExecutorThread页面入口,通过executorId获取ThreadDump,private[ui]classExecutorThreadDumpPage(paren...

2019-05-03 22:04:18

Spark Metrics实现原理

Spark任务的Metrics是通过Spark中的accumulator来辅助实现的。accumulator定义//1.1定义accumulator来收集task运行统计信息,包括runTime,cpuTime,GCTime等classTaskMetricsprivate[spark]()extendsSerializable{//Eachmetri...

2019-05-03 21:53:18

Linux DevOps

grafana搭建软件下载和安装https://grafana.com/grafana/download?platform=linuxwgethttps://dl.grafana.com/oss/release/grafana-6.1.3-1.x86_64.rpmsudorpm-ivhgrafana-6.1.3-1.x86_64.rpmsudo/sbin/chkconfig...

2019-04-18 12:43:25

Spark Scan大表时任务启动过慢分析

问题背景测试SQLselectasset_inout_ex['asset_inout_1c_sum_1'],dtfromASSET_INOUT_AMTawheredt<20181119andcust_code=0000000orderbydtlimit10000;因为原始表中有456个DT分区,所以DAG中是一个包含456个HadoopRDD的Un...

2019-03-13 18:37:12

Spark SQL 学习比较-1

ParallelCollectionRDD到DataFrame生成步骤通过spark.sparkContext.parallelize(Seq)创建ParallelCollectionRDD通过implicit方法rddToDatasetHolder(),进入_sqlContext.createDataset(rdd)rdd被包装为SerializeFromObject...

2019-02-27 20:39:05

Spark CBO

HIVE0.14CostBasedOptimizer(CBO)TechnicalOverviewCBO三个优化效果JoinorderingoptimizationBushyjoinsupportJoinsimplificationEqui-depthHistogramConstructionforBigDatawithQualityGuara...

2019-02-12 11:39:45

A Deep Dive into Spark SQL's Catalyst Optimizer with Yin Huai

ADeepDiveintoSparkSQL’sCatalystOptimizerwithYinHuaiTwokindQueryPlanLogicalPlanPhysicalPlanTwokindTransformations

2019-02-01 16:08:15

honest-profiler编译测试

yumremoveautomakeautoconfcppunit-devellibtoolwgethttp://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gztar-zxvfautoconf-2.69.tar.gzcdautoconf-2.69./configuremake;makeinstallautoconf-...

2019-01-22 09:18:00

Spark kryo Jar包冲突问题排查

错误日志Exceptioninthread"adaptive-query-stage-0"java.lang.NoSuchMethodError:com.esotericsoftware.kryo.Kryo.setInstantiatorStrategy(Lorg/objenesis/strategy/InstantiatorStrategy;)V atcom.twitter.ch...

2019-01-16 15:37:29

spark AE 编译

安装R安装包及其依赖类库安装R语言环境安装R类库R-e“install.packages(c(‘knitr’,‘rmarkdown’,‘devtools’,‘e1071’,‘survival’),repos=‘http://cran.us.r-project.org’)”R-e“devtools::install_version(‘testthat’,versi...

2018-12-13 16:43:29

hadoop namenode 本地调试环境搭建

本地环境配置核心是增加namenode启动调试参数exportHADOOP_NAMENODE_OPTS="${HADOOP_NAMENODE_OPTS}-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=8005"一般namenode启动命令有sbin/hadoop-daemon.shstartnamen...

2018-11-13 00:42:14

HDFS CheckSum

程序入口HadoopBranch:Hadoop-2.6.0使用样例:hadoopdfs-checksum/tmp/README.txt结果/tmp/README.txt MD5-of-0MD5-of-512CRC32C 00000200000000000000000017970719be16d1071635fa381b95f957算法说明:“MD5-of-”...

2018-09-24 22:52:31
奖章
  • Github
    Github
    绑定github第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。