10 wankunde

尚未进行身份认证

暂无相关描述

等级
TA的排名 2w+

Mysql 常用操作及mysql8 遇到的问题记录

创建mysql用户mysql8不支持以grant方式直接创建带密码用户了,所以语句分开写createuser"hive"@"%"identifiedby"hive";createuser"hive"@"localhost"identifiedby"hive";grantallprivilegeson*.*to'hive'@'%';grantall...

2019-08-13 21:49:31

Griffin 数据管理任务的SQL和原理

文章目录accuracycompletenessdistincttimelinessuniquenessprofilingspark-sqlpre.procaccuracy任务内容:通过两个表的Join来判断两个表的记录是否一致,并计算相关指标。任务入口:AccuracyExpr2DQSteps__missRecords:左表leftjoin右表,如果左表字段值不为空,...

2019-07-02 17:58:06

Spark 1.6 Thrift Server 加载类异常处理

错误日志分析Spark1.6在启动SparkThriftServer的时候,Beeline不断出现报错:0:jdbc:hive2://10.59.34.204:10000>showtables;Error:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabl...

2019-06-21 22:03:56

Spark启动Executor流程

文章目录NodeManager启动ExecutorShell启动脚本CoarseGrainedExecutorBackend启动RPCEndPointTask的反序列化和执行TaskRun参考文档NodeManager启动ExecutorShell启动脚本NodeManagerdefault_container_executor.shbash-c‘java..Coars...

2019-06-20 19:00:26

Spark1.*中CreateTableAsSelect 语句实现

本文以一个CreateTableAsSelect的Command的job提交执行过程为例,说明sparksql的job提交执行过程``SparkSQLCLIDriver:main():ret=cli.processLine(line,true)SparkSQLCLIDriver:main():valrc=driver.run(cmd)SparkSQ...

2019-06-20 18:58:14

Hadoop NameNode EditLog 实现

文章目录NameNode初始化getNamespaceEditsDirsFSImage初始化`FSNamesystem.loadFromDisk(conf)``fsImage.recoverTransitionRead(startOpt,this,recovery);``FSImage.loadFSImage()`FSEditLog初始化initEditLogopenEditLogForWr...

2019-06-20 18:55:52

Spark DAG 执行流程

文章目录Action启动程序执行DAGScheduler.scala提交Job执行根据Job创建StageDAG图Stage执行结束Task的调度和执行Action启动程序执行//Dataset.scala//scalastyle:offprintlndefshow(numRows:Int,truncate:Boolean):Unit=if(t...

2019-05-30 18:45:38

Spark SQL 程序调度执行框架(一)

NodeManager启动ExecutorShell启动脚本NodeManagerdefault_container_executor.shbash-c‘java..CoarseGrainedExecutorBackend’-->启动Executor接收task计算任务bash-c‘java..ExecutorLauncher’-->这里应该是直接奔着...

2019-05-30 18:33:53

Spark 读取和使用Hive Permanent Function 原理

SparkFunctionRegisterSpark2.*UDF查找过程//Spark程序启动objectSparkSubmit:main(args)0="--class"1="org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver"2="spark-internal"c...

2019-05-30 18:22:27

ORC文件存储格式和数据写入过程

文章目录ORC文件格式,配置参数及相关概念ORC文件格式UML类图OrcFilewriter创建OrcFileWriter配置参数相关概念动态数组DynamicIntArray和DynamicByteArray初始化chunk扩容OrcFilewriter的write()方法写数据WriterImpladdRow程序入口StringTreeWriter:voidw...

2019-05-16 18:05:54

StandBy NameNode 合并并回传FSImage

文章目录启动StandbyCheckpointerdoCheckpointsaveFSImage文件启动独立线程,SNN向NNPUTFSImageImageServlet接收FSImage启动StandbyCheckpointer//接上篇StandbyStatepublicvoidenterState(HAContextcontext)NameNodeHAConte...

2019-05-09 20:33:14

Hadoop HDFS HA 状态切换源码

文章目录NameNode启动进入StandByStateZKFC进程监控和切换NameNodeHAState启动HDFSZKFC服务启动HealthMonitor服务NameNodeRpcServerdoHealthChecks()ActiveStandbyElector和ActiveStandbyElectorCallbackzkClient操作异步方法回调Elector...

2019-05-09 20:13:09

HDFS NAMENODE QJM HA方案实现-1

文章目录JournalNodeQJM方案对象实现过程确定EditsDirs实例FSImage和FSEditLogNameNode服务启动和journalSet实例初始化journalSet初始化JournalManager/QuorumJournalManager初始化AsyncLoggerSetclassIPCLoggerChannelimplementsAsyncL...

2019-05-08 19:06:12

Hadoop Metrics2实现原理

HadoopMetrics2的实现应该是在14年左右就已经非常成熟了,研究的人也比较多了。一个出现很久的东西,并非没有学习价值。如Metrics2和之前的Metrics一代做了哪些改进?如果我们自己设计一套Metrics信息,哪些是可以借鉴的地方?所有Source和Sink全部是可配置的(和我们常见的Log4j配置一样),这样可以在不修改源码的情况下,自定义Metrics的监控Met...

2019-05-03 22:14:42

Spark是如何实现远程Thread Dump 的?

问题研究入口还是从web页面ExecutorThreadDumpPage入手,提供ThreadDump的入口在SparkContext的getExecutorThreadDump方法。//1.查看ExecutorThread页面入口,通过executorId获取ThreadDump,private[ui]classExecutorThreadDumpPage(paren...

2019-05-03 22:04:18

Spark Metrics实现原理

Spark任务的Metrics是通过Spark中的accumulator来辅助实现的。accumulator定义//1.1定义accumulator来收集task运行统计信息,包括runTime,cpuTime,GCTime等classTaskMetricsprivate[spark]()extendsSerializable{//Eachmetri...

2019-05-03 21:53:18

Linux DevOps

grafana搭建软件下载和安装https://grafana.com/grafana/download?platform=linuxwgethttps://dl.grafana.com/oss/release/grafana-6.1.3-1.x86_64.rpmsudorpm-ivhgrafana-6.1.3-1.x86_64.rpmsudo/sbin/chkconfig...

2019-04-18 12:43:25

Spark Scan大表时任务启动过慢分析

问题背景测试SQLselectasset_inout_ex['asset_inout_1c_sum_1'],dtfromASSET_INOUT_AMTawheredt<20181119andcust_code=0000000orderbydtlimit10000;因为原始表中有456个DT分区,所以DAG中是一个包含456个HadoopRDD的Un...

2019-03-13 18:37:12

Spark SQL 学习比较-1

ParallelCollectionRDD到DataFrame生成步骤通过spark.sparkContext.parallelize(Seq)创建ParallelCollectionRDD通过implicit方法rddToDatasetHolder(),进入_sqlContext.createDataset(rdd)rdd被包装为SerializeFromObject...

2019-02-27 20:39:05

Spark CBO

HIVE0.14CostBasedOptimizer(CBO)TechnicalOverviewCBO三个优化效果JoinorderingoptimizationBushyjoinsupportJoinsimplificationEqui-depthHistogramConstructionforBigDatawithQualityGuara...

2019-02-12 11:39:45

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。