2 没有合适的昵称

尚未进行身份认证

个人工作学习笔记

等级
TA的排名 5w+

Column type: DECIMAL(10,4), Parquet schema:\noptional int64 vender_num_of_faces_on_shelf [i:12 d:1

参考了一些博客:https://blog.csdn.net/harli_xxy/article/details/51820731最后我把decimal类型改成double就可以了

2020-03-30 19:52:09

spark源码----Spark任务划分、调度、执行

从RDD的创建开始讲起把它当做入口,然后点进去主要关注hadoopFile,进去会发现new了一个HadoopRDD以上其实就是一个RDD的构建过程又比如我们看flatMap,它一样会去构建一个新的RDD,把之前的RDD给传进去了又比如我们看map,它一样会去构建一个新的RDD,把之前的RDD给传进去了在换一个算子reduceByKey,点进去,包含一个默认的分区器然后再...

2020-03-01 09:25:09

spark源码----Spark 通讯架构

Spark通信架构概述Spark2.x版本使用Netty通讯框架作为内部通讯组件。spark 基于netty新的rpc框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示:Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个实体之间通过消息来进行通信。具体各个组件之间的关系图如下:Endpoint(Client/Master...

2020-02-29 17:37:55

spark源码---部署的流程

spark的参数与提交的流程前言:个人读源码的一次记录首先,SparkSubmit的入口在:org.apache.spark.deploy.SparkSubmit,下面会有一个main方法点进SparkSubmitArguments(封装命令行参数):是否很熟悉?接着往下看,解析,参数是先将scala的数组转成java的数组,然后往下传点进parse,会有一个handle方法,在S...

2020-02-29 15:46:16

sparkSQL用JDBC连接Oracle写数据

主要是需要用Oracle的序列,而sparkSQL的jdbc是没有函数去实现的,所以只有用Oracle本身的表名.nextval来实现核心代码部分:object Grade { Class.forName("oracle.jdbc.driver.OracleDriver") val connection: Connection = DriverManager.getConnection...

2020-02-21 10:02:24

flink流处理API

EnvironmentgetExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。val env: Exec...

2020-02-18 10:54:39

flink运行架构

任务提交流程(yarn模式)Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster,ApplicationMaster启动后加载Flink的Jar包和配置构建环境,然后启动JobManage...

2020-02-17 09:55:15

数仓即席查询--Druid

Druid简介Druid是一个快速的列式分布式的支持实时分析的数据存储系统;它在处理PB级数据,毫秒级查询,数据实时处理方面,比传统的OLAP系统有了显著的性能改进官网:http://druid.io/ps:阿里巴巴也有一个项目叫Druid,但是它是一个数据库连接池项目Druid特点1.列式存储格式Druid使用面向列的存储,它只需要加载特定查询所需的列,查询速度快2.可扩展的分布式...

2020-02-14 18:39:20

数仓即席查询---Presto

Presto简介presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB级,主要用来处理秒级查询场景ps:虽然presto可以解析SQL,但它不是一个标准的数据库,不是MySQL,oracle的代替品,也不能用来处理在线事务(OLTP);官网:https://prestodb.io/Presto架构Presto由一个coordinator和多个worker组成Presto优缺...

2020-02-14 11:01:46

Mysql+Keepalived实现HA---备份元数据

前言CDH集群的一些组件的元数据信息都是放在了MySQL中,如果MySQL挂掉,那么整个集群都将无法运行,因此,MySQL的元数据备份还是很重要的环境说明1、系统版本:Centos7.02、mysql版本:5.6.353、安装用户:master(需配置无密码的sudo权限)4、mysql master:192.168.240.167 mysql slave:192.168.240.1...

2020-02-12 10:21:45

Kafka压力测试

Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer压力测试1.在kafka的bin目录下面有这两个文件bin/kafka-producer...

2020-02-11 10:21:55

hadoop--基压测试

在安装完集群后,我们都需要先对集群做一些测试,下面讲解测试读写的性能写性能包名:Apache:hadoop-mapreduce-client-jobclient-2.7.5-tests.jarCDH:hadoop-mapreduce-client-jobclient-3.0.0-cdh6.2.0-tests.jar包路径:/home/hadoop-jrq/bigdata/hadoo...

2020-02-09 14:42:47

hadoop---LZO压缩配置

下载https://github.com/twitter/hadoop-lzo/archive/master.zip编译下载后的文件名是hadoop-lzo-master,它是一个zip格式的压缩包,先进行解压,然后用maven编译。生成hadoop-lzo-0.4.20.jar上传HAOOP_HOME/share/hadoop/common/如果是CDH那么上传到:/opt/clou...

2020-02-08 20:37:50

CDH集群日志数据清理--val/lib

rm /var/lib/cloudera-host-monitor/ts/*/partition*/* -rfrm /var/lib/cloudera-service-monitor/ts/*/partition*/* -rf参考:https://www.cnblogs.com/qinglanmei/p/11455010.html我主要清理cloudera-host-monitor和clo...

2020-02-03 12:41:39

Sqoop数据导出一致性问题

场景如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。解决官网描述及参数介绍:Since Sqoop breaks do...

2020-02-02 19:35:01

Cannot overwrite table portrayal.FrequentlyStopAddr that is also being read from;

背景原因:spark SQL select 一个表,然后在overwrite 一个表解决://将结果保存在临时表中 spark.sql("select * from result_tab").write.mode(SaveMode.Overwrite).saveAsTable("tmp_tab")// 计算逻辑........//将临时表覆盖结果表spark.sql("s...

2020-01-09 16:52:18

scala 隐式转换 --- 为字符串类扩展方法

先看一个简单的例子:implicit def double2Int(d: Double) = d.toIntval num: Int = 3.5println(num) // 3上面的方法,会自动找到double2Int这个函数,然后Double转成Int类型隐式转换和类型系统是scala的强大之处,从上可以看出,在某些时候,我们可以直接的写这么一个方法,在需要的地方导入,代码会很简洁...

2019-12-31 15:02:06

FAILED: SemanticException [Error 10025]: Expression not in GROUP BY key ....

背景:查出最后一次车辆停车的位置坐标思路:对结束时间排序,然后GROUP BY,再取出组内的第一条数据报错信息如标题解决:SELECT VEHICLEID,collect_set(LNG)[0] FROM (select * from gis_cal_dailystop_freq order by endtime DESC) bGROUP BY b.VEHICLEID;参考:ht...

2019-12-31 14:53:48

sqoop导Oracle数据在hive中显示null

如图解决:--null-string '\\N' \--null-non-string '\\N' \原因:在hive里面,NULL是用\N来表示的,null就是一个字符串

2019-12-30 19:26:59

shell往hive SQL文件中传递参数

传递一个值:-hiveconf dataPath=${变量值}当然也可以:-hivevar多个值:-hiveconf dataPath=${变量值} -hiveconf dataPath1=${变量值}

2019-12-30 15:25:17

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。