5 lishengping_max

尚未进行身份认证

专注大数据领域

等级
TA的排名 4w+

Canal使用异常记录

一、protobuf-java版本过低Exceptioninthread"CanalReceiver"java.lang.IllegalAccessError:triedtoaccessfieldcom.google.protobuf.AbstractMessage.memoizedSizefromclasscom.alibaba.otter.canal.protoco...

2019-10-15 16:51:12

Spark学习08——RDD、DataFrame 和 Dataset

弹性分布式数据集(ResilientDistributedDataset,RDD)从一开始RDD就是Spark提供的面向用户的主要API。从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层API进行并行处理。在什么情况下使用RDD?下面是使用RDD的场景和常见案例:你希望可以对你的数据集进行最...

2019-09-19 14:02:24

Spark学习07——创建DataFrame的方法

一、简介基于Row的DateSet就是DataFrame,即DataFrame是DateSet的一个子集,DataFrame只是DateSet的叫法二、创建方法1.使用toDF函数创建DataFrameobjectCreateDataFrameFun{defmain(args:Array[String]):Unit={valspark=SparkSes...

2019-09-19 11:29:43

Spark学习06——键值对RDD行动算子

所有键值对RDD行动算子如下:collectAsMap、countByKey、fold、lookup、saveAsSequenceFile当然键值对RDD可以使用所有RDD行动算子,介绍详见:https://blog.csdn.net/qq_23146763/article/details/101013861具体解释和例子1.collectAsMap将结果以映射表的形式返回,以便查询...

2019-09-19 11:18:29

Spark学习05——键值对RDD转换算子

所有键值对RDD转换算子如下:mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogroup、join、leftOuterJoin、rightOuterJoin当然键值对RDD可以使用所有RDD转换算子,介绍详见:https://blog.csdn.ne...

2019-09-19 11:03:20

Spark学习04——RDD行动算子

所有RDD行动算子如下:aggregate、collect、count、first、foreach、reduce、take、takeOrdered、takeSample、saveAsObjectFile、saveAsTextFile具体解释和例子1.aggregate概念1.将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb...

2019-09-19 10:12:48

Spark学习03——RDD转换算子

所有RDD转换算子如下:map、faltmap、mapPartitions、mapPartitionsWithIndex、filter、sample、union、intersection、distinct、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions、glom、randomSplit具体解释和例子...

2019-09-18 16:37:18

Spark学习02——创建DStream的方法

SparkStreaming提供两类内置流媒体源。基本来源:StreamingContextAPI中直接提供的源。示例:文件系统和套接字连接。高级资源:Kafka,Flume,Kinesis等资源可通过额外的实用程序类获得。基本来源如下,高级来源可参考官网例子:https://github.com/apache/spark/blob/master/examples/src/main/s...

2019-09-18 16:24:52

Spark学习01——创建RDD的所有方法

方式一、从内存中创建1.makeRDDvalrdd=sc.parallelize(List("zhangsan","lisi","wangwu"))2.parallelizevalrdd2=sc.makeRDD(List("zhangsan","lisi","wangwu"))区别:makeRDD函数有两种实现,第一种实现其实完全和parallelize一致...

2019-09-18 15:28:30

Spark Sql用户权限异常记录

使用SparkSql存Hive数据报错如下19/09/1114:53:10ERRORmetadata.Hive:MetaException(message:UserappuserdoesnothaveprivilegesforALTERTABLE_ADDPARTS) atorg.apache.hadoop.hive.metastore.api.ThriftHiveMet...

2019-09-12 10:22:01

Kudu异常总结

1、impala不支持kudu表的关键字:PARTITIONED-LOCATION-ROWFORMAT(官方链接:ImpalaKeywordsNotSupportedforKuduTables),例如执行如下语句会报错:CREATETABLEmy_first_table2(idBIGINT,nameSTRING,PRIMARYKEY(id))...

2019-09-06 16:09:30

Hive基于Hbase的外部表使用

官网:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration作用:Hive直接使用Hbase的数据,不过hbase一般不适合分析数据,一般使用外部表将hbase数据导入其它hive表,用于数据分析步骤一、下载依赖jar从https://mvnrepository.com/artifact/org.apache....

2019-09-04 15:35:27

Java日志框架使用注意点

一、应用中不可直接使用日志系统(Log4j、Logback)中的API,而应依赖使用日志框架SLF4J中的API,使用门面模式的日志框架,有利于维护和各个类的日志处理方式统一。importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;privatestaticfinalLoggerlogger=LoggerFactory.getLo

2019-09-03 23:01:32

深究|Elasticsearch单字段支持的最大字符数?

转自:https://blog.csdn.net/laoyang360/article/details/78207980在业务系统中,遇到过两个问题:问题1:设置为keyword类型的字段,插入很长的大段内容后,报字符超出异常,无法插入。问题2:检索超过ignore_above设定长度的字段后,无法返回结果。思考:Elasticsearch单字段支持的最大字符数?设置ignore_abo...

2019-09-04 14:55:52

Spark读取--files文件

1.读取代码Propertiesproperties=newProperties();properties.load(newFileInputStream("/etc/hive/conf/test.properties"));2.–files配置spark2-submit\--classxxx\--masteryarn\--deploy-modec...

2019-08-19 16:47:45

IDEA maven provided依赖报错解决

问题maven添加provided依赖,idea运行时会报错找不到相关类解决在Run|RunConfigurations选择如下勾选框Includedependencieswith“Provided”scope。注意此选项框在IDEA2018.1版本才添加,详见:https://www.jetbrains.com/idea/whatsnew/2018-1/,版本过低需要安装高...

2019-08-13 17:05:50

hue file browser配置httpfs

配置1.在HDFS——实例——添加角色实例——选择httpFs主机2.在实例页面启动httpFs服务3.在HUE——配置webhdfs_url选择一个httpfs节点4.重启HUEhttpfs和webhdfs两种服务区别如下两者都是基于REST的HDFSAPI,使得一个集群外的host可以不用安装HADOOP和JAVA环境就可以对集群内的HADOOP进行访问,并且client...

2019-08-07 16:42:22

lombok使用builder的坑

使用@builder后报错如下需要:没有参数找到:java.lang.String,java.lang.String,java.lang.String,java.lang.Integer原因:实际参数列表和形式参数列表长度不同原因:由于继承的原因,我手动添加了无参构造,导致@builder自动生成全参构造失败,而查看相关资料发现@builder是使用全参数构造。所以导...

2019-08-01 11:17:03

Hive基于ES的外部表使用

一、配置依赖jar1.临时生效启动HIVECLI后,ADDJAR/path/elasticsearch-hadoop-xxx.jar;或bin/hive--auxpath=/path/elasticsearch-hadoop-xxx.jar或bin/hive-hiveconfhive.aux.jars.path=/path/elasticsearch-hadoop-xxx....

2019-07-01 15:48:10

HIVE SQL时间函数使用

SELECTCURRENT_DATE;— 2019-06-25SELECTCURRENT_TIMESTAMP;– 2019-06-2515:33:25SELECTunix_timestamp()–1561447860SELECTfrom_unixtime(unix_timestamp(),'yyyy-MM-dd')– 2019-06-25SELECTfrom_...

2019-06-25 15:35:40

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。