- 博客(28)
- 资源 (7)
- 收藏
- 关注
原创 zeppelin出现ConnectException: Connection refused解决方法
zeppelin出现ConnectException: Connection refused问题一直用zeppelin做分析工作台,最近想把现用的环境整体打包复制到另一个集群,在新的集群启动spark interpreter时出现了ConnectException,详细出错信息如下:ERROR [2018-03-05 17:33:01,109] ({Thread-31} Rem...
2018-03-06 09:08:51 3456
原创 logstash kafka output 输出原始数据格式
有个场景需要从kafka topic中读出message,然后转到另一个kakfa集群的topic中,为省事就用了logstash。但logstash处理后不是原始数据,需要修改codec plain的消息格式配置
2017-11-08 20:33:48 10831 1
原创 Spark 广播变量(broadcast)更新方法
Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), arr(2).toInt)}).distinctvar mapBC = sc.broa
2017-06-05 11:19:15 11686
原创 zeppelin spark interpreter异常 com.fasterxml.jackson.databind.JsonMappingException
异常部署zeppelin时,使用spark interpreter报错: com.fasterxml.jackson.databind.JsonMappingException: Could not find creator property with name ‘id’ (in class org.apache.spark.rdd.RDDOperationScope)原因jackson版本冲突,
2016-08-19 11:52:53 2395
原创 zeppelin打包失败 'Failed to execute goal com.github.eirslett:frontend-maven-plugin'
zeppelin 官网提供的binary包不支持yarn,需要自己打包。问题zeppelin打包: ~/apache-maven-3.3.1/bin/mvn clean install -DskipTests一直build failure: [ERROR] Failed to execute goal com.github.eirslett:frontend-maven-plugin:0.0.2
2016-08-18 14:21:49 14938 1
原创 maven 中运行Junit单元测试
一直没有写单元测试的习惯,导致bug频现,以后代码中必须写单元测试代码,这里记录下maven结合junit运行单元测试方法。
2016-05-23 14:26:58 7139
原创 cloudera-scm-agent 启动失败 'Unable to create the pidfile'
问题安装cloudera namager时,cloudera-scm-server可以正常启动,cloudera-scm-agent启动失败.
2016-05-11 10:31:44 7914
原创 减少spark job jar包的大小
利用java写spark job,工程结构为maven,每次生成的jar都比较大。 spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。 本文介绍jar包瘦身方法: 观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。首先,缓存spark-assembly 包到hdfs,方法见本文。然后, 修改代码工程的pom文件,将spa
2016-05-06 18:13:29 2936
原创 spark streaming 输出数据到kafka
一般都使用spark streaming从kafka 中消费数据,然后写到其他存储;项目中需要从kafka topic中读数据然后经过 spark streaming 处理后回写到kafka 另一个topic,此处记录下实现方法。环境:spark:1.6.1 stremaing-kafka: spark-streaming-kafka_2.10,1.6.1本例中,每个executor上存在一个单例
2016-04-28 16:12:46 11930
原创 spark streaming kafka OffsetOutOfRangeException 异常分析与解决
job中使用Kafka DirectStream 读取topic中数据,然后做处理。其中有个测试job,停止了几天,再次启动时爆出了**kafka.common.OffsetOutOfRangeException**。下文记录下异常分析与解决过程。
2016-04-17 19:39:58 30356 12
原创 spark.streaming.concurrentJobs参数分析
最近,在spark streaming 调优时,发现个增加job并行度的参数spark.streaming.concurrentJobs,spark 默认值为1,当增加为2时(在spark-default中配置),如遇到处理速度慢 streaming application UI 中会有两个Active Jobs(默认值时为1),也就是在同一时刻可以执行两个批次的streaming job,下文分析
2016-04-14 16:30:40 11262 1
原创 Spark Streaming 'numRecords must not be negative'问题解决
问题描述笔者使用spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStream()方法;该方法不会自动保存topic partition的offset到zk,需要在代码中编写提交逻辑,此处介绍了保存offset的方法。 当删除已经使用过的kafka topic,然后新建同名topic,使用该方式时出现了"numRecords mu
2016-04-12 17:28:29 21390 4
原创 Alluxio(tachyon)集群安装部署
Alluxio(tachyon)集群安装部署Alluxio,原名tachyon,在1.0.0版本改名为Alluxio,是一个以内存为中心的虚拟的分布式存储系统,统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。本文介绍集群的安装部署方法。
2016-03-16 15:22:48 5919 2
原创 Spark Job (thrift-server) 动态分配资源
项目中使用spark 自带的thrift-server做hdfs数据查询统计服务。当数据过多时,thrift-server 需要分配大量的资源,当不需要查询时分配当量的资源又显得非常浪费,因此想到是否有可能动态分配资源。 (thrift-server也是一个job(yarn app),因此这种方法同样适用于一般的spark job)。 目前动态资源分配只适合spark on yarn,配置方式如
2016-01-20 10:44:40 3193
原创 HBase + Phoenix 安装试用
HBase + Phoenix 安装试用闲来无事,试用下hbase+Phoenix。这里有三台主机: node_1 // namenode, zk_1 node_2 // datanode, zk_2 node_3 // datanode, zk_3HBase部署在部署hbase之前环境中安装hadoop,安装教程可以自行搜索,本节主要介绍hbase的部署配置过程。首先,需要下载
2016-01-16 16:50:54 1028
原创 ganglia 报 "Error 1 sending the modular data for" Error解决方法
ganglia 报 “Error 1 sending the modular data for” Error解决方法现象使用ganglia监控集群时,发现有些节点没有数据,查看syslog发现报错如下: Jan 5 16:46:38 test139 /usr/sbin/gmond[21974]: Error 1 sending the modular data for udp_inerror
2016-01-06 10:03:43 2687
原创 缓存jar包来提升spark on Yarn job的提交速度
之前一直使用Spark standalone方式提交job,最近team换成了yarn方式,但发现在yarn上,提交job的速度比standalone慢的多;看提交的日志,发现其中有个很明显的东西,yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中,这个jar包有130M+,花费了好几秒的时间,其实可以将其缓存在hdfs上的,每次job提交时不再需
2015-12-31 11:33:35 3681
原创 spark job 独立的log4j配置方法
spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置, 不能单独配置某个job的运行日志。本文介绍spark (streaming) job独立配置的log4j的方法。设置方法spark job提交时可以在 --co
2015-12-30 18:35:14 12620
原创 spring initialize-database 使用方法
spring initialize-database 使用方法做系统时经常遇到需要初始化数据库的问题,spring 有个很用户的标签 initialize-database,实现这个功能,备忘下。只需要在xml中做如下配置配置: <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
2015-12-29 13:52:15 1790 1
原创 spark createDirectStream保存kafka offset(JAVA实现)
问题描述最近使用spark streaming处理kafka的数据,业务数据量比较大,使用了kafkaUtils的createDirectStream()方式,此方式跳过了zookeeper,并且没有receiver,能保证消息恰好一次语意。但是此种方式因为没有经过zk,topic不能自动保存offset,本文讨论在使用createDirectStream时如何保存kafka topic offset。
2015-12-22 19:17:03 15510 8
原创 spark streaming job数据输出数目不准确问题排查记录
详细描述2015-12-18日提交测试,发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据,streaming job 接收200,处理后输出250。问题分析排查了job代码,以及数据输出逻辑,均无发现问题。在查看job执行情况时发现一个很奇怪的task状态,见下图:发现index-0的task产生了 speculative状态的task,因此猜测 s
2015-12-21 12:29:58 1294
原创 elasticsearch出现TranslogCorruptedException导致shard不能启动的问题修复
在使用ES的过程中遇到以下问题:[2015-01-06 16:12:34,061][WARN ][indices.cluster ] [node_141] [ips][4] failed to start shardorg.elasticsearch.index.gateway.IndexShardGatewayRecoveryException: [ips][4] fai
2015-01-06 18:24:13 11776
Android Programming-浙江大学(有实例)中文
2011-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人