xueba207-CSDN博客

原创 zeppelin出现ConnectException: Connection refused解决方法

zeppelin出现ConnectException: Connection refused问题一直用zeppelin做分析工作台，最近想把现用的环境整体打包复制到另一个集群，在新的集群启动spark interpreter时出现了ConnectException，详细出错信息如下：ERROR [2018-03-05 17:33:01,109] ({Thread-31} Rem...

2018-03-06 09:08:51 3464

原创 logstash kafka output 输出原始数据格式

有个场景需要从kafka topic中读出message，然后转到另一个kakfa集群的topic中，为省事就用了logstash。但logstash处理后不是原始数据，需要修改codec plain的消息格式配置

2017-11-08 20:33:48 10841 1

原创 Spark 广播变量（broadcast）更新方法

Spark 广播变量（broadcast）更新方法更新方法spark 广播变量可以通过unpersist方法删除，然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), arr(2).toInt)}).distinctvar mapBC = sc.broa

2017-06-05 11:19:15 11689

原创 zeppelin spark interpreter异常 com.fasterxml.jackson.databind.JsonMappingException

异常部署zeppelin时，使用spark interpreter报错： com.fasterxml.jackson.databind.JsonMappingException: Could not find creator property with name ‘id’ (in class org.apache.spark.rdd.RDDOperationScope)原因jackson版本冲突，

2016-08-19 11:52:53 2406

原创 zeppelin打包失败 'Failed to execute goal com.github.eirslett:frontend-maven-plugin'

zeppelin 官网提供的binary包不支持yarn，需要自己打包。问题zeppelin打包： ~/apache-maven-3.3.1/bin/mvn clean install -DskipTests一直build failure： [ERROR] Failed to execute goal com.github.eirslett:frontend-maven-plugin:0.0.2

2016-08-18 14:21:49 14948 1

原创 maven 中运行Junit单元测试

一直没有写单元测试的习惯，导致bug频现，以后代码中必须写单元测试代码，这里记录下maven结合junit运行单元测试方法。

2016-05-23 14:26:58 7152

原创 cloudera-scm-agent 启动失败 'Unable to create the pidfile'

问题安装cloudera namager时，cloudera-scm-server可以正常启动，cloudera-scm-agent启动失败.

2016-05-11 10:31:44 7923

原创减少spark job jar包的大小

利用java写spark job，工程结构为maven，每次生成的jar都比较大。 spark job 包过大带来以下缺点：打包时间长、jar包上传慢、job启动比较慢。本文介绍jar包瘦身方法：观察臃肿的jar包，发现大部分都是spark相关的jar比较大，因此打包时去掉即可。首先，缓存spark-assembly 包到hdfs，方法见本文。然后，修改代码工程的pom文件，将spa

2016-05-06 18:13:29 2940

原创 java 使用自定义元组

java 自定义元组是实现记录。

2016-05-04 16:13:01 1576

原创 spark streaming 输出数据到kafka

一般都使用spark streaming从kafka 中消费数据，然后写到其他存储；项目中需要从kafka topic中读数据然后经过 spark streaming 处理后回写到kafka 另一个topic，此处记录下实现方法。环境：spark：1.6.1 stremaing-kafka： spark-streaming-kafka_2.10，1.6.1本例中，每个executor上存在一个单例

2016-04-28 16:12:46 11937

原创 spark streaming kafka OffsetOutOfRangeException 异常分析与解决

job中使用Kafka DirectStream 读取topic中数据，然后做处理。其中有个测试job，停止了几天，再次启动时爆出了**kafka.common.OffsetOutOfRangeException**。下文记录下异常分析与解决过程。

2016-04-17 19:39:58 30378 12

原创 spark.streaming.concurrentJobs参数分析

最近，在spark streaming 调优时，发现个增加job并行度的参数spark.streaming.concurrentJobs，spark 默认值为1，当增加为2时（在spark-default中配置），如遇到处理速度慢 streaming application UI 中会有两个Active Jobs（默认值时为1），也就是在同一时刻可以执行两个批次的streaming job，下文分析

2016-04-14 16:30:40 11275 1

原创 Spark Streaming 'numRecords must not be negative'问题解决

问题描述笔者使用spark streaming读取Kakfa中的数据，做进一步处理，用到了KafkaUtil的createDirectStream()方法；该方法不会自动保存topic partition的offset到zk，需要在代码中编写提交逻辑，此处介绍了保存offset的方法。当删除已经使用过的kafka topic，然后新建同名topic，使用该方式时出现了"numRecords mu

2016-04-12 17:28:29 21434 4

原创 Alluxio(tachyon)集群安装部署

Alluxio(tachyon)集群安装部署Alluxio，原名tachyon，在1.0.0版本改名为Alluxio，是一个以内存为中心的虚拟的分布式存储系统，统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。本文介绍集群的安装部署方法。

2016-03-16 15:22:48 5922 2

原创 Spark Streaming job 远程debug方法

记录下spark job的运程调试方法。

2016-02-23 15:17:08 2703

原创 virtualbox centos虚拟机配置静态IP

virtualbox centos虚拟机配置静态IP的方法

2016-02-15 16:57:28 2543

原创 Spark Job (thrift-server) 动态分配资源

项目中使用spark 自带的thrift-server做hdfs数据查询统计服务。当数据过多时，thrift-server 需要分配大量的资源，当不需要查询时分配当量的资源又显得非常浪费，因此想到是否有可能动态分配资源。（thrift-server也是一个job（yarn app），因此这种方法同样适用于一般的spark job）。目前动态资源分配只适合spark on yarn，配置方式如

2016-01-20 10:44:40 3201

原创 HBase + Phoenix 安装试用

HBase + Phoenix 安装试用闲来无事，试用下hbase+Phoenix。这里有三台主机： node_1 // namenode, zk_1 node_2 // datanode, zk_2 node_3 // datanode, zk_3HBase部署在部署hbase之前环境中安装hadoop，安装教程可以自行搜索，本节主要介绍hbase的部署配置过程。首先，需要下载

2016-01-16 16:50:54 1029

原创 ganglia 报 "Error 1 sending the modular data for" Error解决方法

ganglia 报 “Error 1 sending the modular data for” Error解决方法现象使用ganglia监控集群时，发现有些节点没有数据，查看syslog发现报错如下： Jan 5 16:46:38 test139 /usr/sbin/gmond[21974]: Error 1 sending the modular data for udp_inerror

2016-01-06 10:03:43 2695

原创缓存jar包来提升spark on Yarn job的提交速度

之前一直使用Spark standalone方式提交job，最近team换成了yarn方式，但发现在yarn上，提交job的速度比standalone慢的多；看提交的日志，发现其中有个很明显的东西，yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中，这个jar包有130M+，花费了好几秒的时间，其实可以将其缓存在hdfs上的，每次job提交时不再需

2015-12-31 11:33:35 3685

原创 spark job 独立的log4j配置方法

spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下，将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置，不能单独配置某个job的运行日志。本文介绍spark (streaming) job独立配置的log4j的方法。设置方法spark job提交时可以在 --co

2015-12-30 18:35:14 12631

原创 spring initialize-database 使用方法

spring initialize-database 使用方法做系统时经常遇到需要初始化数据库的问题，spring 有个很用户的标签 initialize-database，实现这个功能，备忘下。只需要在xml中做如下配置配置： <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

2015-12-29 13:52:15 1797 1

原创 spark createDirectStream保存kafka offset(JAVA实现)

问题描述最近使用spark streaming处理kafka的数据，业务数据量比较大，使用了kafkaUtils的createDirectStream()方式，此方式跳过了zookeeper，并且没有receiver，能保证消息恰好一次语意。但是此种方式因为没有经过zk，topic不能自动保存offset，本文讨论在使用createDirectStream时如何保存kafka topic offset。

2015-12-22 19:17:03 15518 8

原创 spark streaming job数据输出数目不准确问题排查记录

详细描述2015-12-18日提交测试，发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据，streaming job 接收200，处理后输出250。问题分析排查了job代码，以及数据输出逻辑，均无发现问题。在查看job执行情况时发现一个很奇怪的task状态，见下图:发现index-0的task产生了 speculative状态的task，因此猜测 s

2015-12-21 12:29:58 1301

原创 mybatis generator使用方法备忘

mybatis generator使用方法

2015-12-02 12:30:54 510

原创 SFTP 限定登录用户在指定目录

使用sftp做文件传输时，经常遇到将登录用户限定到制定目录的情景，网上乱找了一堆资料，总算实现了，记录一下。

2015-05-16 11:44:51 4683

原创 elasticsearch出现TranslogCorruptedException导致shard不能启动的问题修复

在使用ES的过程中遇到以下问题：[2015-01-06 16:12:34,061][WARN ][indices.cluster ] [node_141] [ips][4] failed to start shardorg.elasticsearch.index.gateway.IndexShardGatewayRecoveryException: [ips][4] fai

2015-01-06 18:24:13 11781