12 xueba207

尚未进行身份认证

暂无相关简介

等级
TA的排名 4w+

zeppelin出现ConnectException: Connection refused解决方法

zeppelin出现ConnectException: Connection refused问题一直用zeppelin做分析工作台,最近想把现用的环境整体打包复制到另一个集群,在新的集群启动spark interpreter时出现了ConnectException,详细出错信息如下:ERROR [2018-03-05 17:33:01,109] ({Thread-31} Rem...

2018-03-06 09:08:51

logstash kafka output 输出原始数据格式

有个场景需要从kafka topic中读出message,然后转到另一个kakfa集群的topic中,为省事就用了logstash。但logstash处理后不是原始数据,需要修改codec plain的消息格式配置

2017-11-08 20:33:48

Spark 广播变量(broadcast)更新方法

Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), arr(2).toInt)}).distinctvar mapBC = sc.broa

2017-06-05 11:19:15

zeppelin spark interpreter异常 com.fasterxml.jackson.databind.JsonMappingException

异常部署zeppelin时,使用spark interpreter报错: com.fasterxml.jackson.databind.JsonMappingException: Could not find creator property with name ‘id’ (in class org.apache.spark.rdd.RDDOperationScope)原因jackson版本冲突,

2016-08-19 11:52:53

zeppelin打包失败 'Failed to execute goal com.github.eirslett:frontend-maven-plugin'

zeppelin官网提供的binary包不支持yarn,需要自己打包。问题zeppelin打包:~/apache-maven-3.3.1/bin/mvncleaninstall-DskipTests一直buildfailure:[ERROR]Failedtoexecutegoalcom.github.eirslett:frontend-maven-plugin:0.0.2

2016-08-18 14:21:49

maven 中运行Junit单元测试

一直没有写单元测试的习惯,导致bug频现,以后代码中必须写单元测试代码,这里记录下maven结合junit运行单元测试方法。

2016-05-23 14:26:58

cloudera-scm-agent 启动失败 'Unable to create the pidfile'

问题安装cloudera namager时,cloudera-scm-server可以正常启动,cloudera-scm-agent启动失败.

2016-05-11 10:31:44

减少spark job jar包的大小

利用java写spark job,工程结构为maven,每次生成的jar都比较大。 spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。 本文介绍jar包瘦身方法: 观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。首先,缓存spark-assembly 包到hdfs,方法见本文。然后, 修改代码工程的pom文件,将spa

2016-05-06 18:13:29

java 使用自定义元组

java 自定义元组是实现记录。

2016-05-04 16:13:01

spark streaming 输出数据到kafka

一般都使用spark streaming从kafka 中消费数据,然后写到其他存储;项目中需要从kafka topic中读数据然后经过 spark streaming 处理后回写到kafka 另一个topic,此处记录下实现方法。环境:spark:1.6.1 stremaing-kafka: spark-streaming-kafka_2.10,1.6.1本例中,每个executor上存在一个单例

2016-04-28 16:12:46

spark streaming kafka OffsetOutOfRangeException 异常分析与解决

job中使用KafkaDirectStream读取topic中数据,然后做处理。其中有个测试job,停止了几天,再次启动时爆出了**kafka.common.OffsetOutOfRangeException**。下文记录下异常分析与解决过程。

2016-04-17 19:39:58

spark.streaming.concurrentJobs参数分析

最近,在spark streaming 调优时,发现个增加job并行度的参数spark.streaming.concurrentJobs,spark 默认值为1,当增加为2时(在spark-default中配置),如遇到处理速度慢 streaming application UI 中会有两个Active Jobs(默认值时为1),也就是在同一时刻可以执行两个批次的streaming job,下文分析

2016-04-14 16:30:40

Spark Streaming 'numRecords must not be negative'问题解决

问题描述笔者使用spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStream()方法;该方法不会自动保存topic partition的offset到zk,需要在代码中编写提交逻辑,此处介绍了保存offset的方法。 当删除已经使用过的kafka topic,然后新建同名topic,使用该方式时出现了"numRecords mu

2016-04-12 17:28:29

Alluxio(tachyon)集群安装部署

Alluxio(tachyon)集群安装部署Alluxio,原名tachyon,在1.0.0版本改名为Alluxio,是一个以内存为中心的虚拟的分布式存储系统,统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。本文介绍集群的安装部署方法。

2016-03-16 15:22:48

Spark Streaming job 远程debug方法

记录下spark job的运程调试方法。

2016-02-23 15:17:08

virtualbox centos虚拟机 配置静态IP

virtualbox centos虚拟机 配置静态IP的方法

2016-02-15 16:57:28

Spark Job (thrift-server) 动态分配资源

项目中使用spark 自带的thrift-server做hdfs数据查询统计服务。当数据过多时,thrift-server 需要分配大量的资源,当不需要查询时分配当量的资源又显得非常浪费,因此想到是否有可能动态分配资源。 (thrift-server也是一个job(yarn app),因此这种方法同样适用于一般的spark job)。 目前动态资源分配只适合spark on yarn,配置方式如

2016-01-20 10:44:40

HBase + Phoenix 安装试用

HBase + Phoenix 安装试用闲来无事,试用下hbase+Phoenix。这里有三台主机: node_1 // namenode, zk_1 node_2 // datanode, zk_2 node_3 // datanode, zk_3HBase部署在部署hbase之前环境中安装hadoop,安装教程可以自行搜索,本节主要介绍hbase的部署配置过程。首先,需要下载

2016-01-16 16:50:54

ganglia 报 "Error 1 sending the modular data for" Error解决方法

ganglia 报 “Error 1 sending the modular data for” Error解决方法现象使用ganglia监控集群时,发现有些节点没有数据,查看syslog发现报错如下: Jan 5 16:46:38 test139 /usr/sbin/gmond[21974]: Error 1 sending the modular data for udp_inerror

2016-01-06 10:03:43

缓存jar包来提升spark on Yarn job的提交速度

之前一直使用Spark standalone方式提交job,最近team换成了yarn方式,但发现在yarn上,提交job的速度比standalone慢的多;看提交的日志,发现其中有个很明显的东西,yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中,这个jar包有130M+,花费了好几秒的时间,其实可以将其缓存在hdfs上的,每次job提交时不再需

2015-12-31 11:33:35

查看更多

勋章 我的勋章
    暂无奖章