自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (7)
  • 收藏
  • 关注

原创 zeppelin出现ConnectException: Connection refused解决方法

zeppelin出现ConnectException: Connection refused问题一直用zeppelin做分析工作台,最近想把现用的环境整体打包复制到另一个集群,在新的集群启动spark interpreter时出现了ConnectException,详细出错信息如下:ERROR [2018-03-05 17:33:01,109] ({Thread-31} Rem...

2018-03-06 09:08:51 3464

原创 logstash kafka output 输出原始数据格式

有个场景需要从kafka topic中读出message,然后转到另一个kakfa集群的topic中,为省事就用了logstash。但logstash处理后不是原始数据,需要修改codec plain的消息格式配置

2017-11-08 20:33:48 10841 1

原创 Spark 广播变量(broadcast)更新方法

Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), arr(2).toInt)}).distinctvar mapBC = sc.broa

2017-06-05 11:19:15 11689

原创 zeppelin spark interpreter异常 com.fasterxml.jackson.databind.JsonMappingException

异常部署zeppelin时,使用spark interpreter报错: com.fasterxml.jackson.databind.JsonMappingException: Could not find creator property with name ‘id’ (in class org.apache.spark.rdd.RDDOperationScope)原因jackson版本冲突,

2016-08-19 11:52:53 2406

原创 zeppelin打包失败 'Failed to execute goal com.github.eirslett:frontend-maven-plugin'

zeppelin 官网提供的binary包不支持yarn,需要自己打包。问题zeppelin打包: ~/apache-maven-3.3.1/bin/mvn clean install -DskipTests一直build failure: [ERROR] Failed to execute goal com.github.eirslett:frontend-maven-plugin:0.0.2

2016-08-18 14:21:49 14948 1

原创 maven 中运行Junit单元测试

一直没有写单元测试的习惯,导致bug频现,以后代码中必须写单元测试代码,这里记录下maven结合junit运行单元测试方法。

2016-05-23 14:26:58 7152

原创 cloudera-scm-agent 启动失败 'Unable to create the pidfile'

问题安装cloudera namager时,cloudera-scm-server可以正常启动,cloudera-scm-agent启动失败.

2016-05-11 10:31:44 7923

原创 减少spark job jar包的大小

利用java写spark job,工程结构为maven,每次生成的jar都比较大。 spark job 包过大带来以下缺点:打包时间长、jar包上传慢、job启动比较慢。 本文介绍jar包瘦身方法: 观察臃肿的jar包,发现大部分都是spark相关的jar比较大,因此打包时去掉即可。首先,缓存spark-assembly 包到hdfs,方法见本文。然后, 修改代码工程的pom文件,将spa

2016-05-06 18:13:29 2940

原创 java 使用自定义元组

java 自定义元组是实现记录。

2016-05-04 16:13:01 1576

原创 spark streaming 输出数据到kafka

一般都使用spark streaming从kafka 中消费数据,然后写到其他存储;项目中需要从kafka topic中读数据然后经过 spark streaming 处理后回写到kafka 另一个topic,此处记录下实现方法。环境:spark:1.6.1 stremaing-kafka: spark-streaming-kafka_2.10,1.6.1本例中,每个executor上存在一个单例

2016-04-28 16:12:46 11937

原创 spark streaming kafka OffsetOutOfRangeException 异常分析与解决

job中使用Kafka DirectStream 读取topic中数据,然后做处理。其中有个测试job,停止了几天,再次启动时爆出了**kafka.common.OffsetOutOfRangeException**。下文记录下异常分析与解决过程。

2016-04-17 19:39:58 30378 12

原创 spark.streaming.concurrentJobs参数分析

最近,在spark streaming 调优时,发现个增加job并行度的参数spark.streaming.concurrentJobs,spark 默认值为1,当增加为2时(在spark-default中配置),如遇到处理速度慢 streaming application UI 中会有两个Active Jobs(默认值时为1),也就是在同一时刻可以执行两个批次的streaming job,下文分析

2016-04-14 16:30:40 11275 1

原创 Spark Streaming 'numRecords must not be negative'问题解决

问题描述笔者使用spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStream()方法;该方法不会自动保存topic partition的offset到zk,需要在代码中编写提交逻辑,此处介绍了保存offset的方法。 当删除已经使用过的kafka topic,然后新建同名topic,使用该方式时出现了"numRecords mu

2016-04-12 17:28:29 21434 4

原创 Alluxio(tachyon)集群安装部署

Alluxio(tachyon)集群安装部署Alluxio,原名tachyon,在1.0.0版本改名为Alluxio,是一个以内存为中心的虚拟的分布式存储系统,统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。本文介绍集群的安装部署方法。

2016-03-16 15:22:48 5922 2

原创 Spark Streaming job 远程debug方法

记录下spark job的运程调试方法。

2016-02-23 15:17:08 2703

原创 virtualbox centos虚拟机 配置静态IP

virtualbox centos虚拟机 配置静态IP的方法

2016-02-15 16:57:28 2543

原创 Spark Job (thrift-server) 动态分配资源

项目中使用spark 自带的thrift-server做hdfs数据查询统计服务。当数据过多时,thrift-server 需要分配大量的资源,当不需要查询时分配当量的资源又显得非常浪费,因此想到是否有可能动态分配资源。 (thrift-server也是一个job(yarn app),因此这种方法同样适用于一般的spark job)。 目前动态资源分配只适合spark on yarn,配置方式如

2016-01-20 10:44:40 3201

原创 HBase + Phoenix 安装试用

HBase + Phoenix 安装试用闲来无事,试用下hbase+Phoenix。这里有三台主机: node_1 // namenode, zk_1 node_2 // datanode, zk_2 node_3 // datanode, zk_3HBase部署在部署hbase之前环境中安装hadoop,安装教程可以自行搜索,本节主要介绍hbase的部署配置过程。首先,需要下载

2016-01-16 16:50:54 1029

原创 ganglia 报 "Error 1 sending the modular data for" Error解决方法

ganglia 报 “Error 1 sending the modular data for” Error解决方法现象使用ganglia监控集群时,发现有些节点没有数据,查看syslog发现报错如下: Jan 5 16:46:38 test139 /usr/sbin/gmond[21974]: Error 1 sending the modular data for udp_inerror

2016-01-06 10:03:43 2695

原创 缓存jar包来提升spark on Yarn job的提交速度

之前一直使用Spark standalone方式提交job,最近team换成了yarn方式,但发现在yarn上,提交job的速度比standalone慢的多;看提交的日志,发现其中有个很明显的东西,yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中,这个jar包有130M+,花费了好几秒的时间,其实可以将其缓存在hdfs上的,每次job提交时不再需

2015-12-31 11:33:35 3685

原创 spark job 独立的log4j配置方法

spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置, 不能单独配置某个job的运行日志。本文介绍spark (streaming) job独立配置的log4j的方法。设置方法spark job提交时可以在 --co

2015-12-30 18:35:14 12631

原创 spring initialize-database 使用方法

spring initialize-database 使用方法做系统时经常遇到需要初始化数据库的问题,spring 有个很用户的标签 initialize-database,实现这个功能,备忘下。只需要在xml中做如下配置配置: <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

2015-12-29 13:52:15 1797 1

原创 spark createDirectStream保存kafka offset(JAVA实现)

问题描述最近使用spark streaming处理kafka的数据,业务数据量比较大,使用了kafkaUtils的createDirectStream()方式,此方式跳过了zookeeper,并且没有receiver,能保证消息恰好一次语意。但是此种方式因为没有经过zk,topic不能自动保存offset,本文讨论在使用createDirectStream时如何保存kafka topic offset。

2015-12-22 19:17:03 15518 8

原创 spark streaming job数据输出数目不准确问题排查记录

详细描述2015-12-18日提交测试,发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据,streaming job 接收200,处理后输出250。问题分析排查了job代码,以及数据输出逻辑,均无发现问题。在查看job执行情况时发现一个很奇怪的task状态,见下图:发现index-0的task产生了 speculative状态的task,因此猜测 s

2015-12-21 12:29:58 1301

原创 mybatis generator使用方法备忘

mybatis generator使用方法

2015-12-02 12:30:54 510

原创 SFTP 限定登录用户在指定目录

使用sftp做文件传输时,经常遇到将登录用户限定到制定目录的情景,网上乱找了一堆资料,总算实现了,记录一下。

2015-05-16 11:44:51 4683

原创 elasticsearch出现TranslogCorruptedException导致shard不能启动的问题修复

在使用ES的过程中遇到以下问题:[2015-01-06 16:12:34,061][WARN ][indices.cluster ] [node_141] [ips][4] failed to start shardorg.elasticsearch.index.gateway.IndexShardGatewayRecoveryException: [ips][4] fai

2015-01-06 18:24:13 11781

原创 基于kettle的简单HTTP接口监控

1、使用工具:kettle、excel、shell

2014-09-30 11:02:57 10581

nginx核心讲解

nginx核心讲解,涉及:进程解析、跟踪调试、配置解析、模块解析、事件机制、变量机制。

2012-10-06

Android Programming-浙江大学(有实例)中文

浙江大学 Android Programming 语言:中文 包括:用户界面,数据存取,网络连接,硬件访问,图形编程

2011-04-10

C++程序设计ppt_谭浩强·清华大学

谭浩强C++程序设计PPT课件 清华大学 比较经典

2011-03-20

《byte of Python》(中文版)

本书可以作为Python编程语言的一本指南或者教程。它主要是为新手设计的,但对于有经验的程序员来说同样有用。

2010-11-22

计算机方向毕业论文写法(包括开题报告、文献综述)

计算机方向的论文写法和范例,包括:开题报告、文献综述、毕业论文

2010-05-12

win_tc(c 编译器)

c 编译器 ,操作界面为汉语,容易检查错误,

2009-01-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除