自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 Scala第一个Demo(大项目的一块砖)

Scala第一个demo关于Scala,看了很多关于Scala的语法,但是真正准备写一个项目时,不知道怎么下手,看了《Scala编程》,上面一个例子,还不错,记下来package com.leep.scala/** * 定义有理数类,并完成加减乘除运算 */class Rational (n:Int,d:Int){  require(d!=0

2017-12-30 14:30:25 629

原创 spark读取kafka数据(两种方式比较及flume配置文件)

Kafka topic及partition设计    1、对于银行应用日志,一个系统建一个topic,每台主机对应一个partition,规则为,flume采集时,同一个应用,数据送到同一个topic,一个主机,送一个partition,这样做是为了同一个日志的数据在一个partition中,顺序不会乱。另,flume配置文件可以配置sink的topic和partition id(xxx.

2017-12-27 23:38:13 4980

原创 flume 1.7 TailDir source重复获取数据集不释放资源解决办法

背景:银行日志生产方式一般有两种1)按大小切分:xxx.logxxx.log1 xxx.log2,及最新日志写入.log,原来的.log mv为.log1,.log1 mv为.log2,依次类推,每个日志固定大小(10M、50M之类)。2)按天切分:xxx.log  xxx.log-20171224(xxx.log-日期),最新日志写入.log,后面的按照日期备份,基本为每天一个日志。

2017-12-26 23:09:45 2035

原创 基于SparkStreaming对银行日志处理系列--整体技术框架

基于SparkStreaming对银行日志分析,实时技术架构图通过flume实时采集原日志,送到kafka缓存,SparkStreaming准实时从kafka拿数据,经过ETL、聚合计算送到redis,供前端展示,具体技术及代码见后面博客;除了实时部分,还有离线这一块,技术框架如下:前面都一样,只是通过SparkStreaming ETL后,不聚合计算直接插入hbase,供

2017-12-23 11:11:18 813

原创 MVN编译Flume1.7源码时出现下载ua-parses-1.3.0 jar包失败

解决思路:下载ua-parses jar包到本地,然后用mvn命令增加到本地;如果下载因为各种原因还是无法下载,那就就在git上下载ua-parses-1.3.0源码,打jar包,用mvn指定路径。1、进入git,git clone https://github.com/apache/flume.git,下载源码;2、进入前下载的flume目录,执行mvn install

2017-11-26 21:56:28 1403 2

原创 SparkStream从kafka读取数据编码问题(Java)

SparkStreaming从kafka读取文件流时(Java),默认是utf-8的,如果源文件的编码不是utf-8,那就会出现乱码现象,但是kafka的官网参数里没有关于编码的参数,不过kafka的源码里面是有的。源码如下:publicvoidconfigure(Mapconfigs,booleanisKey){StringpropertyName=isKey?"key.seri

2017-08-19 14:26:19 6669 2

spark基础知识讲解

spark基础知识,原理相关。spark基础知识,原理相关。

2018-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除