leep-li-CSDN博客

原创 Scala第一个Demo（大项目的一块砖）

Scala第一个demo关于Scala，看了很多关于Scala的语法，但是真正准备写一个项目时，不知道怎么下手，看了《Scala编程》，上面一个例子，还不错，记下来package com.leep.scala/** * 定义有理数类，并完成加减乘除运算 */class Rational (n:Int,d:Int){ require(d!=0

2017-12-30 14:30:25 629

原创 spark读取kafka数据（两种方式比较及flume配置文件）

Kafka topic及partition设计 1、对于银行应用日志，一个系统建一个topic，每台主机对应一个partition，规则为，flume采集时，同一个应用，数据送到同一个topic，一个主机，送一个partition，这样做是为了同一个日志的数据在一个partition中，顺序不会乱。另，flume配置文件可以配置sink的topic和partition id（xxx.

2017-12-27 23:38:13 4980

原创 flume 1.7 TailDir source重复获取数据集不释放资源解决办法

背景：银行日志生产方式一般有两种1）按大小切分：xxx.logxxx.log1 xxx.log2，及最新日志写入.log，原来的.log mv为.log1，.log1 mv为.log2，依次类推，每个日志固定大小（10M、50M之类）。2）按天切分：xxx.log xxx.log-20171224(xxx.log-日期),最新日志写入.log，后面的按照日期备份，基本为每天一个日志。

2017-12-26 23:09:45 2035

原创基于SparkStreaming对银行日志处理系列--整体技术框架

基于SparkStreaming对银行日志分析，实时技术架构图通过flume实时采集原日志，送到kafka缓存，SparkStreaming准实时从kafka拿数据，经过ETL、聚合计算送到redis，供前端展示，具体技术及代码见后面博客；除了实时部分，还有离线这一块，技术框架如下：前面都一样，只是通过SparkStreaming ETL后，不聚合计算直接插入hbase，供

2017-12-23 11:11:18 813

原创 MVN编译Flume1.7源码时出现下载ua-parses-1.3.0 jar包失败

解决思路：下载ua-parses jar包到本地，然后用mvn命令增加到本地；如果下载因为各种原因还是无法下载，那就就在git上下载ua-parses-1.3.0源码，打jar包，用mvn指定路径。1、进入git，git clone https://github.com/apache/flume.git，下载源码；2、进入前下载的flume目录，执行mvn install

2017-11-26 21:56:28 1403 2

原创 SparkStream从kafka读取数据编码问题（Java）

SparkStreaming从kafka读取文件流时（Java），默认是utf-8的，如果源文件的编码不是utf-8，那就会出现乱码现象，但是kafka的官网参数里没有关于编码的参数，不过kafka的源码里面是有的。源码如下：publicvoidconfigure(Mapconfigs,booleanisKey){StringpropertyName=isKey?"key.seri

2017-08-19 14:26:19 6669 2

spark基础知识讲解

spark基础知识，原理相关。spark基础知识，原理相关。

2018-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人