自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Syn良子的博客

每天都保持空杯心态

  • 博客(45)
  • 收藏
  • 关注

原创 将博客搬至CSDN

由于本人喜欢折腾,最近喜欢上了更加方便快捷的MarkDown来写原创内容,鉴于目前博客园的Markdown编辑器功能无法直视,所以搬迁博客至CSDN,欢迎小伙伴来交流.

2017-08-31 17:51:25 269

原创 Pyspark的HBaseConverters详解

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7449682.html 转载请注明出处最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家.问题背景最近在使用pyspark写hbase的过程中发现,会报以下类似的错误这是由于最终计算结果存入hbase的时候pyspark无法找到相关的co

2017-08-31 17:51:21 1609 2

原创 Pyspark访问Hbase

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7347167.html 转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程.连接准备快速用pyspark访问Hbase中的表进行测试,代码如下(注意,其中的host和inputtable是已经定义好的主机和表名变量)spar

2017-08-31 17:51:16 9740 11

原创 Hbase1.0伪分布式集群启动失败问题

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7340681.html 转载请注明出处最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败,使用的Hbase版本为Apache Hbase1.0,解决过程如下发现问题经过仔细观察日志,发现Hbase启动的时候会报错"the hostname of regionserver cannot

2017-08-31 17:51:11 790

原创 Hbase FilterList使用总结

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7098138.html 转载请注明出处我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端,单个的filter还好说,如果有多个呢,那么就需要使用FilterList,它也是继承于抽象类Filter,里面持久化了一个有序的order list来存储不同的filter对数据进

2017-08-31 17:51:05 1284

原创 Phoenix编译支持CDH

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6898227.html 转载请注明出处最近由于想调研下低延迟的数据查询框架,那么基于SQL on Hbase的Phoenix是必不可少的,先熟悉下它的编译和部署并记录下过程Phoenix编译由于当前我的测试集群是CDH5.4.0,而它并没有把phoenix include进去,因为需要自己修改pho

2017-08-31 17:51:00 812

原创 HiveHbase集成实践

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处 简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hbase做后台历史日志的存储和统计. 而进行离线日志的存储统计的时候,你当然可以选择用Hadoop MR

2017-08-31 17:50:55 261

原创 Hive的静态分区和动态分区

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,

2017-08-31 17:50:50 387

原创 Linux使用free命令查看实际内存占用

转自:http://www.cnblogs.com/pengdonglin137/p/3315124.html Linux下在终端环境下可以使用free命令看到系统实际使用内存的情况,一般用free -m方式查看内存占用情况(兆为单位)。而系统实际可用内存是不是free部分呢,不是的,系统实际内存占用以及可用内存有如下几个加减法: used=total-free 即 total=used+fre

2017-08-31 17:50:45 9399 1

原创 Spark排错与优化

转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启

2017-08-31 17:50:40 379

原创 Python日期字符串比较

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小,其实实现很简单,首先一些基础的日期格式化知识如下 '''%a星期的简写。如 星期三为Web%A星期的全写。如 星期三为Wednesday%b月份的简写。如4月份为Apr%B月份的全写。如4月份为April%c: 日

2017-08-31 17:50:35 1772

原创 Cannot obtain block length for LocatedBlock故障分析和解决

摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问题必须解决,Mark一下问题背景和解决过程 一.问题背景 问题产生的原因可能是由于前几日Hadoop集

2017-08-31 17:50:30 568 1

原创 HDFS租约机制

转自:http://blog.csdn.net/androidlushangderen/article/details/52850349 在HDFS中,当每次客户端用户往某个文件中写入数据的时候,为了保持数据的一致性,此时其它客户端程序是不允许向此文件同时写入数据的。那么HDFS是如何做到这一点的呢?答案是租约(Lease)。换句话说,租约是HDFS给予客户端的一个写文件操作的临时许可证,无此

2017-08-31 17:50:27 312

原创 shell 脚本中双引号 单引号 反引号 的区别

转自:http://blog.csdn.net/iamlaosong/article/details/54728393 最近要编个shell脚本处理数据,需要检测数据文件是否存在,文件名中包含日期,所以需要生成最近几天的日期,以便检测文件是否存在,看下面的脚本中如何使用双引号、单引号、反引号: OPDATE=`date -d '-1 day' +%Y%m%d` for i in $(se

2017-08-31 17:50:22 288

原创 Linux命令执行的屏幕输出内容重定向到日志文件

摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 快速mark一下这个命令细节,免得以后使用又忘记了 大家都知道可以用echo来输出内容到文件,比如 echo “hello,word”>> temp.txt 那么我现在想把hadoop或者spark的命令执行的屏幕输出到文件怎么办?很简单,命令如下  hadoop jar *.jar $

2017-08-31 17:50:20 23809

原创 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 对Sp

2017-08-31 17:50:15 469

原创 修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

转自:http://www.cnblogs.com/lxf20061900/p/4014281.html Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。   在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需

2017-08-31 17:50:10 353

原创 Hbase 布隆过滤器BloomFilter介绍

转载自:http://blog.csdn.net/opensure/article/details/46453681 1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生

2017-08-31 17:50:05 699

原创 Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法

原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 由于Doug Cutting和Apache软件基金会有多年的合作关系,于是经常被问到“什么是开源技术的未来?”。Doug的回应一般要么是“

2017-08-31 17:50:00 829

原创 HBase在数据统计应用中的使用心得

转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV、UV、IP等指标,这

2017-08-31 17:49:55 789

原创 Kafka connect快速构建数据ETL通道

摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能. 大家

2017-08-31 17:49:50 1875

原创 GitHub更新自己Fork的项目

转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便,但其有一个缺点是:当源项目更新后,你fork的分支并不会一起更新,需要自己手动去更新。 以gitHub用户:micmiu (账号名),fork 项目 sql-parser(https://github.com/FoundationDB/sql-

2017-08-31 17:49:45 327

原创 深入浅出数据仓库中SQL性能优化之Hive篇

转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化

2017-08-31 17:49:38 178

原创 Hive读取外表数据时跳过文件行首和行尾

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 Create external table testtable (name string, message string

2017-08-31 17:49:35 1016

原创 Spark读写Hbase的二种方式对比

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable,

2017-08-31 17:49:30 286

原创 Scala集合和Java集合对应转换关系

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用Scala编码的时候,经常会遇到scala集合和Java集合互相转换的case,特意mark一下,加深记忆 scala.collection.Iterable java.lang.Iterable scala.collection.Iterable java.util.Collection

2017-08-31 17:49:27 407

原创 kafka性能参数和压力测试揭秘

转自:http://blog.csdn.net/stark_summer/article/details/50203133 上一篇文章介绍了Kafka在设计上是如何来保证高时效、大吞吐量的,主要的内容集中在底层原理和架构上,属于理论知识范畴。这次我们站在应用和运维的角度,聊一聊集群到位后要怎么才能最好的配置参数和进行测试性能。Kafka的配置详尽且复杂,想要进行全面的性能调优需要掌握大量信息,我也

2017-08-31 17:49:22 388

原创 MapReduce和Spark写入Hbase多表总结

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, tablename);

2017-08-31 17:49:19 467

原创 SparkStreaming实现Exactly-Once语义

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这篇文章不错,虽然是1.3的老版本的知识,但是还是有借鉴的地方,业余时间按照自己的理解翻译了一遍,有不

2017-08-31 17:49:14 467

原创 Hive索引功能测试

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen-data.sh脚本,内容如下 #! /bin/bash #generating 1.7G raw

2017-08-31 17:49:09 249

原创 Spark的DataFrame的窗口函数使用

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下val sqlContext = new SQLContext(sc)sqlContext.sql(“select ….”)然

2017-08-31 17:49:04 3365

原创 《Kafka Stream》调研:一种轻量级流计算模式

原文链接:https://yq.aliyun.com/articles/58382 摘要: 流计算,已经有Storm、Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计算呢?Kafka Stream 与这些框架比有什么优势?Samza、Consumer Group已经包装了Kafka轻量级的消费功能,难道不够吗? Confluent Inc(原LinkedIn Ka

2017-08-31 17:48:59 966

原创 Kafka0.10的新特性一览

原文链接:http://kane-xie.iteye.com/blog/2301197 2016年5月Confluent官方宣布Apache Kafka 0.10正式发布。该版本包含了很多新功能和优化,这里列出比较重要的几项: Streams 如果你有这样的需求,从Kafka拉取数据进行流处理然后再推送回Kafka,那么你会喜欢0.10的Kafka Streams。Kafka Streams是一

2017-08-31 17:48:54 272

原创 Spark计算均值

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 object ColumnValueAvg extends App { /** * ID,Name,ADDRESS,AGE * 001,zhangsan,chaoyang,20 * 002,zhangsa

2017-08-31 17:48:49 5768

原创 RDD、DataFrame和DataSet的区别

原文链接:http://www.jianshu.com/p/c0181667daa0 RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person

2017-08-31 17:48:44 200

原创 基于 Hive 的文件格式:RCFile 简介及其应用

转载自:https://my.oschina.net/leejun2005/blog/280896 Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格式简介 目前 hadoop 中流行的文件格式有如下几种:

2017-08-31 17:48:39 318

原创 Gobblin采集kafka数据

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题 一.Gobblin环境变量准备 需要配置好Gobblin0.7.0工作时对应的环境变量,可以去Gobblin的bin目录的gobblin-env.sh配置,比如 export GOBBLIN_JOB_CONFIG_DI

2017-08-31 17:48:34 1919 1

原创 Scala 中下划线的用途

转载自:https://my.oschina.net/leejun2005/blog/405305 Scala 作为一门函数式编程语言,对习惯了指令式编程语言的同学来说,会不大习惯,这里除了思维方式之外,还有语法层面的,比如 underscore(下划线)就会出现在多种场合,令初学者相当疑惑,今天就来总结下 Scala 中下划线的用法。1、存在性类型:Existential typesdef f

2017-08-31 17:48:29 370

原创 Gobblin编译支持CDH5.4.0

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 Gobblin的前身是linkedin的Camus,好多人也用过,准备用Gobblin的方式来抽取数据,不过由于连接的集群是CDH的,而Gobblin默认支持的是hadoop2.3.0,因此需要手动编译一个支持CDH的Gobblin版本,否则使用中会遇到无法写入hdfs等不兼容的问题.整理记录其

2017-08-31 17:48:25 466

原创 Kafka到Hdfs的数据Pipeline整理

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址:  https://github.com/apache/flume 2> Kafk

2017-08-31 17:48:20 1351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除