8 Syn良子

尚未进行身份认证

暂无相关描述

等级
博文 45
排名 30w+

将博客搬至CSDN

由于本人喜欢折腾,最近喜欢上了更加方便快捷的MarkDown来写原创内容,鉴于目前博客园的Markdown编辑器功能无法直视,所以搬迁博客至CSDN,欢迎小伙伴来交流.

2017-08-31 17:51:25

Pyspark的HBaseConverters详解

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7449682.html转载请注明出处最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家.问题背景最近在使用pyspark写hbase的过程中发现,会报以下类似的错误这是由于最终计算结果存入hbase的时候pyspark无法找到相关的co

2017-08-31 17:51:21

Pyspark访问Hbase

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7347167.html转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程.连接准备快速用pyspark访问Hbase中的表进行测试,代码如下(注意,其中的host和inputtable是已经定义好的主机和表名变量)spar

2017-08-31 17:51:16

Hbase1.0伪分布式集群启动失败问题

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7340681.html转载请注明出处最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败,使用的Hbase版本为ApacheHbase1.0,解决过程如下发现问题经过仔细观察日志,发现Hbase启动的时候会报错"thehostnameofregionservercannot

2017-08-31 17:51:11

Hbase FilterList使用总结

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7098138.html转载请注明出处我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端,单个的filter还好说,如果有多个呢,那么就需要使用FilterList,它也是继承于抽象类Filter,里面持久化了一个有序的orderlist来存储不同的filter对数据进

2017-08-31 17:51:05

Phoenix编译支持CDH

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/6898227.html转载请注明出处最近由于想调研下低延迟的数据查询框架,那么基于SQLonHbase的Phoenix是必不可少的,先熟悉下它的编译和部署并记录下过程Phoenix编译由于当前我的测试集群是CDH5.4.0,而它并没有把phoenixinclude进去,因为需要自己修改pho

2017-08-31 17:51:00

HiveHbase集成实践

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/6857891.html转载请注明出处简单的说就是可以通过HiveSQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hbase做后台历史日志的存储和统计.而进行离线日志的存储统计的时候,你当然可以选择用HadoopMR

2017-08-31 17:50:55

Hive的静态分区和动态分区

作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/6831884.html转载请注明出处虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解.举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,

2017-08-31 17:50:50

Linux使用free命令查看实际内存占用

转自:http://www.cnblogs.com/pengdonglin137/p/3315124.htmlLinux下在终端环境下可以使用free命令看到系统实际使用内存的情况,一般用free-m方式查看内存占用情况(兆为单位)。而系统实际可用内存是不是free部分呢,不是的,系统实际内存占用以及可用内存有如下几个加减法:used=total-free即total=used+fre

2017-08-31 17:50:45

Spark排错与优化

转自:http://blog.csdn.net/lsshlsw/article/details/49155087一.运维1.Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的eventlog日志去生成sparkui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启

2017-08-31 17:50:40

Python日期字符串比较

作者:Syn良子出处:http://www.cnblogs.com/cssdongl转载请注明出处需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小,其实实现很简单,首先一些基础的日期格式化知识如下'''%a星期的简写。如星期三为Web%A星期的全写。如星期三为Wednesday%b月份的简写。如4月份为Apr%B月份的全写。如4月份为April%c:日

2017-08-31 17:50:35

Cannot obtain block length for LocatedBlock故障分析和解决

摘要:作者:Syn良子出处:http://www.cnblogs.com/cssdongl转载请注明出处这几天想cat一下某天的HDFS文件内容的时候突然报CannotobtainblocklengthforLocatedBlock异常,get也一样,这样无法访问hdfs文件的问题必须解决,Mark一下问题背景和解决过程一.问题背景问题产生的原因可能是由于前几日Hadoop集

2017-08-31 17:50:30

HDFS租约机制

转自:http://blog.csdn.net/androidlushangderen/article/details/52850349在HDFS中,当每次客户端用户往某个文件中写入数据的时候,为了保持数据的一致性,此时其它客户端程序是不允许向此文件同时写入数据的。那么HDFS是如何做到这一点的呢?答案是租约(Lease)。换句话说,租约是HDFS给予客户端的一个写文件操作的临时许可证,无此

2017-08-31 17:50:27

shell 脚本中双引号 单引号 反引号 的区别

转自:http://blog.csdn.net/iamlaosong/article/details/54728393最近要编个shell脚本处理数据,需要检测数据文件是否存在,文件名中包含日期,所以需要生成最近几天的日期,以便检测文件是否存在,看下面的脚本中如何使用双引号、单引号、反引号:OPDATE=`date-d'-1day'+%Y%m%d`foriin$(se

2017-08-31 17:50:22

Linux命令执行的屏幕输出内容重定向到日志文件

摘要:作者:Syn良子出处:http://www.cnblogs.com/cssdongl转载请注明出处快速mark一下这个命令细节,免得以后使用又忘记了大家都知道可以用echo来输出内容到文件,比如echo“hello,word”>>temp.txt那么我现在想把hadoop或者spark的命令执行的屏幕输出到文件怎么办?很简单,命令如下 hadoopjar*.jar$

2017-08-31 17:50:20

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自Jason’sBlog,原文链接http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(DataSkew)什么是数据倾斜对Sp

2017-08-31 17:50:15

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

转自:http://www.cnblogs.com/lxf20061900/p/4014281.htmlFlume-NG中的hdfssink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。  在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需

2017-08-31 17:50:10

Hbase 布隆过滤器BloomFilter介绍

转载自:http://blog.csdn.net/opensure/article/details/464536811、主要功能提高随机读的性能2、存储开销bloomfilter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生

2017-08-31 17:50:05

Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法

原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referralInfoQ上看到这篇文章还不错,Mark一下由于DougCutting和Apache软件基金会有多年的合作关系,于是经常被问到“什么是开源技术的未来?”。Doug的回应一般要么是“

2017-08-31 17:50:00

HBase在数据统计应用中的使用心得

转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html1.数据统计的需求互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、GoogleAnalytics、量子恒道统计等等。网站站点统计工具无外乎有以下一些功能:1)网站流量统计:包括PV、UV、IP等指标,这

2017-08-31 17:49:55
奖章
    暂无奖章