自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(510)
  • 收藏
  • 关注

原创 eclipse历史版本下载地址

    http://wiki.eclipse.org/Older_Versions_Of_Eclipse

2017-02-18 14:51:19 299

原创 hbase之宽表与窄表对split的影响

  hbase之宽表与窄表对split的影响   Hbase的hbase.hregion.max.filesize属性值用来指定region分割的阀值, 该值默认为268435456(256MB), 当一个列族文件大小超过该值时,将会分裂成两个region。     hbase的列可以有很多,设计时有两种方式可选择, 宽表(一行有很多列)和窄表如有一个存储用户邮件的表按宽表设...

2016-11-28 14:28:35 322

原创 hive与hbase集成

 原文链接:  http://blog.csdn.net/vah101/article/details/22597341 写的很不错,工作中正好用到,转载了  存储handler在开始介绍之前,首先请阅读StorageHandlers,对存储处理程序的框架有个初步的认识,可以帮助读者理解HBase集成。使用方法这个存储处理程序被编译成一个独立的模块, hiv...

2016-11-23 14:19:26 290

原创 hbase shell常用命令和filter

  list 查看表 带有正则写法:  hbase(main):014:0> list 'zm.*'TABLE zmtest1 ...

2016-07-19 15:41:52 1747

原创 64位linux系统编译hadoop源码 native库

    下面是自己编译hadoop源码, 然后将native库上传覆盖hadoop的过程  0 hadoop native库:在hadoop压缩时 调用此库文件的jni(.so)来调用linux系统的功能, 一般我们的linux机器都是64位,而官网下载的hadoop安装文件都是32位编译的,因此如果不在你本机编译的话,想使用hadoop压缩功能受限。...

2016-06-21 11:13:59 2496

原创 ant下载地址

       http://ant.apache.org/bindownload.cgi  

2016-06-19 19:12:26 188

原创 使用notepad++设置sh文件unix格式

  工作中经常要在window本地编写sh脚本,然后提交到服务器执行(服务器是u8格式)我经常用 notepad++, 在用这个工具编写 sh文件时,注意最后要将文件设置为 unix格式并且 u8编码,设置如下:这是我使用的版本:  下 选择: 以UTF-8无BOM格式编码(在5.4.3版本下,同时在格式下点击  转换为UNIX格式)而在 6....

2016-05-25 14:32:11 7035

原创 solr属性multivalued使用

      业务目的: 数据在hive中,用   location:山东,河北,陕西  这种来存储,后入到hbase中,现在将hbase数据导入solr后,同时期待 搜索 location:山东     location:河北      location:陕西 都能搜索到这条记录  处理流程: solr schema.xml中, <f...

2016-05-03 17:40:40 1366

原创 hive增量对比后将增量数据插入原表

     工作中,有个业务,需要将这个表每个月增加和修改的记录不断追加到这个表内:  sql如下:f_courtannoucement_party:  法院公告 fct_pdffilename: pdf文件名称fct_name: 公告名称 insert overwrite table f_courtannoucement_partys...

2016-04-29 09:17:12 2747

原创 YARN内存使用优化配置

  参考链接 :  http://www.aboutyun.com/thread-11009-1-1.html   根据这个链接看cdh下配置yarn mapreduce大小,从而确定最多能开启多少个tasks http://blog.csdn.net/shubingzhuoxue/article/details/50239041...

2016-04-24 17:17:28 142

原创 mogo学习网址

  菜鸟教程  很好的网站 各种学习资料http://m.runoob.com/mongodb/

2016-04-19 18:07:56 162

原创 linux sed 工作中使用

  脚本如下: if [ "$1" == "" ]; then echo ./genconf.sh [TABLENAME] exit 1fisource ../../../conf.properties TABLENAME=`basename $1`conf=conf_$DATECF="f" dt_res=""func...

2016-04-19 17:55:01 146

原创 hive -e 出现cannot recognize input nearXXX

  做接口平台,将 hive sql放在shell里,用 hive -e "'    select xxx, concat_ws(",",collect_set(字段))  字段  from tablexxx;" 报  FAILED: ParseException line cannot recognize input near ',' ',' 'collect...

2016-04-18 15:40:37 43180

原创 syntax error near unexpected token `的问题

、 参考链接:http://jingyan.baidu.com/article/9f63fb91d014b8c8410f0e7a.html 在做 data_center工程时, 大小20-30多个接口  hive清洗,split 到 hbase, 然后全量 增量对比,还有solr全量 增量更新删除文件 每个接口都写在一个sh里,在本地 window7编辑后, 用 u8无bom...

2016-04-17 15:11:05 1335

原创 hbase 维护手册 TODO

     http://eclecl1314-163-com.iteye.com/blog/1704249  

2016-04-16 19:55:46 129

原创 系统SLA

   在看 hbase实战这本书的时候,经常看到 系统SLA, 比如 不用停止整个集群,此方式不会影响应用系统的SLA,好奇是什么意思,百度下介绍如下: 服务水平协议(简称:SLA,全称:service level agreement)是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。一个完整的...

2016-04-16 19:44:35 1071

原创 PERFORMANCE WARNING: Overlapping onDeckSearchers=2

  待整理   solr  http://www.tuicool.com/articles/rqENbe  http://www.cnblogs.com/rcfeng/p/4109700.html  !!!

2016-04-15 18:29:04 1874

原创 linux grep 指定文件后缀名搜索

  在安装的solr里找一些单词, 使用grep 写法如下: #pwd/opt/solr/solr/hbase_f_trademark_info_index_tbs/conf # grep "hbase_f_trademark_info_index_tbs" * 表示在当前目录下所有文件找单词 hbase_f_trademark_info_index_tbs...

2016-04-14 17:09:32 13710

原创 linux查看文件大小

   头几天公司弄solr,将索引库目标目录指定到一个内存映射的 /tmp/memdir里,大小为80G,随着不断写入索引,  /tmp/memdir 不够用,此时 solr在写到这个目录后 solr服务会挂掉,因此需要linux命令查看 目录使用情况:   du:    总结每个文件的磁盘使用情况[root@hadoop3 ~]# du --helpUsag...

2016-04-14 14:21:44 441

原创 solr 参考链接 需要整理 TODO

    http://www.tuicool.com/articles/mueARf     跟益达学Solr5   http://blog.csdn.net/dr_lf/article/details/47035015    添加分词器   http://www.tuicool.com/articles/rqENbe   solr推酷 调优...

2016-04-10 21:11:07 101

原创 SolrCloud中的SolrCore报“exceeded limit of maxWarmingSearchers=2"问题怎么解决

   请教个问题,我们是多线程往SolrCloud中的某个SolrCore导入数据,但是有时会出现“Error opening new searcher. exceeded limit of maxWarmingSearchers=2”这个错误,这个错误就会导致我们在SolrCloud上点击某个SolrCore的话,请求一直在等待,最后报页面无法打开,请问这个问题怎么解决呢? ...

2016-04-10 08:55:32 342

原创 solr配置文件说明 TODO 待整理

   参考链接: http://blog.csdn.net/liuweitoo/article/details/8132981

2016-04-10 08:54:53 70

原创 ctrl+c能关闭mr任务吗

  在命令行里执行hadoop mr时, 打印百分比时  ctrl +c是不一定就关闭这个任务的,应该用 hadoop job -list    hadoop job -kill jobid来杀死 hive>下执行hive sql跑任务  ctrl +c可以关闭掉  ...

2016-04-07 18:01:27 725

原创 hbase跑数到solr时数据对不上一些简单总结

  工作中,需要将hbase数据跑到solr里做部分字段索引,目前出现过两种情况: 1 假设hbase有100条, 跑到solr里是70条 2 假设hbase有100条,跑完job后mr显示 reduce input输出个数是100,但是在solr界面查询时,   报错,包什么字段 XX not found之类 ,但是看solr对应的索引库的schema.xml根本没...

2016-04-07 08:21:08 345

原创 资深首席架构师眼中的架构应该是怎样的?

  原文链接:  http://i.dataguru.cn/mportal.php?mod=view&aid=9124   我对架构定义的理解大概在7~8年前,我曾经有一个美国对口的架构师导师,他对我讲架构其实是发现利益相关者(stakeholder),然后解决他们的关注点(concerns),后来我读到一本书《软件系统架构:使用视点和视角与利益相关者合作》...

2016-04-06 17:22:45 160

原创 hive log的分类和所在位置

  hive中日志分为两种: 1 系统日志,记录hive运行情况,错误状态2 job日志 , 记录hive中 job执行的历史过程  系统日志存储位置:配置在 hive/conf/hive-log4j.properties 文件中记录了hive日志存储情况 默认存储信息:hive.root.logger=WARN,DRFAhive.log.di...

2016-04-01 11:10:02 1121

原创 将很多段逻辑sql放在一个hive文件执行 终止提交的任务做法

   背景: hive工作中,将很多etl 脚本写在一起,然后整体提交,提交后突然后悔想取消  eg: qyjssum.sh: sudo -u hdfs hive -e "    use ste_qyjs;     清洗逻辑1.....      清洗逻辑2....     清洗逻辑3...... " 调用写...

2016-04-01 08:03:37 635

原创 mapreduce数量---- TODO 待整理

    http://www.aboutyun.com/thread-6945-1-1.html    待整理 写的很好

2016-03-29 14:03:08 93

原创 通过impala查看hfile

   工作中有时需要查看hfile, 安装了impla后,直接点击右上角的  File Browser,找到hfile所在的路径即可, 比如   /DATA_CENTER/HFile/表/info/下看到所有hfile文件数据 ...

2016-03-28 12:00:32 114

原创 HBase Timeout-OutOfOrderScannerNextException-was there a rpc timeout

   0 工作中遇到问题如下: Casuse by: org.apche.hadoop.hbase.exceptions.OutofOrderScannerNextException: Excepted nextCallSeq: 1 but the nextcallseq got from client:0: request=scanner_id: 431 number_of_r...

2016-03-28 11:27:52 1544 1

原创 shell设置脚本文件格式

  工作中遇到的问题: 在window上写的shell脚本,通过nodepad++编辑后提交到linux系统跑数,报错如下: chmod '/DATA_CENTER/HFile/f_flws_ent/info: no such file or directory  at 18. User-space table qualifiers can only ...

2016-03-28 11:17:04 1941

原创 linux ./ ../含义

    ./ 是当前目录../ 是上一级目录 

2016-03-26 15:11:53 233

原创 hive自定义函数 求和

  oracle中有个业务是 各项指标相加求和的,迁移到hive上,自定义函数写法如下:  public class SumTest extends UDF{ String retVal = ""; double sumpart = 0; public Text evaluate(String... args) { String part = ...

2016-03-26 13:24:01 1047

原创 solrctl命令 TODO

  http://haiziwoainixx.iteye.com/blog/2095596

2016-03-26 11:29:11 1116

原创 hive 获取当前yyyy/MM/dd HH:mm:ss

  以前是写自定义函数, 现在用这种方式可以实现: from_unixtime(unix_timestamp(), 'yyyy/MM/dd HH:mm:ss')

2016-03-25 11:05:00 2308

原创 mapreduce-chain TODO

    http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499653.html   待整理

2016-03-25 09:27:07 72

原创 hbase实战---来自有道

  如下是个人整理的笔记,编辑与有道,后直接分享,没有将内容在贴在iteye编辑器上 part1 :  http://note.youdao.com/share/web/file.html?id=f12d9f4641ea9f0caae0803171d87f1a&type=note  part2 :  http://note.youdao.com/share/...

2016-03-23 14:50:08 113

原创 flume kafka好文 待看 TODO

   http://www.jianshu.com/users/a9b2d43bb94e/latest_articles   简书

2016-03-23 14:07:50 89

原创 hbase上构建mapreduce代码 --- TODO

    http://www.cnblogs.com/end/archive/2012/12/12/2814819.html    江南贡院

2016-03-23 11:40:44 68

原创 hbase 集群多主节点文章 --- TODO

   http://www.importnew.com/3020.html   好文   importnew        

2016-03-23 11:40:01 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除