自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(214)
  • 收藏
  • 关注

maven查找所有依赖的license类型

mvn project-info-reports:dependencies

2017-03-27 20:24:41 2890

一些命令

1 maven assembly插件打包snapshot版本的依赖时不使用时间戳版本的名称[url]http://maven.apache.org/plugins/maven-assembly-plugin/faq.html#outputFileNameMapping[/url]使用baseVersion代替version即可2 maven跳过集成测试mvn -Dski...

2016-12-27 15:45:32 276

CDH时钟偏差警报

安装了Cloudera之后,总是提示时钟偏差,但是ntpd服务是正常工作的.原来Cloudera的agent是使用ntpdc命令进行进行判定的[url]https://community.cloudera.com/t5/Cloudera-Manager-Installation/Cloudera-5-4-x-cluster-randomly-reports-quot-Clock-Offse...

2016-12-13 09:21:52 3873 2

cloudera安装后agent无法启动

安装了cloudera后agent居然不能正常启动,一启动就会被关闭,/var/log/messages里只有[quote]cmf-agent: Starting daemon.cmf-agent: Stopping daemon.[/quote]后来发现居然是hostname包含了下划线(underscore),但是这个异常不知道被谁吃了.......

2016-07-15 11:38:44 1985 3

记一次mongodb从亚马逊云迁移到微软云

从aws上把mongodb集群弄到微软云上之后,发现mongos里各种报错[quote]2016-07-14T16:42:10.779+0800 I NETWORK [LockPinger] Socket recv() timeout 10.0.0.6:300012016-07-14T16:42:10.779+0800 I NETWORK [LockPinger] SocketE...

2016-07-14 20:22:58 310

利用dbHash恢复不一致的mongodb config server

原来mongodb的文档上一直宣称是2阶段协议提交来保证3个config server保持强一致性,然而其实不是的[url]https://jira.mongodb.org/browse/DOCS-5289[/url]有人看源代码,发现mongodb源码和文档不一致,提交了这个jira,导致mongodb连官方文档都改了...噗...由于各种原因导致config server不一致...

2016-07-14 20:03:01 258

利用expect自动建立无密钥登录

建立无密钥登录最好用ssh-copy-id但是它有个问题是每次都无脑的在authorized_keys文件中添加数据,容易造成重复,而且如果有很多台服务器要建立的话要运行多次,多次输入"yes",多次输入密码.利用expect可以实现自动安装[url]https://github.com/kabike/autoSSHKey[/url]...

2016-07-05 18:25:30 210

linux expect的f选项

expect脚本的开头一般都写/usr/bin/expect -f,这个-f选项有什么作用呢?比如如下脚本[code="python"]#!/usr/bin/expect -ffor {set i 0} {$i < $argc} {incr i} { puts "arg $i: [lindex $argv $i]"}[/code]运行./bar.sh -c "put...

2016-07-04 18:54:15 5446 2

记录一些linux命令

1 查询某个yum源安装了哪些包yum install yum-utilsyumdb search from_repo bar2 查看哪些包依赖krb5-libsrepoquery --requires krb5-libs3 利用xargs -n 1,解压多个tar文件echo *.tgz | xargs -n 1 tar xf4 利用tee和exec,将一...

2016-05-06 17:54:55 99

mongodb shell中显示更多数量的结果

DBQuery.shellBatchSize = 300[url]http://stackoverflow.com/questions/3705517/how-to-print-out-more-than-20-items-documents-in-mongodbs-shell[/url]

2015-11-10 17:38:33 1626

zookeeper的log4j配置真是失败的典范

各种地方都能配置zookeeper的log4j,真是太烦人了.给用户太多的选择,并不一定能更好的提升用户体验

2015-08-28 18:23:42 1506

linux时间同步

我一直以为要用cron job和ntpdate,现在发现应该用ntpd.[url]http://www.ansen.org/2014/01/linuxntpdntpdate_21.html[/url]

2015-08-28 17:47:42 103

clojure中的agent实现

最近看了下clojure的并发,其中提到了agent.agent的原理是把对agent的action提交到线程池中运行.它保证线程安全的措施是对每一个agent,同时只有一个actio在运行.下面做一个简单的对比,多个线程多次对同一个StringBuilder进行append,如果不同步,结果是不正确的.[code="java"] final StringBuilder sb =...

2015-07-30 18:15:50 210

storm中添加自定义metrics

storm中有时需要添加一些metrics监控项,这时需要添加metrics.在spout或者bolt的prepare方法中注册metrics[code="java"] public void prepare(@SuppressWarnings("rawtypes") Map stormConf, TopologyContext context, OutputCollector c...

2015-07-30 18:13:33 233

storm实现迷你批量提交

storm中有种应用场景,是迷你批量,比如积攒一定数量的tuple,超过一定时间或者数量之后,把这些tuple统一处理.想到了以下三种思路1 在bolt中额外启动一个线程.不过在bolt中启动线程就要考虑并发的问题2 定义另一个command stream,根据需要向这个command stream发tuple.bolt根据tuple的sourceStreamId判断是正常的strea...

2015-07-30 18:12:14 210

java中获得hostname的方式

最近用storm的过程中发现了一个问题,根源也是hostname获取的不正确.和[url]http://kabike.iteye.com/blog/2111791[/url]问题类似storm,hadoop这些java项目在linux上取得hostname的时候,不是简单调用hostname这个命令,而是调用InetAddress.getLocalHost().getCanonicalHo...

2015-07-30 18:10:50 2711

java的内存counter

假设需要在内存中维护一个计数器,在storm tuple来时更新计数器的值,最终统一提交到数据库可以用commons-collection中的Bag或者MultiValueMap,不过效率不高.用java的Map放Integer主要问题在于Integer是不可变类,每次需要构造新的对象,开销比较大,因此尝试了common-lang中的MutableInt和java.util中的Atomic...

2015-07-16 18:49:05 1378

hadoop用Quorum Journal Manager(QJM)实现高可用

官方文档写的还行.补充几点1 如果没有自动failover,两个namenode启动后都是standby状态文档上说用 "hdfs haadmin -failover"命令使其中一个active.hdfs haadmin -failover命令正确用法是[quote]hdfs haadmin -failover node13 node14[/quote]2 如果hbase想...

2015-07-04 17:03:24 267

忍不住想喷hadoop的文档

就说hdfs的checkpoint node吧,它说[quote]Multiple checkpoint nodes may be specified in the cluster configuration file.[/quote]哥,你敢具体写么?你这东西各种bug你知道么?[url]https://issues.apache.org/jira/browse/HDFS-7871[...

2015-07-03 23:27:13 110

忍不住要喷一下kafka

[url]https://issues.apache.org/jira/browse/KAFKA-369[/url]使用consumer的时候要指定zookeeper,使用producer要指定broker.一个集群两种配置,很容易出错.用户体验不好,差评而且kafka的文档也相当糟糕了...simple consumer根本就没有group的概念,0.8.2以后的java produce...

2015-06-17 16:12:32 117

thrift使用中的一些问题

1 TSimpleServer居然是单线程阻塞式server2 thrift默认只能有一个service, args.processor(p1).processor(p2)只有最后一个起作用.thrift的文档真是不行啊 :?:

2015-05-07 11:11:55 226

hadoop和hostname

启动hadoop集群出错, 写道ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.IllegalArgumentException: Does not contain a valid host:port authority: hdfs://hadoop.01:9000 查了一下,hadoop的ho...

2015-04-30 16:05:47 284

java 8中的lambda表达式

java一开始设计的是完全面向对象的,所以一等公民都是对象.函数只是作为对象上的附属.而python,scala等语言中,则有一些函数式编程的特点.不过java 8也提供了lambda表达式,使java也具有了一些函数式编程的特点,带来了一些便利.[size=medium]1 方法引用[/size]假设我们写一个窗体,窗体上有一个button和一个label,点击button时要改...

2015-04-04 15:17:23 315

maven的maven.test.skip和skipTests

maven.test.skip连编译test类都skip了[quote]If you absolutely must, you can also use the maven.test.skip property to skip compiling the tests. maven.test.skip is honored by Surefire, Failsafe and the Compil...

2015-03-25 18:04:17 240

hadoop使用过程中的一些问题

1 如何知道一个文件在HDFS上block的分布情况[url]http://stackoverflow.com/questions/6372060/how-to-track-which-data-block-is-in-which-data-node-in-hadoop[/url]2 用windows 电脑向linux hadoop集群上提交job失败org.apache.hado...

2015-03-24 18:51:23 132

hbase MemStore避免内存碎片

CMS是比较常用的一种gc方法,但是默认情况下CMS不进行compact,因此往往出现内存碎片.而hbase中由于region数据的非集中分布,更容易导致内存碎片.此时在内存还有很大可用空间的时候,也不能创建对象,导致了stop the world[img]https://www.cloudera.com/wp-content/uploads/2011/02/frag-drawing....

2015-02-14 16:29:58 269

原创 arcgis engine C#中更改DefinitionExpression后刷新问题

在c#中使用arcglobe,发现更改DefinitionExpression后不能刷新,此时需要调用RefreshLayer方法[code="c#"] IScene scene = (IScene)axGlobeControl1.Globe; ILayerDescription layerDescription = (ILayerDescription)scen...

2015-02-10 16:18:24 341

arcgis engine C#中在地图上绘制矩形并裁切

绘制矩形需要用到橡皮条工具 RubberBand[code="c#"] ESRI.ArcGIS.Display.IScreenDisplay screenDisplay = activeView.ScreenDisplay; // Constant. screenDisplay.StartDrawing(sc...

2015-02-06 16:46:16 1615

使用HBaseTestingUtility进行本地调试

要想测试hbase的功能,不一定非要启动hbase集群,可以用HBaseTestingUtility在本地进行hbase的部分功能调试 [code="java"] TableName tableName = TableName.valueOf("testBar"); String family = "cf"; HTableDescriptor htd = new HTa...

2015-02-01 15:14:43 659

hbase和hdfs的一些故事

hdfs一开始设计的时候,文件是只能写入一次,然后就只读的.一开始工作的相安无事,但是有一天,hbase跑到了hdfs上,hbase作为数据库,总要保持一定的持久性,所以它弄了个log,叫做wal,记录每一次操作,这样就算region server系统崩溃,Memstore的东西毁于一旦,还是可以靠wal来恢复.问题在于wal是存储在hdfs上的,hdfs上的文件只有被正确close以后,才是合法...

2015-01-31 19:23:02 429

arcgis的镶嵌数据集和影像服务

arcgis可以把栅格数据发布为镶嵌数据集,镶嵌数据集可以发布为影像服务.影像服务比起传统的底图图层有以下好处1 可以提供影像的查询和下载,此时的影像可以像要素类一样进行属性的查询和空间位置的查询,并且能够提供下载[img]http://dl2.iteye.com/upload/attachment/0105/5540/b7eaf611-685a-309d-bdaf-7e9e39f...

2015-01-24 18:03:35 2923

原创 浅谈大数据和GIS的结合

大数据真是愈演愈烈,GIS的数据说起来也是海量.所以两者也算一拍即合.大数据和GIS结合起来怎么搞呢?1 大数据作为GIS的数据源.其实arcgis在shapefile,file geodatabase ,ArcSDE之外,可以通过plug in 的方式使用数据源.[url]http://help.arcgis.com/en/sdk/10.0/arcobjects_net/conc...

2015-01-24 14:06:28 3330

原创 arcgis与hadoop相结合的一些问题

主要是使用esri公司的开源项目https://github.com/Esri/gis-tools-for-hadoop其中几个问题1 geoprocessing-tools-for-hadoop要求arcgis 10.1,其实还要sp12 hive使用mysql作为存储,在hive上创建表时,报错Specified key was too long; max key length...

2015-01-24 14:05:47 497

hbase MTTR介绍

[url]http://zh.hortonworks.com/blog/introduction-to-hbase-mean-time-to-recover-mttr[/url]收藏这篇文章有一段时间了,随着对hbase,hdfs理解的深入,最近才能看懂...其实作者说的主要问题在于,hbase集群往往和hdfs集群共用物理服务器.服务器的crash,在失去一个region server的...

2015-01-24 14:04:28 239

arcgis进行空间连接,聚合统计

[url]http://blogs.esri.com/esri/arcgis/2013/03/25/gis-tools-for-hadoop[/url]介绍了用hadoop统计美国各州地震发生次数,如果不用hadoop,类似的空间分析怎么做呢?假设有两个要素类,点要素类表示降雨事件,包括了降雨量rain属性.面要素类表示三个地区,包括了地区名称name属性.现在假设统计三个地区的降雨量...

2015-01-23 18:52:23 2385

arcgis用modelbuilder进行简单的批量处理

用modelbuilder可以进行流程化的操作.比如我们要对一个文件夹里的所有航片进行投影变换,这时可以用iterator对文件夹进行遍历,依次进行投影变换.投影变换的输出名字要使用变量替换(即本例中的%Name%),否则后一个文件会覆盖前一个.[img]http://dl2.iteye.com/upload/attachment/0105/5406/a1357854-0492-3bf...

2015-01-23 18:49:13 8420

原创 华为的二级索引的实现

华为二级索引的实现原理[url]http://download.csdn.net/detail/kabike/7532053[/url]具体实现也是在region级别用coprocessor维护索引,要注意的是为了维护数据表和索引表的对应region的局部性,需要自定义load balancer,在数据表region split的时候也要维护相应index表region的状态....

2015-01-21 22:09:42 195

原创 FM算法统计独立元素个数

[url]http://www.pluscn.net/?p=1192[/url]不错不错,FM算法和bloomfilter真是大数据的两大利器

2015-01-18 17:42:16 388

hbase利用hint来实现filter快速扫描

hbase只有rowkey上有索引,在rowkey上可以实现快速扫描,想在column上进行条件筛选或者是在rowkey的非前缀部分进行筛选只能通过filter,而一直以为filter只能顺序的遍历所有KeyValue.但实际上filter可以提供hint来使scanner reseek重新定位,提高查询效率.比如假设rowkey设计形式为barfoo,前三位是定长的bar属性,后三位...

2015-01-15 20:23:08 300

hbase的caching和batch

hbase scan的时候设置caching,可以每次多从服务器取得row的数量,减少RPC的请求,那么batch的作用是什么呢?batch指的是一次next的时候,取得keyvalue的最大值.这个设置的用处是什么呢?是因为假设hbase中的row特别宽,那么一次next的时候,取得的keyvalue特别多,导致内存不足,所以用batch限制next时取keyvalue的数量.但是bat...

2015-01-15 19:24:14 429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除