12 豹先生_MR-BAO

尚未进行身份认证

做中国云计算导航人~~~~~

等级
TA的排名 1w+

zookeeper动态通知实现

转载请注明:@ni掌柜    本文重点围绕ZooKeeper的Watcher,介绍通知的状态类型和事件类型,以及这些事件通知的触发条件。 1、浅谈Watcher接口在ZooKeeper中,接口类Watcher定义了事件通知相关的逻辑,包含了KeeperState和EventType两个枚举类,分别代表通知状态和事件类型。还有一个比较重要的接口方法:abstract public

2014-06-24 11:02:55

eclipse远程方式调试hadoop-yarn

远程调试hadoop-yarn需要三步走即可:1,已debug模式启动hadoop-yarn集群,比如想要eclipse debug跟踪resourcemanager,在hadoop安装目录下找到$hadoop_home/etc/hadoop/yarn-env.sh文件添加如下一句话YARN_RESOURCEMANAGER_OPTS="$YARN_RESOURCEMANAGER_O

2014-01-03 14:29:19

Hive HQL优化

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关

2013-12-02 14:40:27

Hive 随谈(二)– Hive 结构

Hive 体系结构Hive 的结构如图所示,主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli

2013-12-02 10:51:55

hadoop1.2.1eclipse 插件An internal error occurred during: "Connecting to DFS hadoop1.2.1".

编译插件成功后,通过插件连接DFS时仍有An internal error occurred during: "Connecting to DFS hadoop1.2.1".异常,打开error.log,查看错误异常Caused by: java.lang.ClassNotFoundException: org.apache.commons.configuration.Configurat

2013-11-15 12:03:23

win7下编译hadoop1.2.1 eclipse插件

最近一段时间都在学习hadoop,下载的是1.2.1的版本,包括源码;发现在该版本的安装目录下不再提供eclipse的插件包;但是在src/contrib目录下依然有eclipse-plugin的目录用于提供插件的源码,以及对应的Ant使用的build.xml文件;为了开发Map/Reduce程序的方便,决定自己进行hadoop的eclipse-plugin的打包操作,打包的步骤如下:

2013-11-14 17:48:27

java并发线程优化之线程引入的开销

如何让多线程优于单线程程序,很简单的一个原则:多线程并行带来的优势要优于引入多线程带来的开销。下面来讨论多线程在哪些方面会带来开销:1,切换上下文      产生原因举例:多线程竞争锁时被阻塞,该线程就会阻塞,会被jvm挂起,造成上下文切换,目的是为了新线程分配新的资源。                                   如果线程数多于cpu内核数

2013-11-12 11:07:33

cap理论

一、概述 Eric Brewer 教授提出了非常著名的CAP 理论,后人也论证了CAP 理论的正确性。 CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。 二、C、A、P的定义 1,一致性(Consistency):

2013-11-11 10:00:24

基于Solr的LBS(地理位置搜索)实现原理

基于Solr的空间搜索学习笔记在Solr中基于空间地址查询主要围绕2个概念实现:(1) Cartesian Tiers 笛卡尔层Cartesian Tiers是通过将一个平面地图的根据设定的层次数,将每层的分解成若干个网格,如下图所示:     每层以2的评方递增,所以第一层为4个网格,第二层为16 个,所以整个地图的经纬度将在每层的网格中体现:  

2013-11-08 17:38:57

跳表SkipList

1.聊一聊跳表作者的其人其事2. 言归正传,跳表简介3. 跳表数据存储模型4. 跳表的代码实现分析5. 论文,代码下载及参考资料 . 聊一聊作者的其人其事 跳表是由William Pugh发明。他在 Communications of the ACM June 1990, 33(6) 668-676 发表了Skip lists: a probabilistic al

2013-11-08 17:10:08

Unique索引优化实践(闭哈希表、跳表、分词字典)

Unique索引,有时也称Primary Key索引,顾名思义就是对于这个索引字段每个doc的值都是唯一的,如各种id字段:product id,customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询,最典型的应用场景就是进行附表join查询,即对主表中查到的每一个doc,都在附表中查询其对应的附表doc信息。所以,对这种类型的索引进行优化会

2013-11-08 15:26:00

基于hadoop创建lucene索引(二)编程模型二

针对上篇提到的问题,我们采用一个新的编程模型来提高程序执行效率。在上篇所述的编程模型里,lucene创建索引的大部分开销集中在了reduce端,受限于reduce个数(因业务需要reduce个数不能随意增加),且索引合并过程完全依赖于磁盘读写速度。由此可找到两个突破口:1.把大部分开销转移到map端,提高并发度。map个数主要取决于集群的规模,集群规模越大,可并发执行的map数越多。这样程序执

2013-11-08 12:02:00

基于hadoop创建lucene索引(一)编程模型一

场景:面对10亿级别微博数据进行索引是一个挑战。单机无法在可接受的时间内创建全量索引和增量索引,因此我们采用基于hadoop map-reduce并行计算的方式,实现索引创建、更新。Map-Reduce模型回顾:Hdfs文件读写、lucene索引读写特点:    Hdfs是hadoop的分布式文件存储系统。Hdfs为提高集群存储的效率,目前只支持顺序写,不支持随机写,即:只能从文件

2013-11-08 12:01:29

binlog增量数据代替Dump DB增量解决方案

背景介绍:试用报告数据在DB底层打通评价数据,报告数据就分散到评价的32个数据库,2048张表里。因为基本的业务需求是打通数据并且将报告接入搜索。为了考虑业务灵活性,选择终搜平台来完成报告的全量和增量。全量模块通过Tsearch基于评价以及IC的云梯表,join做的全量dump。因为增量通过sql的增量方式,会给DB造成很大的压力,尤其是在gmt_modified 没有索引的情况,并且数量级百

2013-11-08 11:26:21

Twitter研发人员John Oskasson分析Twitter后台软件栈

Twitter研发人员John Oskasson分析Twitter后台软件栈作者 郑柯 发布于 二月 12, 2013 | 讨论 新浪微博腾讯微博 豆瓣网 Twitter Facebook linkedin 邮件分享 更多 19稍后阅读我的阅读清单John Oskarsson是Twitter的一名研发人员。最近,他撰写的一篇博客中提到

2013-10-28 15:54:16

Finagle:一个支持多协议的RPC系统

Finagle是一个协议不可知的,异步的,用于 JVM 的 RPC 系统,它使得在 Java、Scala 或任何基于JVM 的语言重构建鲁棒的客户端和服务器非常容易。在 Twitter.com上面即使是渲染最简单的网页也需要十多个说着不同协议的网络服务的合作。比如,为了渲染首页,应用程序需要向社交网络图(SocialGraph)服务、Memcached、数据库、以及许多其它网络服务发出

2013-10-28 15:45:39

weka分类器-C4.5决策树

1.     算法概述 C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,是相对于ID3算法的改进,主要改进点有:1.      用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2.      在树构造过程中进行剪枝。3.      对非离散数据也能处理。

2013-10-28 13:35:24

淘宝用户行为分析(三)(淘宝用户个性化标签)

2013-10-25阿里技术嘉年华 分析需要回答三个问题,用户行为分析也不例外。     前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。    当你想买一个东西的时候,若你是个理性的消费者,你就会考虑7要素:该不该买?给谁买?什么时候买?买什么?在哪买?买多少?怎么选?而在考虑这些要素时,你总是会听到一些声音。这

2013-10-28 09:05:50

淘宝用户行为分析(二)(用户个性化标签)

2013-10-25阿里技术嘉年华   上篇博文我们聊了两个问题:用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。    如果把用户比作流动的水,那么企业就是蓄水池,新用户从进水管流入,老用户从出水管流出。企业要灌溉庄稼获取收成,就要有一定的蓄水量,就必须开源节流,开拓新用户的同时,留住老用户。不论是开拓新用户还是留住老用户,都是基于用户的流动性。由此产生

2013-10-28 09:04:50

淘宝用户行为分析

2013-10-24贾元乔 阿里技术嘉年华 你的营销虽林林种种,但却有一个永恒的轴心:用户。    用户行为指挥着营销活动的走向:从新品开发到价格制定;从渠道管理到品牌管理……,营销围绕用户展开,用户行为分析是营销工作的首要环节。用户行为分析需要回答三个问题:²  什么是用户行为(What)?²  为什么分析用户行为(Why)?²  如何分析

2013-10-25 13:34:55

查看更多

勋章 我的勋章
    暂无奖章