豹先生_MR-BAO-CSDN博客

原创收藏搬家了

qq书签收藏搬家到csdn来了，QQ2013把qq书签给去掉了，无奈啊~~~

2013-02-08 10:38:23 583

转载 zookeeper动态通知实现

转载请注明：@ni掌柜本文重点围绕ZooKeeper的Watcher，介绍通知的状态类型和事件类型，以及这些事件通知的触发条件。 1、浅谈Watcher接口在ZooKeeper中，接口类Watcher定义了事件通知相关的逻辑，包含了KeeperState和EventType两个枚举类，分别代表通知状态和事件类型。还有一个比较重要的接口方法：abstract public

2014-06-24 11:02:55 2637 1

原创 eclipse远程方式调试hadoop-yarn

远程调试hadoop-yarn需要三步走即可：1，已debug模式启动hadoop-yarn集群，比如想要eclipse debug跟踪resourcemanager，在hadoop安装目录下找到$hadoop_home/etc/hadoop/yarn-env.sh文件添加如下一句话YARN_RESOURCEMANAGER_OPTS="$YARN_RESOURCEMANAGER_O

2014-01-03 14:29:19 3159 1

转载 Hive HQL优化

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括：Join中需要将大表写在靠右的位置；尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关

2013-12-02 14:40:27 1562

转载 Hive 随谈（二）– Hive 结构

Hive 体系结构Hive 的结构如图所示，主要分为以下几个部分：用户接口，包括 CLI，Client，WUI。元数据存储，通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是 CLI，Cli

2013-12-02 10:51:55 951

原创 hadoop1.2.1eclipse 插件An internal error occurred during: "Connecting to DFS hadoop1.2.1".

编译插件成功后，通过插件连接DFS时仍有An internal error occurred during: "Connecting to DFS hadoop1.2.1".异常，打开error.log，查看错误异常Caused by: java.lang.ClassNotFoundException: org.apache.commons.configuration.Configurat

2013-11-15 12:03:23 6918 3

转载 win7下编译hadoop1.2.1 eclipse插件

最近一段时间都在学习hadoop，下载的是1.2.1的版本，包括源码；发现在该版本的安装目录下不再提供eclipse的插件包；但是在src/contrib目录下依然有eclipse-plugin的目录用于提供插件的源码，以及对应的Ant使用的build.xml文件；为了开发Map/Reduce程序的方便，决定自己进行hadoop的eclipse-plugin的打包操作，打包的步骤如下：

2013-11-14 17:48:27 1820

原创 java并发线程优化之线程引入的开销

如何让多线程优于单线程程序，很简单的一个原则：多线程并行带来的优势要优于引入多线程带来的开销。下面来讨论多线程在哪些方面会带来开销：1，切换上下文产生原因举例：多线程竞争锁时被阻塞，该线程就会阻塞，会被jvm挂起，造成上下文切换，目的是为了新线程分配新的资源。如果线程数多于cpu内核数

2013-11-12 11:07:33 2169

转载 cap理论

一、概述 Eric Brewer 教授提出了非常著名的CAP 理论，后人也论证了CAP 理论的正确性。 CAP理论指出：一个分布式系统不可能同时满足一致性（Consistency），可用性（Availibility）和分区容忍性（Partition Tolerance）这三个需求。最多只能同时满足其中的两个。二、C、A、P的定义 1，一致性（Consistency）：

2013-11-11 10:00:24 1245

转载基于Solr的LBS(地理位置搜索）实现原理

基于Solr的空间搜索学习笔记在Solr中基于空间地址查询主要围绕2个概念实现：（1） Cartesian Tiers 笛卡尔层Cartesian Tiers是通过将一个平面地图的根据设定的层次数，将每层的分解成若干个网格，如下图所示: 每层以2的评方递增，所以第一层为4个网格，第二层为16 个，所以整个地图的经纬度将在每层的网格中体现：

2013-11-08 17:38:57 10202

转载跳表SkipList

1.聊一聊跳表作者的其人其事2. 言归正传，跳表简介3. 跳表数据存储模型4. 跳表的代码实现分析5. 论文，代码下载及参考资料 . 聊一聊作者的其人其事跳表是由William Pugh发明。他在 Communications of the ACM June 1990, 33(6) 668-676 发表了Skip lists: a probabilistic al

2013-11-08 17:10:08 1046

Unique索引，有时也称Primary Key索引，顾名思义就是对于这个索引字段每个doc的值都是唯一的，如各种id字段：product id，customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询，最典型的应用场景就是进行附表join查询，即对主表中查到的每一个doc，都在附表中查询其对应的附表doc信息。所以，对这种类型的索引进行优化会

2013-11-08 15:26:00 1598

转载基于hadoop创建lucene索引（二）编程模型二

针对上篇提到的问题，我们采用一个新的编程模型来提高程序执行效率。在上篇所述的编程模型里，lucene创建索引的大部分开销集中在了reduce端，受限于reduce个数（因业务需要reduce个数不能随意增加），且索引合并过程完全依赖于磁盘读写速度。由此可找到两个突破口：1.把大部分开销转移到map端，提高并发度。map个数主要取决于集群的规模，集群规模越大，可并发执行的map数越多。这样程序执

2013-11-08 12:02:00 1404

转载基于hadoop创建lucene索引（一）编程模型一

场景：面对10亿级别微博数据进行索引是一个挑战。单机无法在可接受的时间内创建全量索引和增量索引，因此我们采用基于hadoop map-reduce并行计算的方式，实现索引创建、更新。Map-Reduce模型回顾：Hdfs文件读写、lucene索引读写特点： Hdfs是hadoop的分布式文件存储系统。Hdfs为提高集群存储的效率，目前只支持顺序写，不支持随机写，即：只能从文件

2013-11-08 12:01:29 1800

转载 binlog增量数据代替Dump DB增量解决方案

背景介绍：试用报告数据在DB底层打通评价数据，报告数据就分散到评价的32个数据库，2048张表里。因为基本的业务需求是打通数据并且将报告接入搜索。为了考虑业务灵活性，选择终搜平台来完成报告的全量和增量。全量模块通过Tsearch基于评价以及IC的云梯表，join做的全量dump。因为增量通过sql的增量方式，会给DB造成很大的压力，尤其是在gmt_modified 没有索引的情况，并且数量级百

2013-11-08 11:26:21 1304

转载 Twitter研发人员John Oskasson分析Twitter后台软件栈

Twitter研发人员John Oskasson分析Twitter后台软件栈作者郑柯发布于二月 12, 2013 | 讨论新浪微博腾讯微博豆瓣网 Twitter Facebook linkedin 邮件分享更多 19稍后阅读我的阅读清单John Oskarsson是Twitter的一名研发人员。最近，他撰写的一篇博客中提到

2013-10-28 15:54:16 1146

转载 Finagle：一个支持多协议的RPC系统

Finagle是一个协议不可知的，异步的，用于 JVM 的 RPC 系统，它使得在 Java、Scala 或任何基于JVM 的语言重构建鲁棒的客户端和服务器非常容易。在 Twitter.com上面即使是渲染最简单的网页也需要十多个说着不同协议的网络服务的合作。比如，为了渲染首页，应用程序需要向社交网络图（SocialGraph）服务、Memcached、数据库、以及许多其它网络服务发出

2013-10-28 15:45:39 1491

转载 weka分类器-C4.5决策树

1. 算法概述 C4.5，是机器学习算法中的另一个分类决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法，是相对于ID3算法的改进，主要改进点有：1. 用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2. 在树构造过程中进行剪枝。3. 对非离散数据也能处理。

2013-10-28 13:35:24 2282

转载淘宝用户行为分析(三)（淘宝用户个性化标签）

2013-10-25阿里技术嘉年华分析需要回答三个问题，用户行为分析也不例外。前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。当你想买一个东西的时候，若你是个理性的消费者，你就会考虑7要素：该不该买？给谁买？什么时候买？买什么？在哪买？买多少？怎么选？而在考虑这些要素时，你总是会听到一些声音。这

2013-10-28 09:05:50 2810

转载淘宝用户行为分析(二)（用户个性化标签）

2013-10-25阿里技术嘉年华上篇博文我们聊了两个问题：用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。如果把用户比作流动的水，那么企业就是蓄水池，新用户从进水管流入，老用户从出水管流出。企业要灌溉庄稼获取收成，就要有一定的蓄水量，就必须开源节流，开拓新用户的同时，留住老用户。不论是开拓新用户还是留住老用户，都是基于用户的流动性。由此产生

2013-10-28 09:04:50 4161

转载淘宝用户行为分析

2013-10-24贾元乔阿里技术嘉年华你的营销虽林林种种，但却有一个永恒的轴心：用户。用户行为指挥着营销活动的走向：从新品开发到价格制定；从渠道管理到品牌管理……，营销围绕用户展开，用户行为分析是营销工作的首要环节。用户行为分析需要回答三个问题：² 什么是用户行为（What）？² 为什么分析用户行为（Why）？² 如何分析

2013-10-25 13:34:55 3585

转载一淘点评情感分析方法及应用场景

2013-10-23水德阿里技术嘉年华点评是非常重要的一类UGC数据，里面含有大量的用户反馈信息。点评情感分析（sentiment analysis）负责对点评进行情感信息的抽取、聚合和应用。基于情感分析结果，可以更加有效的过滤、筛选、排序、概括和展现点评的内容，方便用户对点评信息的使用；基于情感分析结果，还可以在语义维度实现产品的聚合、相关性计算，协助用户购物决策。

2013-10-25 13:33:42 1794

转载 Windows下eclipse+CDT+MinGW环境配置

时间：2011.1.3鉴于网上很多方法的软件版本都过时或多或少都会出现写问题，现收录总结如下，本人安装的所有软件都是截止2010年末最新版本，详情如下：OS：Windows 7（不过Sp1好像出来了）Eclipse：eclipse-java-helios-SR1-win32 (默认地址下载)CDT：cdt-master-7.0.0-I201006141710下载地址

2013-10-23 20:15:42 1139

转载漫谈大数据仓库与挖掘系统：BSP模型(应用于数据挖掘、机器学习的云计算模型)

2013-10-22卡特阿里技术嘉年华本文其它章节：漫谈大数据仓库与挖掘系统：前言：大数据的价值【回复071查看】漫谈大数据仓库与挖掘系统：层次、维度与主题【回复072查看】漫谈大数据仓库与挖掘系统：ETL的开始—数据的传输和同步【回复073查看】漫谈大数据仓库与挖掘系统：MapReduce与大规模离线计算系统【回复074查看】

2013-10-23 09:15:14 2715 5

转载 LINUX系统下解决time_wait 连接数过多问题

经常检查apache的连接数，会发现很多无用的time_wait连接。有人说这是正常的，是因为一个请求中途中断造成的；还有人说微软的IE连接时产生的Time_wait会比用Firefox连接时多。个人认为有一定的Time_wait是正常的，如果超过了连接数的比例就不是很正常，所以还是找来方法解决一下。　　先检查一下time wait的值：　　[root@aaa1 ~]#sysctl -a

2013-10-21 09:39:36 3265

转载淘宝反作弊举报系统

反作弊举报系统反作弊举报系统主要是用户作弊信息收集。对于作弊严重的卖家，我们将给予全店铺搜索降权或屏蔽处理。通过该系统的举报信息收集，优化作弊商品识别算法，净化淘宝搜索环境，从而给诚信经营的卖家一个更公平竞争的平台，给消费者更好的购物体验。如何举报作弊商品？1. 在淘宝账号登录状态下，搜索你想要的商品，在搜索结果页中，鼠标移动到商品图片上，点击商品图片左上角出现的

2013-10-18 13:28:30 2646

转载如何预测用户query意图

2013-10-13仁重阿里技术嘉年华有一个朋友问，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。我回答说，分析之前搜索这个query的用户点了些什么结果啊。朋友继续问，如果没有用户点击呢。呃，如果没有点击，这个问题就比较复杂了。整理了下思路，于是写成了本文。主要描述了关于如

2013-10-18 13:26:42 1237

转载漫谈大数据仓库与挖掘系统：MapReduce与大规模离线计算系统

013-10-11 阿里技术嘉年华上集回顾：什么是大数据？【回复071查看】层次、维度与主题【回复072查看】一切的开始—数据的传输和同步【回复073查看】读过本文的前三个章节的读者，对大数据系统应该已经有了一个初步的认识，并且已经清楚的知道，大数据之庞大，已经远远超出任何一个单机系统的处理能力的极限，我们需要成千上万台计算机来协同工作，

2013-10-17 13:39:11 1433

转载漫谈大数据仓库与挖掘系统：数据的传输和同步

2013-10-10卡特阿里技术嘉年华上集回顾：什么是大数据？【回复071查看】层次、维度与主题【回复072查看】在前面的章节中，我们提到，本文最终的目的，是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中，我们得知，数据仓库的特性之一便是其的“集成性”：不同的数据来源、不同的形式的数据集中在一处，在数据仓库系统中进行分析。这便是一个数

2013-10-17 13:38:33 1591

转载漫谈大数据仓库与挖掘系统--层次、维度与主题

2013-10-09阿里技术嘉年华上集回顾：什么是大数据？【回复071查看】在上一章节的末尾，我们谈到，这个系列的文章，最终会以我国公安机关拥有的公民信息、加上民航部门拥有的出行信息、银行拥有的交易信息等数据为例，逐渐讲述如何构建一个大数据的国民信息挖掘系统。不过以上一章节所叙述的基础知识，还不足以让我们进入实例环节。在这一章，我们还是必须补充一些相关的基

2013-10-17 13:37:39 1429

转载淘宝商品图片的图像比较实现和研究

2013-09-15 阿里技术嘉年华一. 背景介绍淘宝有着数量巨大商品，如何分析这些商品之间的关系是淘宝中面临的一个挑战。特别是淘宝区别于京东和亚马逊在于淘宝很多是非标类，而且商品又来自数量巨大的各个不同卖家所以导致了商品种类的丰富性并且随之带来的一定重合。所以分析同类商品是分析商品关系所遇到的问题之一。商品中除了大量的结构化信息以外还

2013-10-17 13:34:39 2414

转载淘宝从空间预测到个性化推荐

2013-09-07 阿里技术嘉年华文/徐萧萧【导读】本文分享了从空间预测到推荐领域的一些前沿思路，这些思路一定程度上可以缓解推荐领域中的一大难题：多样性问题。个性化推荐相信大家都不会陌生，当前已经深入到了我们很多的业务场景，基本上谈到电子商务和网上购物，第一个想到的挖掘场景就是个性化推荐。常用的推荐算法大致分为3类：

2013-10-17 13:33:33 1192

转载淘宝大型数据仓库的治理(4)-数据安全不可控

2013-08-29 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列，本文是第四篇，回复数据仓库可查看整个系列。作者从实际经验中，总结出了一些大型数据仓库治理中，可能会遇到的问题。本文谈到了“数据安全不可控”的问题，大数据时代，你值得关注。此前数据安全的攻防重点都在业务系统上，对外要防止黑客攻击，防止其获取业务系统管理员身份盗取机密数据，

2013-10-16 13:26:21 1360

转载淘宝大型数据仓库的治理(3)-维护成本高

2013-08-27 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章，本文是第三篇，你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中，总结出了一些大型数据仓库治理中，可能会遇到的问题。本文谈到了“维护成本高”的问题，大数据时代，你值得关注。随着大数据时代的来临，数据的作用不再仅限于辅助运营决策，

2013-10-16 13:25:41 1324

转载淘宝大型数据仓库的治理(2)- 数据质量不可靠

2013-08-26 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章，本文是第二篇，你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中，总结出了一些大型数据仓库治理中，可能会遇到的问题。本文谈到了“数据质量不可靠”的问题，大数据时代，你值得关注。对于程序员来说，最头疼的就是听到：“大兄弟，你这个程序有B

2013-10-16 13:24:57 1410

转载淘宝大型数据仓库的治理（1）- 数据需求响应慢实时相应需求

2013-08-25 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列，本文是第一篇。作者从实际经验中，总结出了一些大型数据仓库治理中，可能会遇到的问题。本文谈到了“数据需求响应慢”的问题，大数据时代，你值得关注。数据仓库是继ERP之后失败率最高的IT项目。在项目还没立项的时候，会给老板呈现各种美好。而实施到一定阶段的时候，老板会发觉太多

2013-10-16 13:23:56 1496

转载一淘商品类目预测

2013-08-20 阿里技术嘉年华文/元宗【导读】本文从商品类目预测的难点分析出发，衍生出一淘商品类目预测的架构以及实现，同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。什么是一淘商品类目预测一淘商品类目预测是指计算机利用算法将外网商品分到淘宝后台类目结构中相应类目的过程。商品类目预测业务

2013-10-16 13:22:17 1708

转载淘宝关键词推荐技术介绍

2013-08-19 阿里技术嘉年华文/太紫【导读】本文通过行业对比等角度分析了关键词推荐技术及工具，关键词推荐系统帮助广告主扩展选词思路，挖掘有价值的关键词，从而更好地提升产品的曝光，帮助广告主找到客户；同时，一个好的关键词推荐系统也能更好地服务用户，帮助用户快速找到合适的供应商。关键词推荐是什么赞助商搜索（sponsored se

2013-10-16 13:20:53 1495

转载国际站反作弊系列之 — 类目错放

2013-08-16 阿里技术嘉年华文/王涛【导读】本文就反作弊里边的一个大话题：类目错放，进行了一个较为详尽的分析。包括有如何识别类目错放、以及目前识别遇到的问题等。适合想对反作弊有所深入了解的同学阅读。国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(aliexpress.com), 上

2013-10-14 13:13:33 1845

转载国际站反作弊系列之 — 反作弊介绍

2013-08-15阿里技术嘉年华文/王涛【导读】本文将国际站在反作弊方面的经验总结出来，希望给大家一些参考。目前面临的难点分为技术、非技术两个方面。技术方面是如何更好的将机器学习模型实践应用，非技术的方面是网站的整体信息质量并不完善。一、简介国际站特指阿里巴巴的两个英文网站，分别是信息平台(alibaba.com)以及交易平台(a

2013-10-14 13:12:58 1883

nutch1.3在myclipse部署工程源码

osgi开发jar包

mysql官方中文参考.chm

jfreechart-1.0.9-javadocs

iReport+Flash教程(LWY)报表

空空如也