Chungtow-Leo-CSDN博客

原创 Mahout 0.8维护笔记

（0）类：org.apache.mahout.clustering.spectral.common.VectorMatrixMultiplicationJob方法：public static DistributedRowMatrix runJob(Path markovPath, Vector diag, Path outputPath) throws IOExcep

2014-03-27 11:00:14 1499

原创 UltraEdit个性化定制-Hive QL代码折叠、函数列表及自动补全

UltraEdit是程序员的完美情人，我就不赘述其强大易用了，一句话，谁玩谁知道。本文旨在帮助你个性化配置UE，以便在写Hive QL代码时能够更高效舒畅。具体而言，实现以下目的：* 对Hive QL代码实现折叠，效果如图1。图1或者像图2这样的：图2折叠后视图如3：图3* 在函数列表中列出Hive QL中的表名，点击时可以定位。

2014-02-25 09:58:58 12801 1

原创分类器的相关概念

昨天，@人民网发了一条八卦微博，盘点“雨神”（@萧敬腾）是如何炼成的。微博称，网友统计发现，在@萧敬腾近年12次主要行程中，有10次他的“现身”让当地下起了雨，下雨的概率为83.3%。图1这里，网友相当于是做了一个人工数据挖掘，用术语表示，就是构造了如下一个分类器：IF 萧敬腾有活动 THEN 当地下雨 ELSE 当地不下雨 END该分类器预测老萧举办个唱

2013-08-15 21:02:46 7993 4

原创 Mahout Spectral聚类

坑爹的Mahout 0.5！把源代码翻了个遍，修改了若干个bug，重编译了三个核心包，终于跑通了谱聚类（Spectral Clustering），先把代码放上来。以下约定：* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录数据准备：00.80

2013-08-10 19:26:03 5394 3

原创 Mahout K-means聚类

以下约定：* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录--上传数据hf -put $MAHOUT_HOME/test-data.csv \$HADOOP_MAHOUT/testdata--hadoop命令行执行kmeans clus

2013-08-08 16:35:23 5983 1

原创 Mahout Canopy聚类

读过孟岩的《理解矩阵》系列博文[1]~[3]，其中的一段论述让我很受用：学习一门学问，最重要的是把握主干内容，迅速建立对于这门学问的整体概念，不必一开始就考虑所有的细枝末节和特殊情况，自乱阵脚[2]。本着这样的学习思路，我们按以下步骤来快速了解Mahout中怎么使用Canopy聚类。* Canopy Clustering是什么？* 输入数据的格式是什么？* 输出结果如何查看

2013-07-30 19:23:43 4287 1

翻译使用MapReduce实现遗传算法

原文：Abhishek Verma等，Scaling Genetic Algorithm using MapReduce摘要：遗传算法在大规模问题的求解中得到越来越多的应用。传统的基于MPI的并行遗传算法需要知道机器架构的细节。另一方面，由Google提出的MapReduce可用于开发具有扩展性和容错能力的应用，是一个强大的抽象模型。本文演示了如何使用MapReduce模型来为遗传算法

2013-07-28 23:48:02 7692 10

原创 SAS主成分分析

同事讲主成分分析，举了这么个例子：就像你选女人，有身材、相貌两个指标，如果身材、相貌都很突出，那当然很好选择；但如果两个女人，一个身材突出，一个相貌出众，看着都很喜欢，那可如何是好！这个时候通过主成分分析，汇总出一个指标，这个指标可以一定程度上代替原来的身材、相貌，这时就可以排序做出选择了。这例子当然有很多缺陷，但至少指出了主成分分析的目的之一：减少决策变量数，也就是降维。主成分分析的另一个目

2013-07-28 20:18:50 54260 14

原创 Mahout 0.5部署

Mahout下载与安装1、下载Mahout。到地址[1]可以找到镜像地址。我们下载Mahout 0.5。请将mahout-distribution-0.5.tar.gz和mahout-distribution-0.5-src.zip都下载下来，前者是正式软件，后者是源文件，用于导入eclipse以便修改并重新编译所需要的包。2、在/home/user（你自己的用户名）目录下创建一个

2013-07-12 16:39:57 4594 6

原创 Notepad.cc

设想如下需求：在日常工作或生活中，你可能需要随手记录一个网址，一个电话号码，一家餐馆地址，一段交通方案备注……总之一个很简单很碎片的字符串，并且打算在另一台电脑（比如下班回家后用家里的电脑）或者未来的某个时刻重新获得这一段字符串，你会怎么做呢？你可能会打开邮箱，输入密码，新建邮件，把你要传递的内容复制进去，点击发送；然后到另一台电脑，打开邮箱，输入密码，接收邮件，获得字符串。你还可

2013-06-26 06:58:20 2248 2

原创说说余额宝

6月13日，支付宝上线余额宝，该产品一经推出即在业界引起轩然大波。短短几天，虎嗅网上相关长篇分析文章即达到7篇；微博上的讨论更是多如牛毛。我关注了大部分文章、评论，有金融人执笔有互联网人附和，有贬有褒。我要说说我为什么如此推崇余额宝，并觉得她的模式是如此的美丽！这美丽简单地概括就是：（1）收益比活期存款高；（2）灵活度比定期存款好；（3）管理比银行理财容易；而且（4）风险有支付宝的信誉

2013-06-24 21:19:24 2786

原创 MapReduce实现大矩阵乘法

引言何为大矩阵？Excel、SPSS，甚至SAS处理不了或者处理起来非常困难，需要设计巧妙的分布式方法才能高效解决基本运算（如转置、加法、乘法、求逆）的矩阵，我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底，新浪微博注册用户数超5亿，日活跃用户4629万[1]，如果我们要探索这4000多万用户可以分成哪些类别，

2013-06-09 19:25:24 45563 36

原创 MapReduce作业提交过程

hadoop jar [mainClass] args...上面这一行，是官方文档[1]给出的用于提交MapReduce作业的命令行。我们就从这一命令开始说起，研究一下当我们在SecureCRT或者XShell等终端将它提交后，系统依次发生了什么。为了方便说明，我们结合Hadoop（版本0.19.1）自带的WordCount样例进行解析，WordCount的功能是计算出一个或

2013-06-08 16:13:09 4491

原创 MapReduce实现join操作

前阵子把MapReduce实现join操作的算法设想清楚了，但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭，期间经历了诸多麻烦并最终得以将其一一搞定，再次深切体会到，什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程，所要做的是把示例数据准备好，记住路径和字段分隔符。准备好下面两张表：（1）m_ys_lab

2013-05-30 19:50:44 21942 9

原创 Hadoop命令操作

查看某文件夹下所有文件大小并按降序排序：hf -dus /group/userdir/hive/* |sort -n-r-k2 > /home/username/output/result.txt或者hf -count/group/userdir/hive/* |sort -n -r -k3 >/home/username/output/result2.txt后者的输出列表是：

2013-05-02 10:06:28 1082

原创 Hive高级应用

假设有个表有两个字段key val1_val2_val3_val4_val5想把第二个字段以“_”为分隔符切割成多行，如下：key val1key val2key val3key val4key val5第二个字段包含的“_”不确定代码如下：selectcol1,col2_subfrom (--以下替换成性感的原始表select'

2013-04-24 15:45:51 1944

原创 Excel实战笔记

字符串提取有这样一列字符串，格式如下：source:14;discount:1000;startFee:3800;benefactor:我是虚构的nick;benefactorId:1125769573现在我们要把benefactor标签后面的值提取出来，比如上面这个字符串中提取出“我是虚构的nick”如果excel有正则表达式匹配函数，那么这当然很容易解决。可惜没有。

2013-04-23 19:50:41 917

原创 MapReduce简史

Google的经典论文2004年12月，Google公司发布MapReduce经典论文：来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”，该文于2005年4月正式发表于国际会议OSDI，标志着Google的大规模数据处理系统MapReduce公开。（http:

2013-04-08 11:17:28 1858

当一位数据分析师拿到一份崭新的数据时，他要做的第一件事很可能是了解其中关键指标的分布情况。频数统计是应对这一情况的最基本的分析工具。分析师通过创建频数统计表，获知某项指标各个或各段值所占的百分比，达到快速了解数据概况的目的。在数据量较少的情况下，强大的Excel可以以多种方式满足分析师的需求。但如果数据量达到百万级，则需要使用更为强大的分析工具。在本文中，我们介绍SAS的频数统计功能，这一功能是通

2013-04-07 08:23:50 17655

原创 SAS随机抽样

在统计研究中，针对容量无限或者容量很大以至于无法直接对其进行研究的总体，都是通过从中抽取一部分个体作为研究对象，以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程，称为抽样。抽样包括随机抽样和非随机抽样。非随机抽样是从总体中抽取指定的个体，具有主观意向性，这里不做讨论。随机抽样是按照随机原则，保证个体都有一定概率被抽取到的抽样方法。常见的随机抽样

2012-11-20 14:56:01 25196

原创 191亿的含义

2012年11月12日零点一过，所有关注双11的人都屏住了呼吸等待着最终数据的公布，等待着一个奇迹的诞生。191亿！其中天猫132亿，淘宝59亿。虽然没有过200亿，但这依然是一个让人疯狂而又绝望的数字。天猫的132亿是2011年（33.7亿）的将近4倍，比原定的100亿的目标高出32亿。据国家统计局公布的数据，全国消费品零售总额在每天500~600亿之间；淘宝天猫创造的191亿是其三分之一。

2012-11-12 22:29:12 1910

原创 Windows 7和Windows 8下安装SAS

本文讲解Windows 7和Windows 8下安装SAS 9.1.3的步骤。打开控制面板，选择程序：在程序和功能项下选择“运行为以前版本的Windows编写的程序”选择程序位置：选择“尝试建议的位置”点击“测试程序”选择语言，默认为“中文（简体）”单击确定，出现SAS安装界

2012-11-03 15:26:28 4152

原创一个实例理解Java Reference

一个实例让你明白Java ReferenceJava Reference即Java的引用机制。当用类创建一个对象时，类中的成员变量被分配内存空间，这些内存空间称为该对象的实体，而对象中存放着引用，以确保实体由该对象操作使用。Java的所有对象都是引用，类似于C和C++中的指针。Java类的方法如果包含引用类型的参数，那么当该方法被调用时，向该方法参数传递的是传值变量的引用。不同于C和C++

2012-10-25 22:43:39 1549

原创 Hive join操作小结

本篇对Hive QL中join、left outer join、left semi join和full outer join等表连结操作作一简要总结。1、测试表准备首先准备三张测试表，内容分别为：hql_jointest_aidname1 a2 b3 c4 d5 e6 f7 g8 h

2012-10-25 22:11:41 26056 1

原创 Swarm安装与开发环境配置

如果你正在研究多智能体系统（Multi-Agent Systems，MAS），如果恰巧你有一点Java程序设计基础，如果更巧的是你对用Swarmfor Java开发MAS抱有浓厚的兴趣，那么请跟随我一起来搭建一个JDK+JCreator+Swarm的轻量级MAS开发环境吧。不过我们默认你已经安装好JDK和JCreator——没装好的话请自行查找相关资料并安装。关于JDK，我用的是JDK1.5，不过JDK6早已经发布了；关于JCreator，我用的同样是古董级的3.5版本，无他，习惯而已。对于Swarm就

2010-12-18 16:21:00 8742 14

原创有趣的String

String类也许是Java Coders最早接触的类之一。我不算资深程序员，但也有好几年的Java Coding史了，至今还不得不常常感慨于String类带给我的神奇之旅。我认为这是一个非常有趣的类。说String有趣，是因为它构造的对象具有一些其他对象所没有的特征。我们都知道，创建String对象有两种方式：String strA = "Hello";String strA =

2010-12-17 23:19:00 1094

原创天平称重谜题

前段时间抽空看了《说谎者悖论和汉诺塔游戏》（[加拿大]马塞尔·丹尼斯著，程云琦译）一书，作者在第一个谜题“斯芬克斯之谜”中介绍了法国耶稣会诗人 Claude Gaspard Bachet de Méziriac（1581-1638）的一个经典谜题：若天平两端可以任意放置砝码，要称量从1磅到40磅的整磅重的糖，天平所需要的砝码个数最少是多少？换句话说，我们需要确定若干个读数互不相

2010-12-14 09:31:00 2967

葱葱的城堡