12 Chungtow-Leo

尚未进行身份认证

我要认证

昏析狮

等级
TA的排名 4w+

Mahout 0.8维护笔记

(0)类:org.apache.mahout.clustering.spectral.common.VectorMatrixMultiplicationJob方法:public static DistributedRowMatrix runJob(Path markovPath, Vector diag, Path outputPath)    throws IOExcep

2014-03-27 11:00:14

UltraEdit个性化定制-Hive QL代码折叠、函数列表及自动补全

UltraEdit是程序员的完美情人,我就不赘述其强大易用了,一句话,谁玩谁知道。本文旨在帮助你个性化配置UE,以便在写Hive QL代码时能够更高效舒畅。具体而言,实现以下目的:* 对Hive QL代码实现折叠,效果如图1。图1或者像图2这样的:图2折叠后视图如3:图3* 在函数列表中列出Hive QL中的表名,点击时可以定位。

2014-02-25 09:58:58

分类器的相关概念

昨天,@人民网发了一条八卦微博,盘点“雨神”(@萧敬腾)是如何炼成的。微博称,网友统计发现,在@萧敬腾 近年12次主要行程中,有10次他的“现身”让当地下起了雨,下雨的概率为83.3%。图1这里,网友相当于是做了一个人工数据挖掘,用术语表示,就是构造了如下一个分类器:IF 萧敬腾有活动 THEN 当地下雨 ELSE 当地不下雨 END该分类器预测老萧举办个唱

2013-08-15 21:02:46

Mahout Spectral聚类

坑爹的Mahout 0.5!把源代码翻了个遍,修改了若干个bug,重编译了三个核心包,终于跑通了谱聚类(Spectral Clustering),先把代码放上来。以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录数据准备:00.80

2013-08-10 19:26:03

Mahout K-means聚类

以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录--上传数据hf -put $MAHOUT_HOME/test-data.csv \$HADOOP_MAHOUT/testdata--hadoop命令行执行kmeans clus

2013-08-08 16:35:23

Mahout Canopy聚类

读过孟岩的《理解矩阵》系列博文[1]~[3],其中的一段论述让我很受用:学习一门学问,最重要的是把握主干内容,迅速建立对于这门学问的整体概念,不必一开始就考虑所有的细枝末节和特殊情况,自乱阵脚[2]。本着这样的学习思路,我们按以下步骤来快速了解Mahout中怎么使用Canopy聚类。* Canopy Clustering是什么?* 输入数据的格式是什么?* 输出结果如何查看

2013-07-30 19:23:43

使用MapReduce实现遗传算法

原文:Abhishek Verma等,Scaling Genetic Algorithm using MapReduce摘要:遗传算法在大规模问题的求解中得到越来越多的应用。传统的基于MPI的并行遗传算法需要知道机器架构的细节。另一方面,由Google提出的MapReduce可用于开发具有扩展性和容错能力的应用,是一个强大的抽象模型。本文演示了如何使用MapReduce模型来为遗传算法

2013-07-28 23:48:02

SAS主成分分析

同事讲主成分分析,举了这么个例子:就像你选女人,有身材、相貌两个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人,一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原来的身材、相貌,这时就可以排序做出选择了。这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减少决策变量数,也就是降维。主成分分析的另一个目

2013-07-28 20:18:50

Mahout 0.5部署

Mahout下载与安装1、下载Mahout。到地址[1]可以找到镜像地址。我们下载Mahout 0.5。请将mahout-distribution-0.5.tar.gz和mahout-distribution-0.5-src.zip都下载下来,前者是正式软件,后者是源文件,用于导入eclipse以便修改并重新编译所需要的包。2、在/home/user(你自己的用户名)目录下创建一个

2013-07-12 16:39:57

Notepad.cc

设想如下需求:在日常工作或生活中,你可能需要随手记录一个网址,一个电话号码,一家餐馆地址,一段交通方案备注……总之一个很简单很碎片的字符串,并且打算在另一台电脑(比如下班回家后用家里的电脑)或者未来的某个时刻重新获得这一段字符串,你会怎么做呢?你可能会打开邮箱,输入密码,新建邮件,把你要传递的内容复制进去,点击发送;然后到另一台电脑,打开邮箱,输入密码,接收邮件,获得字符串。你还可

2013-06-26 06:58:20

说说余额宝

6月13日,支付宝上线余额宝,该产品一经推出即在业界引起轩然大波。短短几天,虎嗅网上相关长篇分析文章即达到7篇;微博上的讨论更是多如牛毛。我关注了大部分文章、评论,有金融人执笔有互联网人附和,有贬有褒。我要说说我为什么如此推崇余额宝,并觉得她的模式是如此的美丽!这美丽简单地概括就是:(1)收益比活期存款高;(2)灵活度比定期存款好;(3)管理比银行理财容易;而且(4)风险有支付宝的信誉

2013-06-24 21:19:24

MapReduce实现大矩阵乘法

引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,

2013-06-09 19:25:24

MapReduce作业提交过程

hadoop jar [mainClass] args...上面这一行,是官方文档[1]给出的用于提交MapReduce作业的命令行。我们就从这一命令开始说起,研究一下当我们在SecureCRT或者XShell等终端将它提交后,系统依次发生了什么。为了方便说明,我们结合Hadoop(版本0.19.1)自带的WordCount样例进行解析,WordCount的功能是计算出一个或

2013-06-08 16:13:09

MapReduce实现join操作

前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab

2013-05-30 19:50:44

Hadoop命令操作

查看某文件夹下所有文件大小并按降序排序:hf -dus /group/userdir/hive/* |sort -n-r-k2 > /home/username/output/result.txt或者hf -count/group/userdir/hive/* |sort -n -r -k3 >/home/username/output/result2.txt后者的输出列表是:

2013-05-02 10:06:28

Hive高级应用

假设有个表有两个字段key val1_val2_val3_val4_val5想把第二个字段以“_”为分隔符切割成多行,如下:key val1key val2key val3key val4key val5第二个字段包含的“_”不确定代码如下:selectcol1,col2_subfrom (--以下替换成性感的原始表select'

2013-04-24 15:45:51

Excel实战笔记

字符串提取有这样一列字符串,格式如下:source:14;discount:1000;startFee:3800;benefactor:我是虚构的nick;benefactorId:1125769573现在我们要把benefactor标签后面的值提取出来,比如上面这个字符串中提取出“我是虚构的nick”如果excel有正则表达式匹配函数,那么这当然很容易解决。可惜没有。

2013-04-23 19:50:41

MapReduce简史

Google的经典论文2004年12月,Google公司发布MapReduce经典论文:来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”,该文于2005年4月正式发表于国际会议OSDI,标志着Google的大规模数据处理系统MapReduce公开。(http:

2013-04-08 11:17:28

SAS频数统计

当一位数据分析师拿到一份崭新的数据时,他要做的第一件事很可能是了解其中关键指标的分布情况。频数统计是应对这一情况的最基本的分析工具。分析师通过创建频数统计表,获知某项指标各个或各段值所占的百分比,达到快速了解数据概况的目的。在数据量较少的情况下,强大的Excel可以以多种方式满足分析师的需求。但如果数据量达到百万级,则需要使用更为强大的分析工具。在本文中,我们介绍SAS的频数统计功能,这一功能是通

2013-04-07 08:23:50

SAS随机抽样

在统计研究中,针对容量无限或者容量很大以至于无法直接对其进行研究的总体,都是通过从中抽取一部分个体作为研究对象,以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程,称为抽样。    抽样包括随机抽样和非随机抽样。非随机抽样是从总体中抽取指定的个体,具有主观意向性,这里不做讨论。    随机抽样是按照随机原则,保证个体都有一定概率被抽取到的抽样方法。常见的随机抽样

2012-11-20 14:56:01

查看更多

勋章 我的勋章
    暂无奖章