自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

萧然

大数据,机器学习,推荐系统,数据挖掘,hadoop,mahout,spark

  • 博客(73)
  • 资源 (8)
  • 收藏
  • 关注

原创 mahout做推荐时uid,pid为string类型

在某些网站中,存储的数据可能不是

2014-08-20 11:34:16 2975 2

转载 隐马尔可夫模型(HMM)攻略

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。  考虑下面交通灯的例子

2014-07-17 16:49:40 1369

原创 hadoop SequenceFileOutputFormat与LzopCodec压缩问题

用mahout库做推荐系统,吗

2014-07-15 09:53:37 1147

原创 maven项目test编写

在maven项目中,可以在编译时对一些模块做测试。

2014-07-01 14:54:56 2858

原创 java连接mongodb

直接上代码 java.util.List mongoHostList = new ArrayList(); mongoHostList.add(new ServerAddress("192.168.1.102",27017)); Mongo mg = new Mongo(mongoHostList); DB db = mg.getDB("recommend"); if (!d

2014-07-01 14:39:11 711

原创 hdfs合并结果和hdfs内部拷贝

问题:当一个mapreduce程序的输入是很多个mapreduce的输出时,由于input

2014-07-01 14:35:17 5095

原创 maven项目用filter管理不同环境的配置文件

在很多互联网项目中,测试环境和线上环境都是分离的

2014-07-01 14:19:14 2250

转载 线性回归系列(4)-线性回归及梯度下降

本文会讲到:(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(4)梯度下降:解决线性回归的方法之一(5)feature scaling:加快梯度下降执行速度的方法(6)多变量线性回归Linear Regression  注意一句话:多变量线性回归之前必须要Feature Scaling

2014-06-18 15:47:59 965

原创 线性回归系列(3)-多元线性回归

多元回归分析,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

2014-06-18 15:39:46 2326

原创 线性回归系列(2)-一元线性回归

一元线性回归,顾名思义,即只有一个变量的回归方程。

2014-06-18 15:23:16 838

原创 线性回归系列(1)-最小二乘法

1.

2014-06-18 11:02:11 1350

原创 scala编程系列(14)-实现分数相加的类(下)

继续上篇9.方法重载

2014-06-13 18:27:39 930

原创 scala编程系列(13)-实现分数相加的类(中)

接上篇6.辅助构造器

2014-06-13 18:03:14 1029

原创 scala编程系列(12)-实现分数相加的类(上)

在scala编程中有这么一章,专门讲有理数的相加,即Rational

2014-06-13 17:14:26 1568

原创 mahout中的相似度

1.PearsonCorrelationSimilarity皮尔逊距离皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

2014-06-10 15:28:27 1036

原创 SVD奇异值分解(3)-推荐算法应用

SVD当前在推荐系统中运用很多,在mahout中就有其实现。

2014-06-10 14:49:00 1292

原创 SVD奇异值分解(2)-详解

在上一节中知道特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩阵。试想:如果需要分析的矩阵不是方阵(事实经常如此),该怎样处理呢?这就是奇异值分解

2014-06-10 14:42:42 1079

原创 SVD奇异值分解(1)-数学基础

1.奇异值分解(SingularValue Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。

2014-06-10 14:33:19 1390

原创 scala编程系列(11)-scala富包装器

scala富包装器其实就是一些基本操作

2014-06-05 17:06:17 1112

原创 scala编程系列(10)-scala字面量

首先解释下字面量(literal),字面量就是在用户不指定变在scala变量类型中都可以写

2014-06-05 16:53:00 2710

原创 scala编程系列(9)-scala基本类型

scala基本类型包括如下:

2014-06-05 16:34:38 2508 1

原创 看example源码学spark系列(5)-ExceptionHandlingTest

运行程序:jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.ExceptionHandlingTest spark://jpan-Beijing:7077结果为:

2014-06-04 16:00:23 1522

原创 看example源码学spark系列(4)-DriverSubmissionTest

先运行jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.DriverSubmissionTest 3Environment variables containing SPARK_TEST:System properties containing spark.test:

2014-06-04 15:55:42 1032

原创 看example源码学spark系列(3)-BroadcastTest

从这一节起开始直接在spark中运行例子,不再自己建立独立的项目。

2014-06-04 15:26:31 1446

转载 hadoop2.2+mahout0.9问题

版本:hadoop2.2.0,mahout0.9。使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。首先说明下,如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下:

2014-06-04 14:36:07 917

原创 mapreduce编程实例(7)-求所有用户ID

在网站评论中,有些用户评论过多次,有

2014-06-04 14:23:16 1089

原创 ​H​a​s​h​M​a​p​ ​,​ ​T​r​e​e​M​a​p​ ​,​ ​T​r​e​e​M​a​p​ ​默​认​排​序方式

先看代码package test;import java.util.HashMap;import java.util.LinkedHashMap;import java.util.Map;import java.util.TreeMap;public class Maps { public static void main(String[] args) { Map t

2014-06-04 14:11:40 2843

原创 mapreduce编程实例(6)-求TOP 10

在网站会员中,会员积分不同。此很

2014-06-04 14:01:37 1739

转载 Bloom Filter概念和原理

Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter

2014-06-04 11:10:44 527

原创 scala编程系列(8)-类、字段和方法

scala的类和java类的区别并不大。下面我们来定义一个类

2014-06-03 16:05:43 654

原创 scala编程系列(7)-从文件里读取文本行

直接上代码import scala.io.Sourceif(args.length > 0){ for (line <- Source.fromFile(args(0).getLines) print(line.length + " "+line) } else Console.err.println("Please enter filena

2014-05-30 16:44:37 1032

原创 scala编程系列(6)-scala函数式风格

scala的函数式编程风格非常特殊,特别是对于一个java程序员来说。特殊规

2014-05-30 16:27:32 790

原创 scala编程系列(5)-scala集set和映射map

在Scala的集合中,分为不可变和可变类型

2014-05-30 16:03:19 963

原创 scala编程系列(4)-scala元组tuple

元组也是比较有用的容器,和列表一样

2014-05-30 15:23:35 1132

转载 tomcat java.lang.OutOfMemoryError: GC overhead limit exceeded

Tomcat OutOfMemory问题: java.lang.OutOfMemoryError: GC overhead limit exceeded问题 :Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded问题产生原因:根据 sun 的说法: "if too much time is b

2014-05-30 14:49:25 6740

原创 scala编程系列(3)-scala列表List

List在scala中是不可变的,即初始化以后就不能再次赋值。与

2014-05-30 14:41:36 1802

原创 scala编程系列(2)-scala数组Array

1.使用类型参数化数组scala里使用new实例化对象,和jva

2014-05-30 14:09:25 1114

原创 scala编程系列(1)-scala编程入门初步

1.scala解释器scala与python一样,可以在终端以解释器方式交互,止血

2014-05-30 11:59:45 1713

原创 Spark系列(4)-Spark Web 页面

Spark和hadoop一样,有web管理界面,可以看到

2014-05-26 11:27:20 6428

原创 mapreduce编程实例(5)-统计各州用户数

其实这个也是wordcout的一种变形,它是统计每个州的用户数

2014-05-23 15:07:35 1574

Apache Hadoop YARN Moving beyond MapReduce and Batch Processing

Apache Hadoop TM YARN Moving beyond MapReduce and Batch Processing with Apache HadoopTM 2 全本,不是sample。

2014-07-15

IOS6实践指南 源代码

IOS6实践指南源码,一共几十个实例,非常有用。

2014-07-11

Logistic Regression for Data Mining and High-Dimensional Classification

Logistic Regression for Data Mining and High-Dimensional Classification

2014-06-20

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing.SPARK RDD论文

2014-06-20

Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing

Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters.

2014-06-20

ScalaSparkBindings

spark scala bindings

2014-06-20

An Architecture for Fast and General Data Processing on Large Clusters

spark创始人博士毕业论文,spark基础概念入门之作。

2014-06-20

bigtable论文

bigtable是NOSQL的一种,是Google公司在Hadoop架构中的数据存储方式,经典论文,值得借鉴。

2010-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除