pan12jian-CSDN博客

原创 mahout做推荐时uid，pid为string类型

在某些网站中，存储的数据可能不是

2014-08-20 11:34:16 2975 2

转载隐马尔可夫模型（HMM）攻略

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及 HMM 的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。　　考虑下面交通灯的例子

2014-07-17 16:49:40 1369

原创 hadoop SequenceFileOutputFormat与LzopCodec压缩问题

用mahout库做推荐系统，吗

2014-07-15 09:53:37 1147

原创 maven项目test编写

在maven项目中，可以在编译时对一些模块做测试。

2014-07-01 14:54:56 2858

原创 java连接mongodb

直接上代码 java.util.List mongoHostList = new ArrayList(); mongoHostList.add(new ServerAddress("192.168.1.102",27017)); Mongo mg = new Mongo(mongoHostList); DB db = mg.getDB("recommend"); if (!d

2014-07-01 14:39:11 711

原创 hdfs合并结果和hdfs内部拷贝

问题：当一个mapreduce程序的输入是很多个mapreduce的输出时，由于input

2014-07-01 14:35:17 5095

原创 maven项目用filter管理不同环境的配置文件

在很多互联网项目中，测试环境和线上环境都是分离的

2014-07-01 14:19:14 2250

转载线性回归系列(4)-线性回归及梯度下降

本文会讲到：(1)线性回归的定义(2)单变量线性回归(3)cost function：评价线性回归是否拟合训练集的方法(4)梯度下降：解决线性回归的方法之一(5)feature scaling：加快梯度下降执行速度的方法(6)多变量线性回归Linear Regression 注意一句话：多变量线性回归之前必须要Feature Scaling

2014-06-18 15:47:59 965

原创线性回归系列(3)-多元线性回归

多元回归分析，是指通过对两上或两个以上的自变量与一个因变量的相关分析，建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时，称为多元线性回归分析。

2014-06-18 15:39:46 2326

原创线性回归系列(2)-一元线性回归

一元线性回归，顾名思义，即只有一个变量的回归方程。

2014-06-18 15:23:16 838

原创线性回归系列(1)-最小二乘法

2014-06-18 11:02:11 1350

原创 scala编程系列(14)-实现分数相加的类(下)

继续上篇9.方法重载

2014-06-13 18:27:39 930

原创 scala编程系列(13)-实现分数相加的类(中)

接上篇6.辅助构造器

2014-06-13 18:03:14 1029

原创 scala编程系列(12)-实现分数相加的类(上)

在scala编程中有这么一章，专门讲有理数的相加，即Rational

2014-06-13 17:14:26 1568

原创 mahout中的相似度

1.PearsonCorrelationSimilarity皮尔逊距离皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

2014-06-10 15:28:27 1036

原创 SVD奇异值分解(3)-推荐算法应用

SVD当前在推荐系统中运用很多，在mahout中就有其实现。

2014-06-10 14:49:00 1292

原创 SVD奇异值分解(2)-详解

在上一节中知道特征值分解使用条件有限，仅适用于方阵，且要求是实对称矩阵。试想：如果需要分析的矩阵不是方阵（事实经常如此），该怎样处理呢？这就是奇异值分解

2014-06-10 14:42:42 1079

原创 SVD奇异值分解(1)-数学基础

1.奇异值分解（SingularValue Decomposition）是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵酉对角化的推广。

2014-06-10 14:33:19 1390

原创 scala编程系列(11)-scala富包装器

scala富包装器其实就是一些基本操作

2014-06-05 17:06:17 1112

原创 scala编程系列(10)-scala字面量

首先解释下字面量（literal），字面量就是在用户不指定变在scala变量类型中都可以写

2014-06-05 16:53:00 2710

原创 scala编程系列(9)-scala基本类型

scala基本类型包括如下：

2014-06-05 16:34:38 2508 1

原创看example源码学spark系列(5)-ExceptionHandlingTest

运行程序：jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.ExceptionHandlingTest spark://jpan-Beijing:7077结果为：

2014-06-04 16:00:23 1522

原创看example源码学spark系列(4)-DriverSubmissionTest

先运行jpan@jpan-Beijing:~/Software/spark-0.9.1$ ./bin/run-example org.apache.spark.examples.DriverSubmissionTest 3Environment variables containing SPARK_TEST:System properties containing spark.test:

2014-06-04 15:55:42 1032

原创看example源码学spark系列(3)-BroadcastTest

从这一节起开始直接在spark中运行例子，不再自己建立独立的项目。

2014-06-04 15:26:31 1446

转载 hadoop2.2+mahout0.9问题

版本：hadoop2.2.0，mahout0.9。使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。首先说明下，如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下：

2014-06-04 14:36:07 917

原创 mapreduce编程实例(7)-求所有用户ID

在网站评论中，有些用户评论过多次，有

2014-06-04 14:23:16 1089

原创 HashMap , TreeMap , TreeMap 默认排序方式

先看代码package test;import java.util.HashMap;import java.util.LinkedHashMap;import java.util.Map;import java.util.TreeMap;public class Maps { public static void main(String[] args) { Map t

2014-06-04 14:11:40 2843

原创 mapreduce编程实例(6)-求TOP 10

在网站会员中，会员积分不同。此很

2014-06-04 14:01:37 1739

转载 Bloom Filter概念和原理

Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter

2014-06-04 11:10:44 527

原创 scala编程系列(8)-类、字段和方法

scala的类和java类的区别并不大。下面我们来定义一个类

2014-06-03 16:05:43 654

原创 scala编程系列(7)-从文件里读取文本行

直接上代码import scala.io.Sourceif(args.length > 0){ for (line <- Source.fromFile(args(0).getLines) print(line.length + " "+line) } else Console.err.println("Please enter filena

2014-05-30 16:44:37 1032

原创 scala编程系列(6)-scala函数式风格

scala的函数式编程风格非常特殊，特别是对于一个java程序员来说。特殊规

2014-05-30 16:27:32 790

原创 scala编程系列(5)-scala集set和映射map

在Scala的集合中，分为不可变和可变类型

2014-05-30 16:03:19 963

原创 scala编程系列(4)-scala元组tuple

元组也是比较有用的容器，和列表一样

2014-05-30 15:23:35 1132

转载 tomcat java.lang.OutOfMemoryError: GC overhead limit exceeded

Tomcat OutOfMemory问题: java.lang.OutOfMemoryError: GC overhead limit exceeded问题 :Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded问题产生原因：根据 sun 的说法： "if too much time is b

2014-05-30 14:49:25 6740