重拾梦想-CSDN博客

原创使用python进行文本分类

#coding:utf-8__author__ = 'lishuai'import numpydef loadDataSet(): postingList=[ ['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','park','stu

2015-09-18 10:55:29 779

原创 spark1.4版本与CDH5.1.3版本hive整合

环境说明：hadoop集群安装的是CDH5.1.3；spark是1.4版本，安装方式为standlone。场景介绍：在spark-sql中，读取hive的数据配置步骤如下：1、找到hive的 hive-site.xml 文件和 hive-log4j.properties 文件放入spark的 conf 目录下。注：hive的配置文件目录位置为：/alidata/cloudera/

2015-08-26 09:59:24 1357 1

原创 hadoop提交任务后日志存放问题

hadoop提交任务后，会有日志记录此次执行的情况。目前这些日志都保留在hdfs文件系统中，生成了大量的小文件，从而耗费了大量的磁盘空间。如果每天提交的任务多且频繁，磁盘空间消耗的速率是比较惊人的。可清理的日志路径：/user/history /tmp /user/root/.Trash如下图所示，上面的部分是清除日志后磁盘的使用率与block块的数量，下图是没清理的。

2015-08-21 12:59:35 709

原创 java实现两个向量的相关系数算法

有两个向量V1和V2V1={1：3，2：2，3：1,5：0}，V2={1：3，3：1，4：2，5：0}以表格的形式展现：将向量V1和V2带入相关系数公式并展开展开，结果为：n值(n = 4)：从表格可以看出，向量V1和V2 的第五位元素上都是0，因此该位置可忽略。向量V1第四位元素上值为0，但向量V2第四位元素有值，因此位置4上的元素不能忽略

2015-03-13 13:47:44 4998 1

原创 mahout推荐引擎总结

GenericUserBasedRecommender和GenericItemBasedRecommender处理有偏好值的数据。GenericBooleanPrefUserBasedRecommender：处理偏好值为布尔类型或没有偏好值的数据。SlopeOneRecommender:基于新物品与用户评估过的物品之间平均偏好值差异来预测用户对新物品的偏好值。处理有偏好值的数据

2014-12-30 14:18:06 719

原创 GenericUserBasedRecommender推荐引擎源码分析

推荐程序中，用户需要根据数据类型构建适当的推荐引擎，例如：Recommender recommender = new GenericUserBasedRecommender(dataModel, neighborhood, usersimilarity); 其中dataModel为数据模型，neighborhood为用户领域模型，usersimilarity为相似度模型，在此不详述。构建好

2014-12-25 13:41:09 1692

原创用户相似性度量

PearsonCorrelationSimilarity（皮尔逊相关系数）原理：度量两个意义对应数列之间的线性相关程度，即度量两个数列中数字一起增大或一起减小的可能性。场景：用于度量两个用户之间的相似性，度量两个用户针对同一物品的偏好值变化趋势的一致性。优点：结果直观。缺点：没有考虑到两个用户同时给出偏好值的数目。解决办法：引入权重，即加权。例如，两个用户如

2014-12-24 15:48:26 3362

原创 storm集群环境搭建

集群节点：hadoop1，hadoop2，hadoop3将hadoop1设置成主节点，部署nimbus，nimbus负责分发代码，分配任务。hadoop2、hadoop3作为从节点部署supervisor，supervisor负责产生worker，执行代码。1.解压tar包apache-storm-0.9.3.tar.gz2.修改conf/storm.yaml文件（注意 -

2014-12-22 09:52:17 728

原创 Mahout推荐引擎测评及源码分析

评估一个推荐程序：利用平均值来评分：AverageAbsoluteDifferenceRecommenderEvaluator利用均方根来评分：RMSRecommenderEvaluatorpublic void recommenderEvaluator() throws Exception{ DataModel dataModel = new FileDataModel(

2014-12-19 18:27:38 980

原创使用DBInputFormat作为输入数据源

该代码展示了如何在hadoop中与数据库连接，并将数据库中的数据作为数据源

2014-08-14 22:51:38 628

原创使用libSvm包实现分类及预判

下面是通过使用libsvm开源包实现的

2014-08-07 15:56:04 675

转载 SVM算法入门

转自：http://www.blogjava.net/zhenandaci/category/31868.html（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学

2014-08-07 15:47:24 536

原创 RPC远程过程调用

RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 RPC采用客户机/服务器模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。首先

2014-08-03 18:25:28 549

HDFS在存储文件时，会将文件break them into chunks，默认inputSplit的大小与block块的大小一致，为128M，如果单个文件的大小小于block块的大小则不会切分，直接将改小文件存储到一个block块中。因此如果不对栅格数据文件做处理，将导致占据大量的block块；由于namenode中会存储为元数据信息，因此也将导致namenode节点记录大量小文件的位置等元数据

2014-07-31 16:56:26 4618

原创使用MapReduce读取SequenceFile文件,批量导入HBase

上次将小文件写成sequenceFile文件后，采用的是本地读取文件，然后写入HBase,这里

2014-07-30 18:26:24 898

原创小文件解决方案

SequenceFile通常对于“the small files problem”的回应会是：使用SequenceFile。这种方法是说，使用filename作为key，并且file contents作为value。实践中这种方式非常管用。回到10000个100KB的文件，可以写一个程序来将这些小文件写入到一个单独的 SequenceFile中去，然后就可以在一个streaming fashi

2014-07-28 18:24:20 430

原创实现HBase存储图片

该文章

2014-07-28 14:30:58 4346

原创 hadoop1集群环境搭建

一直以来都没有将自己的一些知识以文档的形式记录下来，时间长了容易淡忘。在此以文档的方式记录，当做归纳总结，方便阅读查看。假设集群中已经安装好jdk和实现了集群间的免密码登http://blog.csdn.net/ls386239766/article/details/38169259 集群环境：hadoop0、hadoop1、hado

2014-07-27 14:09:02 526 1

原创实现SSH免密码登陆

1.创建公钥信息：执行命令：ssh-keygen -trsa ,然后一直按回车键。可以在目录/root/.ssh中找到新创建的文件id_rsa id_rsa.pub

2014-07-27 12:51:12 514

原创虚拟机设置固定上网地址

在学习hadoop时，使用自己的机器配置了四台虚拟机。在家里时由于是自行分配的ip，机器之间可以互相通讯。但到公司后，由于公司不提供网络，每次需要手动设定ip，回家后还需要再次修改ip，实在麻烦。因此通过修改Linux中的配置文件，一劳永逸，下面是设置过程：

2014-07-25 20:41:38 474

原创 HBase简单API操作

package com.ls.hbase;import java.io.IOException;import java.io.InterruptedIOException;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseCo

2014-07-24 17:30:10 354

InstallShield 2009 安装文档

2015-07-10

hive 分组取TopN

hive不直接支持分组取TopN的操作，需要自定义udf函数打成jar包添加到hive运行环境中

2015-07-10

hive解析json格式数据所需jar包

hive解析json时所需jar包。具体使用： add jar ../../../target/json-serde-1.3-jar-with-dependencies.jar; CREATE TABLE json_nested_test ( country string, languages array, religions map<string,array>) ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' STORED AS TEXTFILE; -- data : {"country":"Switzerland","languages":["German","French", -- "Italian"],"religions":{"catholic":[10,20],"protestant":[40,50]}} LOAD DATA LOCAL INPATH 'nesteddata.txt' OVERWRITE INTO TABLE json_nested_test ; select * from json_nested_test; -- result: Switzerland ["German","French","Italian"] {"catholic":[10,20],"protestant":[40,50]} select languages[0] from json_nested_test; -- result: German select religions['catholic'][0] from json_nested_test; -- result: 10 原下载地址：https://github.com/rcongiu/Hive-JSON-Serde

2015-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ls386239766的专栏

原创使用python进行文本分类

原创 spark1.4版本与CDH5.1.3版本hive整合

原创 hadoop提交任务后日志存放问题

原创 java实现两个向量的相关系数算法

原创 mahout推荐引擎总结

原创 GenericUserBasedRecommender推荐引擎源码分析

原创用户相似性度量

原创 storm集群环境搭建

原创 Mahout推荐引擎测评及源码分析

原创使用最小编辑距离算法求字符串相似度

原创使用DBInputFormat作为输入数据源

原创使用libSvm包实现分类及预判

转载 SVM算法入门

原创 RPC远程过程调用

原创将本地文件读成sequenceFile文件

原创使用MapReduce读取SequenceFile文件,批量导入HBase

原创小文件解决方案

原创实现HBase存储图片

原创 hadoop1集群环境搭建

原创实现SSH免密码登陆

原创虚拟机设置固定上网地址

原创 HBase简单API操作

InstallShield 2009 安装文档

hive 分组取TopN

hive解析json格式数据所需jar包

mahout in action中的源码

爬虫源码实现及文档

HBase存储海量图片

空空如也