Running_you-CSDN博客

原创 Spark数据类型SparseMatrix

SparseMatrixSpark的mllib包中提供了机器学习的两种基本数据类型： DenseMatrix（稠密）和 SparseMatrix（稀疏），在初始化对象的时候可以使用Matrices伴生对象产生，先看下示例代码：import org.apache.spark.mllib.linalg.{Matrix, Matrices}// Create a dense matrix ((1.0, 2

2017-01-05 09:58:55 5038 3

原创 Word2Vec

前言常见的文本挖掘领域首先需要对于词做定量化表示，目前已知的有One-hot Representation和Distributed Representation两种，有关两者的细节说明自行百度，这里需要强调词向量（Distributed Representation）的逻辑含义，它为什么能从一定的程度利用距离表示词语间的语义相似性。例如：对于词（篮球）来说，如果我们已经跟它相关的几个词有（体育，运

2016-11-24 16:59:29 1501

转载机器学习算法在什么情况下需要归一化？

转载：http://www.cnblogs.com/LBSer/p/4440590.html机器学习模型被互联网行业广泛应用，一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就是对特征数据进行归一化，为什么要归一化呢？维基百科给出的解释：1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高梯度下降法求解最优解的速

2016-11-06 21:45:49 18473

原创图并行计算实践（二）（spark streaming+graphx+kafka）

上回利用transform方法实现对于数据流的图并行计算过程，今天继续改进完善已有的计算机制，加入updateStateByKey和checkpoint机制，保障图并行计算在故障中仍能保证零误差。import kafka.serializer.StringDecoderimport org.apache.spark.streaming._import org.apache.spark.strea

2016-09-26 17:21:43 1670

原创图并行计算实践（一）（spark streaming+graphx+kafka）

上回使用spark streaming实现从kafka中获取实时数据流，进而实现简单业务计算需求，这两天打算将两者的计算复杂度提升，决定引进graphx组件，实现对于复杂图关系的计算，希望在未来某天实现标签图，概率图等实时的并行计算，下面实现的一个简单需求，在周期时间内计算节点的出度关系，例子如下：import kafka.serializer.StringDecoderimport org.ap

2016-09-24 12:01:10 2416

原创实时计算实践（spark streaming+kafka+hdfs）

一直在研究大数据处理方向的各种技术和工具，但没有真正用于实践中，恰好目前风控措施转向，需要实施“在线+离线”的双线防控措施，遂在调研查阅相关文档后，决定从零开始构造（数据挖掘转工程开发，思维转变是关键），这里面涉及的几个阶段慢慢说来：项目开发环境选择（scala IDE +maven）最开始的选择是直接在eclipse环境上安装scala的IDE插件，但实践证明此种方式很不稳定，受限于网络的限

2016-09-19 20:35:23 8318

原创 Theano深度学习（逻辑回归）

转载：http://deeplearning.net/software/theano/tutorial/examples.html 核心要点：共享变量shared，函数构建functionimport numpyimport theanoimport theano.tensor as Trng = numpy.randomN = 400

2016-08-10 17:39:49 587

原创 R语言|关联规则挖掘|可视化

为了进一步巩固R语言的基本用法及实践场景，这里尝试利用R做一些在关联规则上的挖掘实践，这里首要感谢博主gjwang1983的文章，这里仅记录下学习的一些基本应用命令：1.工具包的选取规则挖掘包arules 规则可视化包arulesViz2.数据源选取加载源数据：groceries 数据集，每一行代表一笔交易所购买的产品（item），形如：citrus fruit,semi-finish

2016-07-26 20:28:52 13082

原创 R语言|文本挖掘应用|标签云

虽然总有人对比python与R的实用性，但是作为数据分析的目标而言，工具不是重点，目标需求才是首要关注点，所以，今天尝试用R自带的一系列工具包来完成对于文本内容的挖掘，并利用标签云展示词频关系。- 工具包分词包jiebaR（类似于python中的jieba，但兼具标注，关键词提取以simhash等功能）标签云包wordcloud- 编程环境 R编译解释器 Rstudio（界面简洁

2016-07-26 19:27:17 3602 1

原创 networkx库：AttributeError: 'module' object has no attribute 'graphviz_layout'

起因在学习用python处理自然语言时，遇到借用networkx绘图来描述词语上下位关系的小练习，于是尝试，电脑win10环境，anaconda函数库包，自带networkx库，pycharm的集成环境，利用命令行运行如下代码：import networkx as nxG=nx.complete_graph(5)nx.draw_graphviz(G)如果使用nx.draw(G)没问题，这

2016-07-12 11:30:01 9909 1

原创 spark组件之graphx函数方法（二）

在网络计算中，graphx提供了基本的函数和算法来计算社交网络关系中的三角关系数量，下面简单记录下一组常用的命令作为学习巩固：1.启动spark-shell交互式环境： import org.apache.spark.graphx._ import org.apache.spark.graphx.util._2.利用graphx提供的类函数随机产生数据集注：导入数据集方式（A：RDD

2016-06-15 11:17:56 2147

转载网页数据传输加密方法（前js+后java）

确保bcprov及codec的jar包存在路径汇总import java.security.KeyPair;import java.security.KeyPairGenerator;import java.security.SecureRandom;import java.security.Security;import java.security.interfaces.RSAPrivat

2016-06-12 19:42:21 4739

原创 spark组件之graphx函数方法（一）

aggregateMessages类graph提供了聚合方法aggregateMessages，关于使用方法官方给出了具体的案例参考：// Import random graph generation libraryimport org.apache.spark.graphx.util.GraphGenerators// Create a graph with "age" as the vert

2016-06-07 18:08:34 2188

原创 spark组件之graphx图并行计算

这两天接触spark中的graphx组件框架，关于Graph类中的大多数函数使用方法经过简单的尝试验证还是比较容易理解的，独对Graph类中提供的joinVertices和outerJoinVertices方法感到很迷惑，先贴出Graph类提供的变量和方法：class Graph[VD, ED] { // Information about the Graph val numEdges:

2016-06-03 17:37:16 1584

原创 python 模拟抓取网页的工具包

这段时间在尝试破解各大网站的登录系统，同时又要避开人机识别码的验证，通过chrome的js调试器不断尝试深入了解各网站系统的登录流程及验证过程，总结发现了几款非常实用的工具包，对于抓取网站数据或是执行js脚本等非常有帮助，大大提高开发的效率，具体的开发细节不便透露，简要介绍下使用的工具包：1，python目前开发已经逐渐适应了python的简洁高效，有太多强大的工具包可支撑开发的需要，为开发者避开底

2016-04-28 10:52:38 1247

转载 Python正则表达式指南

参考地址（AstralWind）： http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.htmlsearch()与match()的不同之处：match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]): 这个方法将从string的pos下标处起尝试匹配patter

2016-04-21 09:53:44 406

原创神经网络中交叉熵代价函数求导

最近看了几篇神经网络的入门介绍知识，有几篇很浅显的博文介绍了神经网络算法运行的基本原理，首先盗用伯乐在线中的一个11行python代码搞定的神经网络，import numpy as np# sigmoid functiondef nonlin(x,deriv=False): if(deriv==True): return x*(1-x) return 1/(1+np

2016-04-15 15:17:21 4888

转载 Python优秀函数库集锦（二）

源地址：https://github.com/jobbole/awesome-python-cn 伯乐在线地址：http://python.jobbole.com/84464/环境管理管理 Python 版本和环境的工具p – 非常简单的交互式 python 版本管理工具。 pyenv – 简单的 Python 版本管理工具。 Vex – 可以在虚拟环境中执行命令。 virtualenv –

2016-04-14 16:25:44 10848 2

转载 Python scikit-learn机器学习:feature_selection模块

sklearn.feature_selection模块的作用是feature selection，关键在于选择合适的变量达到降维的目的，而feature extraction模块则是从数据集中利用某类算法抽取具有代表性的特征，例如tf-idf使用。Univariate feature selection：单变量的特征选择单变量特征选择的原理是分别单独的计算每个变量的某个统计指标，根据该指标来判断哪些

2016-03-01 11:10:18 6271

原创关于spark运行FP-growth算法报错com.esotericsoftware.kryo.KryoException

Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是，照搬官方提供的python案例源码时，爆出该错误com.esotericsoftware.kryo.KryoException (java.lang.IllegalArgumentException: Can not set final scala.collection.mutable.ListBuffer f

2016-02-05 10:49:37 4056

原创 Seaborn使用说明

python作图已成为数据分析中不可或缺的手段，常使用的包为matplotlib，它被很多其它包所依赖，例如pandas中具有的绘图功能就是对matplotlib的API的二次封装使用，今天要说明的seaborn包则提供了一种新的绘图功能，其简单易行的封装功能带来更为强大和美观的绘图效果，现简要说明该包[功能]，主要分为三大类：(http://web.stanford.edu/~mwaskom/so

2016-01-06 18:15:22 3911

原创 Python优秀函数库集锦（一）

Python第三方函数库数据分析函数库Numpy：Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵（matrix））。 Pandas：它是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效

2015-12-26 15:06:10 3884

原创统计学习方法

统计方法是机器学习中不可或缺的基础理论，要想深入理解机器学习的算法本质，很有必要了解有关统计学方法，这里以李航的《统计学习方法》一书为教材，简单罗列后面会遇到统计方法，简单说：统计方法=模型+策略+算法。感知机K近邻法朴素贝叶斯决策树理论逻辑回归及最大熵模型支持向量机Adaboost思想EM算法及推广隐马尔科夫模型条件随机场

2015-12-23 19:47:45 442

原创 HIVE中get_json_object与json_tuple使用

hive中提供了两种针对json数据格式解析的函数，即get_json_object（…）与json_tuple(…)，理论不多说，直接上效果示意图：假设存在如下json数据对象，若使用hive环境可这么设置： set hivevar:msg={“message”:”2015/12/08 09:14:4”, “client”: “10.108.24.253”, “server”: “passpo

2015-12-08 10:25:30 58109 1

原创 sqoop的基本应用要点

sqoop可用于将关系型数据库与分布式存储系统进行数据的转换存储，例如可以将mysql中的数据与hive下的存储数据进行互转，但实质上仍然是读取hdfs下的存储文件。有关sqoop的基本应用语法可以参考以下两篇sqoop中文手册： http://blog.csdn.net/myrainblues/article/details/43673129 http://www.zihou.me/htm

2015-12-08 10:06:45 1164

原创关于spark提交作业报错原因

spark提供了scala，java及python等脚本作业的功能，但是在实际运行中很容易卡在sc初始化问题上，这里主要原因在于启动spark环境后系统会自建sc环境，若用户在脚本中新建sc将会报错，但是不使用sc又难以达到脚本的效果，这里提供python脚本的提交方法说明： spark-submit –master local[4] svm.py而其中关于svm.py的内容则应该这么写：fr

2015-11-12 17:09:22 2001

原创 SparkSQL与Hive的应用关系

Spark生态圈 Spark是基于scala语言产生的，因此有关spark中的各大编程应用也基本跟scala脱不开关系，但是好在spark的平台化做的不错，目前可支持python及R等语言的应用，这些得益于sparkSQL组件的存在，整个spark的结构组件如下如所示：关于spark的组件功能描述不多说，可以参考博客spark入门系列及官方资料等，保证有个初步的印象。SparkSQL在

2015-11-03 20:04:28 6759

原创 Hadoop之sequencefile与text类型转化

sequencefile格式转text格式这里仅针对输入格式为package org.apache.hadoop.examples;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;imp

2015-10-15 17:50:42 4010 1

原创 MAHOUT文本向量相似度计算

相似度计算算法mahout源包中包含了common，hadoop，lucent及mahout核心算法相关的classes，其中，对于mahout中常用的推荐，聚类及分类中的相似度计算，mahout中提供了若干种向量相似度计算的方法，如下图所示关于每种相似度的计算原理这里不作详细介绍说明，可以参考以下博客： http://www.cnblogs.com/dlts26/archive/2012/0

2015-09-24 20:13:07 2257

原创 MAHOUT之关联规则挖掘算法

需求说明目前正在对hive表中的数据做分析，期望从已有的数据中挖掘出类似购物篮的关联规则，但是单机环境下的关联规则算法实在是无法胜任大数据环境下的数据挖掘工作，无奈寻求大数据环境下的分布式挖掘算法，目前可供选用的关联规则挖掘算法有Apriori和fp-tree两种，前者较后者来说，当挖掘过万的记录时，效率上更是百倍的差距，所以选择mahout中提供的fpgrowth算法来实现关联规则挖掘。准备工作为

2015-09-06 22:42:51 2588

原创 HIVE中关于collect_set与explode函数妙用

hive的复合数据类型hive中的列支持使用三类复杂的集合数据类型，即：array，map及struct，这些类型的名称是保留字，具体用法可参见该篇博文，里面有关于三类基本集合数据类型的操作实例，注：map中可嵌套array类型。例如，定义表：create table example ( device_id string, login_ip array<string>,

2015-08-31 19:30:40 29456 4

原创 Mahout之推荐算法基本实例

Mahout中主要核心的三大算法为推荐，聚类及分类算法，今天就最基本的推荐算法做总结，推荐中常用的两个推荐算法是”user_based”和”item_based”，前者主要通过和你兴趣相似的人来发现新的你感兴趣的东西，而后者则是发现一些和你所喜欢的事物相似的事物。此外，还有一种基于“contend_based”的推荐算法，它是根据事物所拥有的元数据出现进行事物的推荐，例如，如果你喜欢的电影是斯皮尔伯

2015-08-24 13:06:52 6197

原创正则表达式语法

正则表达式语法在线正则表达式测试

2015-08-20 16:22:23 770

原创 mahout算法数据输入规则

Mahout机器学习平台之聚类算法详细剖析数据输入中的格式说明： test类型（seqdirectory函数） sequencefile类型（seq2sparse函数） vector类型

2015-08-14 15:30:45 718

原创费舍尔方法

朴素贝叶斯不能对分类概率进行大致估算，只能判定特征项属于哪一类的概率最大，因此费舍尔方法弥补该缺陷，可以直接估算特征项从属于某一类的概率值，下面首先列出基本代码以供参考，后期补充内容：# -*- coding: utf-8 -*-import reimport mathdef getwords(doc): splitter=re.compile('\\W*') words=[s.l

2015-08-13 18:05:53 1949

转载 SSH原理与运用

远程登录一、什么是SSH？简单说，SSH是一种网络协议，用于计算机之间的加密登录。如果一个用户从本地计算机，使用SSH协议登录另一台远程计算机，我们就可以认为，这种登录是安全的，即使被中途截获，密码也不会泄露。最早的时候，互联网通信都是明文通信，一旦被截获，内容就暴露无疑。1995年，芬兰学者Tatu Ylonen设计了SSH协议，将登录信息全部加密，成为互联网安全的一个基本解决方案，迅速在全世

2015-08-13 10:58:10 417

原创 mahout的安装，配置及聚类测试

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。最新版apache-mahout-distribution

2015-08-12 20:14:18 866

原创朴素贝叶斯公式形象化描述

网上看到很多对于朴素贝叶斯的文字描述，内容繁杂，不够简单，具体可参考该篇文章朴素贝叶斯案例，这里文字性的内容就不多说，主要强调点就是使用要求：各元素之间保持相互独立性。直接以几幅公式图来表述朴素贝叶斯的应用：假设M,N代表文档的类别（例如，’科技’或’体育’等），而A,B,C则分别表示不同的词汇（例如，’大数据’，’云计算’等词从属于科技类新闻，而’篮球’,’足球’等词从属于体育类新闻），一般贝叶斯

2015-08-10 19:54:09 794

转载 linux 常用命令学习

开始详细系统的学习linux常用命令，坚持每天一个命令，所以这个系列为每天一个linux命令。学习的主要参考资料为：　　1.《鸟哥的linux私房菜》　　2.http://codingstandards.iteye.com/blog/786653　　3.linux命令五分钟系列　　4.其他互联网资料，google，baidu等搜索引擎一. 文件目录操作命令：1.每天一个linux命令(1)：ls命

2015-07-20 15:13:53 421

原创 Hive 函数高级编程

虽然Hive提供了很多函数，但是有些还是难以满足我们的需求，因此Hive提供了自定义函数开发，经常用到的主要有两种类型：UDF(User-Defined-Function)和UDAF（User- Defined Aggregation Funcation），前者主要用来实现一进一出的操作，而后者就是实现多进一出的操作。（1）UDF实现•UDF(User-Defined-Function)，UDF函

2015-07-20 09:58:26 805

空空如也

空空如也