自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubinorth的博客

一只学生狗

  • 博客(12)
  • 收藏
  • 关注

原创 降维相关

降维相关降维相关什么是降维PCALDALLELE什么是降维一般来说,在ml里面,需要feature。而对于feature,我们又通常使用向量来表示。所以,简单地说,降维就是将一个高维的向量映射为一个低维的向量。形象地说,降维可以看作一个函数,输入是一个D为的向量,输出是一个M维的向量。那怎么样才算是一个好的降维结果呢?直观地说,就是要既能降低维度,又能使得损失的信息尽量少。举个例子,如果

2017-12-04 22:54:09 1359

转载 网页爬虫--scrapy进阶

本篇将谈一些scrapy的进阶内容,帮助大家能更熟悉这个框架。1. 站点选取现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。比如爬新浪微博,有以下几个选择: 1. www.weibo.com,主站 2. www.weibo.cn,简化版 3. m.weibo.cn,移动版上面三个中,主站的微博数据是动态加载的,意味着光看源码是看不到数据的,想爬的话要么搞清楚其api访问情况,要么

2016-10-15 12:07:53 701

转载 爬虫入门(实用向)

从接触爬虫到现在也有一年半了,在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程,我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗?那好,作为一个爬虫新人,要爬一个网站时,应该怎么开始呢?首先,确定要爬的内容。是要整个网站的所有内容还是只是部分?需要的爬取的数据在网页源代码里有吗(涉及到模拟js发送请求)?需要的爬取的数据在网页上有吗(要用API爬吗)?确定要爬的内容之后,紧接

2016-10-15 12:07:04 1269

转载 网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫。并介绍一个流行的爬虫框架~1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序。正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:)。通常适用于需要大量网页信息的场合。爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url -> …依次循环。整体上来看就是一

2016-10-15 12:06:22 471

原创 API爬虫--Twitter实战

本篇将从实际例子出发,展示如何使用api爬取twitter的数据。1. 创建APP进入https://apps.twitter.com/,创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可,各种信息随意填写,并不需要进一步的认证,我们要的只是app的Consumer Key (API Key), Consumer Secret (API Secr

2016-09-10 14:26:02 7596 1

原创 Neo4j安装&入门&一些优缺点

本篇将介绍Neo4j的安装,入门,和自己使用了一段时间后发现的优点缺点,争取简洁和实用。如果你是第一次接触Neo4j,并且之前也都没接触过类似的Graph Database的话,建议先浏览一下我之前的一篇博客:为什么选择图形数据库,为什么选择Neo4j?。毕竟应该在做一件事之前要想清除为什么要做是吧。

2016-09-08 15:32:45 8517

原创 为什么选择图形数据库,为什么选择Neo4j?

图形数据库是这几年兴起的,整体还不是很完善,而且适用面也是比较窄的。只有在明确自己的需求之后,才能确定是否选择图形数据库

2016-09-06 16:18:59 5835

原创 Networx蓝屏问题

本人系统win7专业版64位。从5月底开始就时不时有蓝屏发生,而且可以说是没有任何征兆就“啪”的一下蓝了…有时候是隔个四五天蓝屏一次,有时候一天都能蓝好几次,实在是让人恼火。从第一次蓝屏就开始寻找原因,直到一个月前才查到元凶,竟然就是Networx。作为一个蓝屏小白,我做了挺多尝试才最终找到蓝屏原因,大概包括:1. 分析蓝屏代码使用WinDbg或者BlueSreenView查看 C:\Windows

2016-08-31 11:18:40 691

原创 HITS算法--从原理到实现

本文介绍HITS算法的相关内容。算法来源算法原理算法证明算法实现1 基于迭代法的简单实现2 MapReduce实现HITS算法的缺点写在最后参考资料1. 算法来源1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Indu

2016-08-17 15:47:36 29593 5

原创 MapReduce实现词频统计

问题描述:现在有n个文本文件,使用MapReduce的方法实现词频统计。附上统计词频的关键代码,首先是一个通用的MapReduce模块1:class MapReduce: __doc__ = '''提供map_reduce功能''' @staticmethod def map_reduce(i, mapper, reducer): """ map

2016-08-15 22:10:09 6470

原创 PageRank简单实现中的一个错误

PageRank简单实现中的一个错误在我的一篇博客PageRank中,在5.1 算法实现中简单实现部分原本是有一个错误的。这个错误也体现出我当时对PageRank算法有理解上的偏差。这是个什么样的错误呢?是这样的:简单实现中计算每个网页的PR值时使用的是最原始的方法,即下面的这个公式:PR(pi)=α∑pj∈MpiPR(pj)L(pj)+(1−α)N PR(p_{i}) = \alpha \sum

2016-08-15 22:00:03 3857

原创 PageRank算法--从原理到实现

PageRank 算法标签: PageRank Markov MapReduce本文将介绍PageRank算法的相关内容,具体如下:PageRank 算法算法来源算法原理算法证明PR值计算方法1 幂迭代法2 特征值法3 代数法算法实现1 基于迭代法的简单实现2 MapReduce实现PageRank算法的缺点写在最后参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜

2016-08-15 21:40:46 51693 22

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除