刀刀流-CSDN博客

原创降维相关

降维相关降维相关什么是降维PCALDALLELE什么是降维一般来说，在ml里面，需要feature。而对于feature，我们又通常使用向量来表示。所以，简单地说，降维就是将一个高维的向量映射为一个低维的向量。形象地说，降维可以看作一个函数，输入是一个D为的向量，输出是一个M维的向量。那怎么样才算是一个好的降维结果呢？直观地说，就是要既能降低维度，又能使得损失的信息尽量少。举个例子，如果

2017-12-04 22:54:09 1359

转载网页爬虫--scrapy进阶

本篇将谈一些scrapy的进阶内容，帮助大家能更熟悉这个框架。1. 站点选取现在的大网站基本除了pc端都会有移动端，所以需要先确定爬哪个。比如爬新浪微博，有以下几个选择： 1. www.weibo.com，主站 2. www.weibo.cn，简化版 3. m.weibo.cn，移动版上面三个中，主站的微博数据是动态加载的，意味着光看源码是看不到数据的，想爬的话要么搞清楚其api访问情况，要么

2016-10-15 12:07:53 701

从接触爬虫到现在也有一年半了，在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程，我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗？那好，作为一个爬虫新人，要爬一个网站时，应该怎么开始呢？首先，确定要爬的内容。是要整个网站的所有内容还是只是部分？需要的爬取的数据在网页源代码里有吗（涉及到模拟js发送请求）？需要的爬取的数据在网页上有吗（要用API爬吗）？确定要爬的内容之后，紧接

2016-10-15 12:07:04 1269

转载网页爬虫--scrapy入门

本篇从实际出发，展示如何用网页爬虫。并介绍一个流行的爬虫框架~1. 网页爬虫的过程所谓网页爬虫，就是模拟浏览器的行为访问网站，从而获得网页信息的程序。正因为是程序，所以获得网页的速度可以轻易超过单身多年的手速：)。通常适用于需要大量网页信息的场合。爬取网页的流程为：访问初始url -> 获得返回的网页，从这个网页中得到新的url并放入待爬队列 -> 访问新的url -> …依次循环。整体上来看就是一

2016-10-15 12:06:22 471

原创 API爬虫--Twitter实战

本篇将从实际例子出发，展示如何使用api爬取twitter的数据。1. 创建APP进入https://apps.twitter.com/，创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可，各种信息随意填写，并不需要进一步的认证，我们要的只是app的Consumer Key (API Key)， Consumer Secret (API Secr

2016-09-10 14:26:02 7596 1

原创 Neo4j安装&入门&一些优缺点

本篇将介绍Neo4j的安装，入门，和自己使用了一段时间后发现的优点缺点，争取简洁和实用。如果你是第一次接触Neo4j，并且之前也都没接触过类似的Graph Database的话，建议先浏览一下我之前的一篇博客：为什么选择图形数据库，为什么选择Neo4j？。毕竟应该在做一件事之前要想清除为什么要做是吧。

2016-09-08 15:32:45 8517

原创为什么选择图形数据库，为什么选择Neo4j？

图形数据库是这几年兴起的，整体还不是很完善，而且适用面也是比较窄的。只有在明确自己的需求之后，才能确定是否选择图形数据库

2016-09-06 16:18:59 5835

原创 Networx蓝屏问题

本人系统win7专业版64位。从5月底开始就时不时有蓝屏发生，而且可以说是没有任何征兆就“啪”的一下蓝了…有时候是隔个四五天蓝屏一次，有时候一天都能蓝好几次，实在是让人恼火。从第一次蓝屏就开始寻找原因，直到一个月前才查到元凶，竟然就是Networx。作为一个蓝屏小白，我做了挺多尝试才最终找到蓝屏原因，大概包括：1. 分析蓝屏代码使用WinDbg或者BlueSreenView查看 C:\Windows

2016-08-31 11:18:40 691

原创 HITS算法--从原理到实现

本文介绍HITS算法的相关内容。算法来源算法原理算法证明算法实现1 基于迭代法的简单实现2 MapReduce实现HITS算法的缺点写在最后参考资料1. 算法来源1999年，Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法，HITS同样以更精确的搜索为目的，并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Indu

2016-08-17 15:47:36 29593 5

原创 MapReduce实现词频统计

问题描述：现在有n个文本文件，使用MapReduce的方法实现词频统计。附上统计词频的关键代码，首先是一个通用的MapReduce模块1：class MapReduce: __doc__ = '''提供map_reduce功能''' @staticmethod def map_reduce(i, mapper, reducer): """ map

2016-08-15 22:10:09 6470

原创 PageRank简单实现中的一个错误

PageRank简单实现中的一个错误在我的一篇博客PageRank中，在5.1 算法实现中简单实现部分原本是有一个错误的。这个错误也体现出我当时对PageRank算法有理解上的偏差。这是个什么样的错误呢？是这样的：简单实现中计算每个网页的PR值时使用的是最原始的方法，即下面的这个公式：PR(pi)=α∑pj∈MpiPR(pj)L(pj)+(1−α)N PR(p_{i}) = \alpha \sum

2016-08-15 22:00:03 3857

原创 PageRank算法--从原理到实现

PageRank 算法标签： PageRank Markov MapReduce本文将介绍PageRank算法的相关内容，具体如下：PageRank 算法算法来源算法原理算法证明PR值计算方法1 幂迭代法2 特征值法3 代数法算法实现1 基于迭代法的简单实现2 MapReduce实现PageRank算法的缺点写在最后参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜

2016-08-15 21:40:46 51693 22

rubinorth的博客