7 young-hz

尚未进行身份认证

人生好比一场70年代的拳击比赛,充满了躲闪与出拳,如果足够幸运,只需一次机会一个重拳而已。但首要条件是,你必须顽强地站着,挺住意味着一切。

等级
TA的排名 2k+

已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy

1.代码升级之前的问题:随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,甚至错误。关于这个问题,我总结之后在scrapy-redis库中提了出来并开了issue和作者做了

2014-09-07 16:19:31

关于提高效率的几点

有些时候感觉一直没闲着却没看见多少成果。突然看见

2014-08-21 20:36:45

关于CSDN几点用户体验较差的功能(收藏夹和草稿箱)

1. 收藏夹不去重。同一专栏或博客每点一次“收藏”都会增加到收藏夹中。收藏内容一般有两种形式:(1)专栏收藏。(2)博客文章收藏。对于前者,虽然专栏的文章数量可能是不断在增加的,但是专栏地址是不变的。后者类似。由于收藏是以“标题+链接”形式实现的。那么通过文章/专栏地址进行去重是可达到的。2. 草稿箱编辑不方便。CSDN博文的保存是通过按钮“立即保存”实现的,好像没

2014-08-17 21:53:44

程序员能力矩阵

注意:每个层次的知识都是渐增的,位于层次n,也蕴涵了你需了解所有低于层次n的知识。计算机科学 Computer Science 2n (Level 0)n2 (Level 1)n (Level 2)log(n) (Level 3)Comments数据结构不知道数组和链表的差异能够解释和使用数

2014-08-05 12:30:55

一淘搜索之网页抓取系统分析与实现(4)- 实现&总结

以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有:1. 分布式crawler与分布式pipeline处理。使用scrapy+redis实现,用到了scrapy+scrapy-redis。关于自己相关代码也在fork的repo做了探索与实现。2. j

2014-07-30 20:19:23

资料整理

scrapy:(1)http://my.oschina.net/u/1024140/blog/

2014-07-28 15:00:48

一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django

结构图scrapy+webkit:如结构图③。scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapy+webkit的使用后期进行分析。scrapy+django:如结构图④。django实现的配置界面主要是对抓取系统的管理和配置,

2014-07-28 11:42:58

一淘搜索之网页抓取系统分析与实现(2)—redis + scrapy

1.scrapy+redis使用(1)应用这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图(2)为什么选择redisredis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓取系统分析与实现(1)——redis使用》(url)中关于redis的分析。2.redis

2014-07-28 11:36:38

一淘搜索之网页抓取系统分析与实现(1)—redis使用

原创文章,链接:1.redis使用(1)应用redis在抓取系统中主要承担两方面的责任,其一是作为链接存储数据库,其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(url)”中阐述。(2)为什么选择redisredis的特性体现在“内存数据库”和“KV”存储方式上,前者决定其性能,后者决定其存储内容的易于组织性。reidis的使

2014-07-28 11:31:08

怎样编写scrapy扩展

原创文章,链接:在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。

2014-07-28 11:14:19

scrapy-redis源码分析

原创文章,链接:(I) connection.py负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。(II) dupefilter.py负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe

2014-07-28 11:02:33

scrapy爬取深度设置

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。如图:

2014-07-28 10:55:05

数据分析站点导航

中文互联网数据资料来源 平台机构易观国际互联网信息中心淘宝数据平台百度数据研究中心艾瑞咨询电子商务研究中心IDC中国百度数据中心计世资讯互联网数据中心智库数据梅

2014-07-26 10:30:44

scrapy-redis实现爬虫分布式爬取分析与实现

一 scrapy-redis实现分布式爬取分析所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来

2014-07-24 20:21:19

升级scrapy-redis代码,使与更新版本scrapy兼容

scrapy-redis的安装要求是scrapy版本高于0.14,是

2014-07-24 16:59:34

redis研究笔记

一. redisRedis is an in-memory database that persists on disk. The data model is key-value, but many different kind of values are supported: Strings, Lists, Sets, Sorted Sets, Hashes http

2014-07-24 08:07:58

小米开源

作为一款Android系的产品,小米手机天然具有开源的基因。小米的MIUI系统,被认为是利用开源Android操作系统的成功典范。最新的小米路由器,也使用了路由器端著名的开源OpenWRT系统。除此之外,小米在日志框架、服务框架、HTTP Web框架、消息队列、搜索、分布式缓存、存储业务、监控报警、数据处理等多个领域,都使用了开源技术。小米首席架构师崔宝秋在谈到“开源”的时候曾说:“拥抱开

2014-07-23 10:23:01

scrapy-redis实现scrapy分布式爬取分析

(1)在“http://www.zhihu.com/question/20899988”中,提到的:“那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢?我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,那么回顾上面代码中的url_queue,如果我们能把这个queue放到这台master机器上,

2014-07-22 20:19:51

使用Git分支协同开发

原创,文章链接:大型软件项目开发中,多分支的使用不仅能够并行开发多模块任务,也避免了Bug修正时引入新功能代码或是误删Bug代码造成以修复问题重现,更清晰的‘组织’项目的开发。新建的分支一般都属于以下三个范畴内:发布分支(Bugfix分支)、特性分支和卖主分支。 一、发布分支发布分支主要用作对之前提交代码的Bug修正,使修正过程和主线功能开发能够并行开展。 二、特性分支

2014-07-19 18:44:43

智能指针tr1::shared_ptr、boost::shared_ptr使用

对于tr1::shared_ptr在安装vs同时会自带安装,但是版本较低的不存在。而boost作为tr1的实现品,包含“AlgorithmsBroken Compiler WorkaroundsConcurrent ProgrammingContainersCorrectness and TestingData StructuresDomain SpecificFu

2014-07-19 17:57:29

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!