2 咖啡或浮云

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 10w+

Scrapy-Redis分布式爬虫组件

Scrapy-Redis介绍Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。分布式爬虫的优点:可以充分利用多台机器的带宽;可以充分利用多台机器的ip地址...

2019-07-19 09:29:11

scrapy的下载器中间件及配置文件

Downloader Middlewares(下载器中间件)下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。一个是process_request(self,request,spider),这个方法是在请求发送之前会执行,还有一个是process_response(self,request,...

2019-07-17 17:03:52

Scrapy Shell 和 Request、Response对象

Scrapy ShellScrapy提供了一个shell,用来方便的测试规则。当然也不仅仅局限于这一个功能。打开Scrapy Shell开cmd终端,进入到Scrapy项目所在的目录,然后进入到scrapy框架所在的虚拟环境中,输入命令scrapy shell [链接]。就会进入到scrapy的shell环境中。在这个环境中,你可以跟在爬虫的parse方法中一样使用了。Request对象...

2019-07-16 08:36:20

CrawlSpider模板

CrawlSpider的功能只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是在之前的基础之上增加了新的功能,可以定义爬取的url的规则,以后scrapy碰到满足条件的url都进行爬取,而不用手动的yield Request。创建CrawlSpider爬虫如果想要创建CrawlSpider...

2019-06-14 19:00:37

Scrapy基础

Scrapy框架架构什么是Scrapy框架scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy架构图各模块的功能:...

2019-06-07 09:55:59

selenium+chromdriver获取AJAX数据

注:本文参考了网易云知了课堂课件笔记。AJAX定义AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的...

2019-06-03 17:52:47

MongoDB数据库操作

什么是MongoDB数据库MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据...

2019-05-13 10:07:14

json、csv文本处理

json概念及支持的数据格式JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。...

2019-04-29 09:31:00

xpath语法与lxml库

什么是XPathxpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具1.Chrome插件XPath Helper。2. Firefox插件Try XPath。XPath语法选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规...

2019-04-20 10:59:48

UDP协议

什么是UDPUDP 是User Datagram Protocol的简称, 中文名是用户数据报协议,是OSI(Open System Interconnection,开放式系统互联) 参考模型中一种无连接的传输层协议,提供面向事务的简单不可靠信息传送服务。UDP的特点无连接不可靠UDP协议责任1.创建进程到进程间的通信(由端口号完成)2.有限的差错控制,出现差错悄悄丢弃报文...

2019-04-01 16:12:44

TCP 协议

传输层协议作用1.分段及封装应用层送来的数据2.提供端到端的传输服务3.在发送主机与接收主机之间构建逻辑通信4.包括两个协议:1)TCP2)UDP怎样提供的逻辑通信:两台主机进程间通信条件本地主机(IP地址定义)本地进程(端口定义)远程主机(IP地址定义)远程进程(端口定义)端口范围熟知端口(著名端口):0-1023,由ICANN指派注册端口:1024-49151...

2019-04-01 11:20:46

ICMP互联网控制协议

IP的缺点1.无差错报告和差错纠正机制2.缺少一种为主机和管理查询的机制ICMP的概念ICMP是(Internet Control Message Protocol)Internet控制报文协议。它是TCP/IP协议簇的一个子协议,用于在IP主机、路由器之间传递控制消息。控制消息是指网络通不通、主机是否可达、路由是否可用等网络本身的消息。这些控制消息虽然并不传输用户数据,但是对于用户数据...

2019-03-28 11:07:37

IP、ARP

网络层协议1.IP协议2.ARP协议3.RARP协议4.ICMP协议IP协议IP协议是将多个包交换网络连接起来,它在源地址和目的地址之间传送一种称之为数据包的东西,它还提供对数据大小的重新组装功能,以适应不同网络对包大小的要求。功能:寻址和路由传递服务(不可靠,可靠性由上层协议提供;无连接)数据报分段和重组下面是IP报文格式:IP报文的首部大小为20~60字节,其中固定部...

2019-03-27 17:22:18

TCP/IP协议簇简要概述及网络接口层

TCP/IP体系结构可分为四个层次第4层:应用层服务于Telnet、ftp、Smtp等,负责处理特定的应用程序细节。第3层:传输层包括TCP和UDP,TCP是一个可靠的面向连接的协议,保障某一主机的字节流准确无误地投递到互联网上的另一台主机;UDP是无连接的服务,无重发和纠错功能,不保证数据的可靠传输。第2层:网络层包括IP、ICM和IGMP,也称互联层,其主要的任务是路径选择,...

2019-03-23 16:53:25

网络通信协议的概念及OSI参考模型

一 网络协议的概念网络协议:计算机网络和分布系统中互相通信的对等实体之间交换信息时必须遵守的规则的集合网络体系结构:指通信系统的整体设计方法,是计算机之间相互通信的层次、以及各层中协议和层次之间接口的集合,它为网络硬件、软件、协议、存取控制和网络拓扑提供标准SNA:IBM公司独立开发的适合自己公司的网络体系结构,System Network ArchitectureDNA:DEC公司独立...

2019-03-23 09:44:37

Django写个人博客

环境搭建创建虚拟环境:conda create -n Blog python==3.6进入虚拟环境并安装django:source activate Blogpip install django==1.10用命令创建一个BlogProject的django项目:django-admin startproject BlogProject打开BlogProject:设置环境项目的...

2019-03-07 19:26:18

Django 图书-英雄

环境创建创建虚拟环境:conda create -n django python==3.6进入环境:source activate django安装Django:pip install Django ==1.10创建Django工程:数据库迁移(文件数据库):python manage.py makemigrationspython manage.py migrate运行D...

2018-11-17 20:49:50

常用Flask的插件bootstrap wtf sqlalchemy migrate及script

flask_bootstrap如何在flask中使用Boostrap?要想在程序中集成Bootstrap,显然要对模板做所有必要的改动。不过,更简单的方法是使用一个名为Flask-Bootstrap 的Flask 扩展,简化集成的过程。Flask-Bootstrap 使用pip安装:pip install flask_bootstrapFlask 扩展一般都在创建程序实例时初始化,...

2018-11-01 13:54:52

基于Flask与Mariadb实现任务清单管理

目标本项目将学习 Mariadb 作为数据库后端,Bootstrap 作为前端的技术栈,并实现一个清单应用。从中我们可以学习 Flask Web 应用框架,及 Mariadb 关系型数据库和 BootStrap web开发框架。项目介绍本应用修改自 TodoMVC 的 todo list 应用,使用 Mariadb 作为数据库后端,Bootstrap 作为前端的 Flask 应用。先给它起个...

2018-10-26 22:56:07

Flask框架及jinja2引擎模版

什么是Flask框架?Flask是一个使用 Python 编写的轻量级 Web 应用框架。

2018-10-26 19:58:59

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。