8 豆约翰

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 13w+

Python爬虫系列教程08之Scrapy爬虫框架进阶

配套视频教程配套视频教程scrapy调试通常,运行scrapy爬虫的方式是在命令行输入scrapy crawl <spider_name>,调试的常用方式是在命令行输入scrapy shell <url_name>。总的来说,调试方法比较单一。其实,还有两种调试方法,可以在pycharm中实现调试。1.使用scrapy.cmdline的execute方法首先,在项目文件scrapy.cfg的同级建立main.py文件(注意,必须是同级建立),在其中键入如下代码:from

2020-10-23 10:49:26

Python爬虫系列教程07之初识Scrapy爬虫框架

配套视频教程配套视频教程概览在具体的学习scrapy之前,我们先对scrapy的架构做一个简单的了解,之后所有的内容都是基于此架构实现的,在初学阶段只需要简单的了解即可,之后的学习中,你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。###基本组件引擎(Engine)引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler)调度器从引擎接受request并将他们入队,以便之后

2020-10-23 10:48:38

Python爬虫系列教程06之使用selenium爬取动态页面

Selenium的使用selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,例如 点击 下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见既可爬。对于一些js动态渲染的页面来说,此种爬取方式非常有效。安装selenium安装:python的Selenium库pip install selenium验证:python命令行 import selenium无报错信息表示安装成功安装Google浏览器并配置ChromeDriver点击Google菜单 帮助 -&

2020-10-23 10:47:03

Python爬虫系列教程05之通过PyQuery提取网页数据

配套视频教程配套视频教程pyquery简介:同样是一个强大的网页解析工具 它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便安装:pip install pyquerypyquery基本用法pip install pyquery1.初始化字符串初始化html = '''<div> <ul> <li class="item-0">first item</li>

2020-10-23 10:46:05

Python爬虫系列教程04之通过Xpath解析网页数据

配套视频教程配套视频教程全称 XML Path Language 是一门在XML文档中 查找信息的语言 最初是用来搜寻XML文档的 但是它同样适用于HTML文档的搜索XPath 的选择功能十分强大,它提供了非常简洁的路径选择表达式,另外还提供了超过100个内置函数,用于字符串,数值,时间的匹配以及节点和序列的处理XPath 于1999年11月16日成为W3C标准 被设计为供XSLT、XPointer、以及其它XML解析软件使用常用节点选择工具Chrome插件 XPath Helper(下载cr

2020-10-23 10:44:57

Python爬虫系列教程03通过正则表达式解析网页数据

配套视频教程配套视频教程正则表达式简介正则表达式(处理字符串强大的工具,有特定的语法结构)功能:实现字符串的检索,替换,匹配验证常用匹配方法match() 从字符串起始位置匹配正则表达式,如果匹配,就返回匹配成功结果如果不匹配,就返回None。参数1 正则表达式 参数2 要匹配的字符串import recontent = 'Hello 123 4567 World_This is a Regex Demo'print(len(content))result = re.matc

2020-10-23 10:43:20

Python爬虫系列教程02之Json数据解析

配套视频教程配套视频教程数据提取什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 数据分类非结构化数据: html , 文本等 处理方法:正则表达式,xpath语法2.结构化数据:json,xml等 处理方法:转换为python数据类型复习JSON知识JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据

2020-10-23 10:41:57

Python爬虫系列教程01之requests库的使用

配套视频教程配套视频教程Requests概述:让 HTTP 服务人类Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。Requests库的优势Requests 允许你发送纯天然,植物饲养的 HTTP/1.1 请求,无需手工劳动。你不需要手动为 URL 添加查询字串,也不需要对 POST 数据进行表单编码。Keep-alive 和 HTTP 连接池的功能是 100% 自动化的,一切动力都来自于根植在 Requests 内部的 urllib3。为什么使用Req

2020-10-23 10:40:16

11.Python异常处理

异常的概念程序在运行时,如果 Python 解释器 遇到 到一个错误,会停止程序的执行,并且提示一些错误信息,这就是 异常程序停止执行并且提示错误信息 这个动作,我们通常称之为:抛出(raise)异常程序开发时,很难将 所有的特殊情况 都处理的面面俱到,通过 异常捕获 可以针对突发事件做集中的处理,从而保证程序的 稳定性和健壮性一段代码:num = int(input("请输入数字:"))print('hello')如果我们输入非数字,输出:请输入数字:sTraceback (m

2020-10-21 11:23:02

10.Python面向对象编程

类和对象万物皆对象分类是人们认识世界的一个很自然的过程,在日常生活中会不自觉地将对象进行进行分类对象归类类是抽象的概念,仅仅是模板比如说:“人”对象是一个你能够看得到、摸得着的具体实体:赵本山,刘德华,赵丽颖举例user1 = 'zhangsan'print(type(user1))user2 = 'lisi'print(type(user2))输出<class 'str'><class 'str'>以上str是类(python中的字符串

2020-10-08 16:07:08

09.Python之函数

函数是实现某个特定功能的代码块的集合:一、认识函数1.使用函数的好处:(1) 分而治之:通过函数将程序分一个个小模块,如果代码出现了问题调试起来要容易得多,否则写在一个代码块里会很麻烦(2) 代码复用:反复使用某一功能的代码,不需要进行多次书写,大大减少代码量(3) 可读性强:分开成多个小的代码块可读性强(4) 代码的封装:使用函数的用户不需要了解方法实现的细节,可以直接使用方法2. 使用函数的例子通过函数实现两个数的加减乘除def get_add_result(num01,num02):

2020-10-08 15:51:04

08.Python之对变量的再认识

变量引用人们经常使用“变量是盒子”这样的比喻,但是这有碍于理解面向对象语言中的引用式变量。Python 变量类似于 Java 中的引用式变量,因此最好把它们理解为附加在对象上的标注或便签。在示例中所示的交互式控制台中,无法使用“变量是盒子”做解释。示意图说明了在 Python 中为什么不能使用盒子比喻,而便签则指出了变量的正确工作方式。示例 变量 a 和 b 引用同一个列表,而不是那个列表的副本>>> a = [1, 2, 3]>

2020-10-08 15:48:27

07.Python字典和集合

一、Set 集合的概念1. set 集合的性质set 集合是一组无序的且不能重复的集合,打印 set 集合时会自动消除重复的元素项;set 集合用大括号表示;set 集合存储的时候就是无序的,它不支持通过索引的方式进行访问;set 集合在初始化时的顺序与打印出来时的顺序是不一样的;set01 = {11,22,33,44,55}2. set 集合存储的原理set 集合在存储的时候,先把元素转为哈希值,哈希值是顺序存储的,哈希算法是用来判断两个对象是否是同一个;3. 创键 set 集合的

2020-10-08 15:46:32

06.Python字符串

一、字符串基本操作方法(1)字符串,使用单引号、双引号都可以(2)取字符串中的字符,如果从前往后取,第一个字符下标为 0,逐一加一;如果从后往前取,最后一个下标是-1,往前逐一减一。(3)长字符串使用续航符号,反斜杠\,在行尾可以直接按回车使用续航符;或者使用""" """注释符号,可以保留长字符串的样式,保留了其中的空格与回车。(4)转义字符:具有特殊意义的带反斜杠的字符标记;取消转义:在字符串双引号或者单引号之前加r或者R,使其原样输出,取消转义的功能。(5)获取字符串的长度:使用len()方

2020-10-08 15:45:01

05.Python列表和元组

一、List 列表的概念List 列表—一组有序、可变的数据集合;我们可以通过 List 列表的索引编号(位置编码)来访问列表中的元素;集合中的任何一个元素,称为集合的元素或者成员;同一个列表集合中可以同时存储数字、字符、字符串,甚至包含另一个 List;创建 List 列表的方法有两种:(1)创建的时候直接复制list01 = [100,90,80,70](2)创建空 list 然后插入list01 = []list01.append(100)list01.append(90)

2020-10-08 15:42:37

04.Python分支与循环

条件语句Python 条件语句跟其他语言基本一致的,都是通过一条或多条语句的执行结果( True 或者 False )来决定执行的代码块。Python 程序语言指定任何非 0 和非空(None)值为 True,0 或者 None为 False。if 语句的基本形式Python 中,if 语句的基本形式如下:if 判断条件: 执行语句……else: 执行语句……前面也提到过,Python 语言有着严格的缩进要求,因此这里也需要注意缩进,也不要少写了冒号 :&nbsp

2020-10-08 15:41:18

03.Python之运算符

算数运算符是完成基本的算术运算使用的符号,用来处理四则运算运算符描述实例+加10 + 20 = 30-减10 - 20 = -10*乘10 * 20 = 200/除10 / 20 = 0.5//取整除返回除法的整数部分(商) 9 // 2 输出结果 4%取余数返回除法的余数 9 % 2 = 1**幂又称次方、乘方,2 ** 3 = 8例题:输入一个三位数,返回每个位置的数字num01 = input("请输

2020-10-08 15:40:15

02.Python变量_标识符_关键字

变量定义在 Python 中,每个变量 在使用前都必须赋值,变量 赋值以后 该变量 才会被创建等号(=)用来给变量赋值= 左边是一个变量名= 右边是存储在变量中的值变量名 = 值实例1—— 学生注册# 定义变量---学生学号studentNo = "9527"# 定义变量---学生密码stuentPassword = "123"# 在程序中,如果要输出变量的内容,需要使用 print 函数print(studentNo)print(stuentPassword).

2020-10-08 15:38:49

01.Python简介及开发环境搭建

Python的诞生Python的作者是著名的“龟叔”Guido van Rossum,1989年,龟叔为了打发无聊的圣诞节,开始编写Python语言。1991年,第一个Python编译器诞生。它是用C语言实现的,并能够调用C语言的库文件。荣登2018年TIOBE年度最佳编程语言,很多大公司,包括google、Yahoo都大量的使用Python。提升自己的逼格,你需要了解Python的发音与拼写Python的意思是蟒蛇,是取自英国20世纪70年代首播的电视喜剧《蒙提.派森干的飞行马戏团》(

2020-10-08 15:37:31

Java零基础系列教程11Java类和对象练习之扑克模拟

配套视频教程本文B站配套视频教程任务目的0.培养编程思维,提高分析问题能力1.掌握类的抽象与设计2.掌握循环,分支条件的用法3.掌握各种集合类的使用(Map,List,Set)任务描述1.定义一个单张扑克类(考虑需要哪些属性),定义一个一副扑克牌类,该类包含一个单张扑克对象的数组(不考虑大小王)。实现一个模拟扑克发牌洗牌的算法;2.电脑随机发出5张牌,判断是以下哪种牌型?(提示,利用Map,List,Set等各种集合的特性可以简化判断)任务注意事项请注意代码风格的整齐、优雅代

2020-10-01 12:38:04

查看更多

勋章 我的勋章
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。