自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Python爬虫学习( 四 )——Ajax数据爬取

Python之Ajax数据爬取引言​ 有时候我们在用requests抓取网页的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。​ 这是因为requests获取的数据都是原始的HTML文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有很多种,可能是通过 Ajax 加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。​ 对于第一种情况,

2021-01-21 16:27:01 708 2

原创 Python爬虫学习( 三 )——代理

Python爬虫学习( 三 )——代理代理的基本原理​ 我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫就可能出现错误。​ 比如403 Forbidden——服务器拒绝此请求,那时候打开网页一看,可能会看到" 您的IP访问频率太高 "这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。​ 比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。​ 既

2021-01-08 10:44:21 348

原创 Python爬虫学习( 二 )——会话和Cookies

Python爬虫学习( 二 )Python爬虫的基本原理​ 我们可以把互联网比作一张大网,而爬虫( 即网络爬虫 )便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫概述​ 简单来说,爬虫就是获取页面并提取和保存信息的自动化程序。​ 1

2021-01-07 21:34:31 448 2

原创 Python爬虫学习( 一 )——请求和响应

Python爬虫学习( 一 )Web大致有三层客户端:访问远程网站;服务端:为网站和Web API 提供数据;Web API 和服务:用另一种不同于可视化网页的方式来交换数据。互联网最底层的网络传输使用的是:传输控制协议 / 因特网协议,更常用的叫法是TCP/IP。TCP/IP​ 因特网是基于规则的,这些规则定义了如何创建连接、交换数据、中止连接、处理超时等,这些规则被称为协议。​ 它们被分布在不同的层中,分层的目的是兼容多种实现方法,你可以在某一层中做任何想做的事情,只要遵循上一个

2021-01-07 19:06:38 2860 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除