锦荣z-CSDN博客

原创 Python爬虫学习( 四 )——Ajax数据爬取

Python之Ajax数据爬取引言有时候我们在用requests抓取网页的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的数据都是原始的HTML文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的来源有很多种，可能是通过 Ajax 加载的，可能是包含在 HTML 文档中的，也可能是经过 JavaScript 和特定算法计算后生成的。对于第一种情况，

2021-01-21 16:27:01 708 2

原创 Python爬虫学习( 三 )——代理

Python爬虫学习( 三 )——代理代理的基本原理我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫就可能出现错误。比如403 Forbidden——服务器拒绝此请求，那时候打开网页一看，可能会看到" 您的IP访问频率太高 "这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封IP。既

2021-01-08 10:44:21 348

原创 Python爬虫学习( 二 )——会话和Cookies

Python爬虫学习( 二 )Python爬虫的基本原理我们可以把互联网比作一张大网，而爬虫( 即网络爬虫 )便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。爬虫概述简单来说，爬虫就是获取页面并提取和保存信息的自动化程序。 1

2021-01-07 21:34:31 448 2

原创 Python爬虫学习( 一 )——请求和响应

Python爬虫学习( 一 )Web大致有三层客户端：访问远程网站；服务端：为网站和Web API 提供数据；Web API 和服务：用另一种不同于可视化网页的方式来交换数据。互联网最底层的网络传输使用的是：传输控制协议 / 因特网协议，更常用的叫法是TCP/IP。TCP/IP 因特网是基于规则的，这些规则定义了如何创建连接、交换数据、中止连接、处理超时等，这些规则被称为协议。它们被分布在不同的层中，分层的目的是兼容多种实现方法，你可以在某一层中做任何想做的事情，只要遵循上一个

2021-01-07 19:06:38 2860 9

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人