2 DA1YuH

尚未进行身份认证

我要认证

爱学习的小白!

等级
TA的排名 46w+

pycharm中导入Scrapy时出现pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool...的问题

今天在学习用爬虫框架——Scrapy的时候,出现了一个让我头疼的事情。它就是在我安装Scrapy的时候用另外一篇博客的方法出现了这样的报错信息:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out....

2020-02-21 19:07:20

python爬虫——将爬取的数据进行存储

在前面我的博客中,讲了怎么爬取一些简单的数据,但是我们爬取数据的目的是利用和分析这些数据,所以今天我们来试试将这些数据存储起来。目录序言(一) 通过Excel文件进行存储(二) 通过csv文件进行存储序言在将如何将数据存储之前我们必须来了解一个爬虫的过程。爬虫分为:1.获取数据,2.处理数据,3.存储数据。在前面的博客中我们已经完成了前两个步骤,就差对数据的存储部分了。通常我们对数据的存...

2020-02-15 15:46:59

python爬虫——通过API爬取动态网站的数据

在我前面的博客中,通过利用python的requests库和BeautifulSoup库对静态网站进行爬取,但如果遇到动态网站怎么办呢?接下来我们试着通过API来对动态网站进行爬取想要的数据。目录(一) 动态网站和静态网站的区别与robots.txt(二) 爬取QQ音乐——“雨爱”的一页评论(三) 爬取QQ音乐——“雨爱”的多页评论(一) 动态网站和静态网站的区别与robots.txt在爬取...

2020-02-09 18:16:57

python 破解网站反爬虫的两种简单方法

最近在学爬虫时发现许多网站都有自己的反爬虫机制,这让我们没法直接对想要的数据进行爬取,于是了解这种反爬虫机制就会帮助我们找到解决方法。常见的反爬虫机制有判别身份和IP限制两种,下面我们将一一来进行介绍。目录(一) 判别身份(二) IP限制(一) 判别身份首先我们看一个例子,看看到底什么时反爬虫。我们还是以 豆瓣电影榜top250(https://movie.douban.com/top2...

2020-02-07 18:01:11

利用python爬取豆瓣电影榜top250的电影名及其对应网址

python拥有强大的requests库和BeautifulSoup库,通过这两个库就可以对网站数据进行简单的爬取。最近刚自学了一些简单的爬虫知识,下面我将以豆瓣电影榜top250 (https://movie.douban.com/top250)为例子来爬取一些数据。目录(一) 观察网页的构成(二) 对单个网页进行爬取(三) 对整个网站进行爬取(一) 观察网页的构成1. 首先我们用浏览器打...

2020-02-06 18:04:57

关于解决Python中BeautifulSoup4库在PyCharm工具中的导入问题

问题描述:今天在学python数据解析时,需要用到BeautifulSoup4库,但是输入导入库的代码后出现以下的情况:这时发现出现了红色下划线,通过查阅资料,总结出了以下解决问题的办法。目录(一) 确认电脑上是否安装了BeautifulSoup4库(二) 确认pycharm中是否导入BeautifulSoup4库(一) 确认电脑上是否安装了BeautifulSoup4库首先进入命令框...

2020-02-02 18:07:14
勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。