- 博客(5)
- 收藏
- 关注
原创 pycharm中导入Scrapy时出现pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool...的问题
今天在学习用爬虫框架——Scrapy的时候,出现了一个让我头疼的事情。它就是在我安装Scrapy的时候用另外一篇博客的方法出现了这样的报错信息:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out....
2020-02-21 19:07:20 535
原创 python爬虫——将爬取的数据进行存储
在前面我的博客中,讲了怎么爬取一些简单的数据,但是我们爬取数据的目的是利用和分析这些数据,所以今天我们来试试将这些数据存储起来。目录序言(一) 通过Excel文件进行存储(二) 通过csv文件进行存储序言在将如何将数据存储之前我们必须来了解一个爬虫的过程。爬虫分为:1.获取数据,2.处理数据,3.存储数据。在前面的博客中我们已经完成了前两个步骤,就差对数据的存储部分了。通常我们对数据的存...
2020-02-15 15:46:59 2641
原创 python爬虫——通过API爬取动态网站的数据
在我前面的博客中,通过利用python的requests库和BeautifulSoup库对静态网站进行爬取,但如果遇到动态网站怎么办呢?接下来我们试着通过API来对动态网站进行爬取想要的数据。目录(一) 动态网站和静态网站的区别与robots.txt(二) 爬取QQ音乐——“雨爱”的一页评论(三) 爬取QQ音乐——“雨爱”的多页评论(一) 动态网站和静态网站的区别与robots.txt在爬取...
2020-02-09 18:16:57 6766 4
原创 python 破解网站反爬虫的两种简单方法
最近在学爬虫时发现许多网站都有自己的反爬虫机制,这让我们没法直接对想要的数据进行爬取,于是了解这种反爬虫机制就会帮助我们找到解决方法。常见的反爬虫机制有判别身份和IP限制两种,下面我们将一一来进行介绍。目录(一) 判别身份(二) IP限制(一) 判别身份首先我们看一个例子,看看到底什么时反爬虫。我们还是以 豆瓣电影榜top250(https://movie.douban.com/top2...
2020-02-07 18:01:11 4596 2
原创 关于解决Python中BeautifulSoup4库在PyCharm工具中的导入问题
问题描述:今天在学python数据解析时,需要用到BeautifulSoup4库,但是输入导入库的代码后出现以下的情况:这时发现出现了红色下划线,通过查阅资料,总结出了以下解决问题的办法。目录(一) 确认电脑上是否安装了BeautifulSoup4库(二) 确认pycharm中是否导入BeautifulSoup4库(一) 确认电脑上是否安装了BeautifulSoup4库首先进入命令框...
2020-02-02 18:07:14 3789 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人