自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 程序是什么

学了几个月了,终于意识到了数据结构与算法的重要性程序就是数据结构+算法啥是算法算法就是解决问题的方法,编程就是用代码解决一些现实中的问题的算法入门练习可以去洛谷刷题啥是数据结构数据结构就比较深了,由最基础的顺序表引出链表,链表又引出树,树又引出图,这个自学的话,看视频推荐可以在哔哩哔哩搜索python数据结构,链接:https://www.bilibili.com/video/av21...

2020-01-16 01:20:43 258

原创 爬取微博话题

最近微博上有一个比较火的话题,叫做耳机对当代人有多重要,很是感兴趣但是刷微博这种事情,太耽误学习了,那又想刷微博又想学习,该怎么办那不如这样吧,写个爬虫,print每条评论,这样我就可以一边敲代码,时不时的看看打印,这多香啊本次实战数据清洗部分极其恶心,我使用的数据库是mysql,那评论里又有很多特殊符号,特殊符号还好,使用mysql的utf8mb4还是可以处理的,但表情就实在是难住我了,...

2020-01-16 00:44:40 2188

原创 爬取知乎所有专栏文章

由于难度不高,且自己练手,所以没写多少注释,我大致说下思路一般来说爬取一个网站就是那么几步走1.先使用浏览器逛一逛想爬取的网站,找找规律2.直接发一个傻瓜式请求,试一下能不能获取到想要的数据,万一就得到了呢3.不行的话,换一下请求头中的User-Agent字段这边推荐大家一个模块 – fake_useragent安装: pip install fake_useragent 直接使用p...

2020-01-16 00:24:39 1702

原创 自己做一个增量式爬虫

增量式爬虫一.概念顾名思义,增量,也就是增加数量,但是是在原有基础上增加数量,也就是说自动甄别重复数据,只爬取网站最新更新的数据二.应用场景增量式爬虫的应用场景还是挺多的,例如一些新闻网站,时时刻刻都在更新,那么为了保证每次运行程序都不会爬取已经采集过的信息,就需要使用增量式爬虫的思路了爬虫以采集数据为目的,所以只要符合增量式的思想就好了,至于实现方法有好多种,这里我使用比较简单的方法,...

2020-01-15 23:44:31 511

原创 搭建一个简易的ip池

最近在学习爬虫,经常会因为频繁访问,而导致ip被封的情况,为了解决这个问题,自己做一个ip池来为爬虫提供代理ip实现思路自动爬取ip并存入数据库每五分钟爬取一些新的ip来填充ip池每十分钟自动检测数据库中现存的这些ip哪些依然存活,哪些已经死亡,将死掉的ip从数据库清理掉采用多线程串行,去不同的网页抓取ip并测试工具与环境win10 PyCharm Requests代码中的...

2020-01-15 21:51:46 955

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除