asdfqwersdv3we-CSDN博客

原创 python爬虫之汽车之家论坛帖子内容爬取

Datawhale爬虫第五期 Day7实战项目：汽车之家车型论坛帖子信息作为国内目前第一大汽车论坛，反爬虫很恶心，中间很多坑。新手，第一次搞这么复杂的爬虫，前期没有排查，都是遇到坑的时候再返回一个一个解决。直接开始requests，没几次就遇到了302跳转上代理，之前自己写爬的免费代理经常罢工，还慢，直接买的代。def get_proxie(): url = 'http...

2019-03-07 16:10:44 3011 1

原创 python 利用selenium登陆网易邮箱

Datawhale爬虫第五期 Day2任务要求：使用selenium模拟登陆163邮箱要点：switch_toalert ——返回浏览器的Alert对象，可对浏览器alert、confirm、prompt框操作default_content() ——切到主文frame(frame_reference) ——切到某个framparent_frame() ——切到父framwin...

2019-03-05 16:54:11 270

原创利用xpath爬丁香园论坛帖子的所有回复内容

from lxml import etreeimport requestsdef get_html(url, headers): response = requests.get(url, headers = headers) try: if response.status_code == 200: return response.tex...

2019-03-04 16:51:21 280

原创利用BeautifulSoup爬丁香园论坛帖子的所有回复内容

Datawhale爬虫第五期 Day3文档： https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/import requestsfrom bs4 import BeautifulSoup as bsdef get_soup(): headers = { 'User-Agent': 'Mozilla...

2019-03-03 21:07:57 249

原创利用正则表达式爬豆瓣电影 TOP250

Datawhale爬虫第五期 Day2正则表达式：http://www.runoob.com/regexp/regexp-tutorial.htmlimport requests, re#豆瓣网会验证headers中User-Agentheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit...

2019-03-02 23:21:41 440

原创 python爬虫requests库get/post请求

Datawhale爬虫第五期 Day1文档：http://docs.python-requests.org/zh_CN/latest/index.html1. 学习get与post请求，requests or urllibget请求get请求直接访问目标网址，不需要带参数。post请求要向服务器上传（发送）表单的数据时，post传递一个字典。#导入requests库 ...

2019-02-28 21:56:01 244

电影类PHP源码，单电影或单电视剧

经典电影类PHP源码，可做单站，站群。任选，2014年优秀源码。

2015-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人