自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 用代理爬取boss直聘(很费代理)

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-23 21:20:51 1063

原创 利用selenium模拟浏览器登录豆瓣并且自动识别验证码(在需要验证码登录的情况下)

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 20:44:46 723

原创 利用多进程爬取西刺代理并检测是否可用记录时间

import requestsfrom lxml import etreeimport timeimport multiprocessing# 耗时 84.26855897903442 5(pool最大次数)# 耗时 44.181687355041504 10# 耗时 29.013262033462524 20# 耗时 22.825448036193848 ...

2018-08-21 20:44:08 199

原创 爬取西刺代理检测代理是否可用并记录时间

import requestsfrom lxml import etreeimport time# 424.13342022895813def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-08-21 20:39:07 755

原创 利用进程池下载有声小说

import requestsfrom urllib import requestimport multiprocessingfrom multiprocessing import Queue, Pooldef download_url(url_name): (src,name)=url_name print(name + '正在下载') request.url...

2018-08-20 21:05:33 234

原创 获取腾讯社会招聘的职位信息

import requestsfrom lxml import etreeimport pymysqlclass mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self.cursor = self.db.cur...

2018-08-19 22:07:52 475

原创 爬取知乎某个用户的参与的问题讨论及回答

import requestsfor i in range(1,21): # 数据api url = 'https://www.zhihu.com/api/v4/members/leedaye/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Can...

2018-08-19 22:05:05 1117

原创 利用xpath爬取5i5j租房信息 并保存到数据库

import requestsfrom lxml import etreeimport timefrom urllib import requestimport pymysqlclass MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','****...

2018-08-18 21:44:36 989 1

原创 利用xpath爬取lianjia租房信息 并保存到数据库

import requestsfrom lxml import etreeimport timeimport pymysqlclass MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','******','wang') self.cu...

2018-08-17 21:59:16 902

原创 爬取jinritoutiao街拍图片并且进行文件存储

import reimport requestsimport jsonimport osimport timefrom urllib import requestfor i in range(1,4): url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%...

2018-08-16 22:47:13 471

原创 把电影天堂的最新电影名称和观看链接存储到数据库(所有页)

import requestsimport jsonimport reimport timeimport pymysql# 连接数据库class mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self....

2018-08-16 22:01:42 2390

原创 使用高匿代理访问西刺代理(假如ip被封可用高匿ip访问网站)

import requestsurl='http://www.xicidaili.com'#代理池proxy = { 'http':'http://140.205.222.3:80'}headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...

2018-08-15 21:40:27 8537

原创 把雪球网房产信息前三页存储到MySQL数据库

#第一页链接# https://xueqiu.com/v4/statuses/public_timeline_by_category.json?# since_id=-1&max_id=-1&count=10&category=111#第二页链接# https://xueqiu.com/v4/statuses/public_timeline_by_category....

2018-08-15 21:28:42 150

原创 利用cookie模拟renren网登录(无验证码)

import jsonfrom urllib import request,parsefrom http import cookiejar#定义cookie保存的对象cookie_object = cookiejar.CookieJar()handler = request.HTTPCookieProcessor(cookie_object)opener = request.bui...

2018-08-14 21:24:19 211

原创 完善get和post方式爬取网页 增加cookie可模拟登录

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorfrom http import cookiejarclass session(object): def __init__(self): #保存cookie cookie_object = cooki...

2018-08-14 20:45:40 1619

原创 把get和post方式爬取网页进行函数封装

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorimport json#get方式def get(url,headers=None): return urlrequest(url,headers=headers)#post方式def post(url,form,heade...

2018-08-13 21:45:43 512

转载 session和cookie的区别

session和cookie的区别:1、Cookie和Session都是会话技术,Cookie是运行在客户端,Session是运行在服务器端。 2、Cookie有大小限制以及浏览器在存cookie的个数也有限制,Session是没有大小限制和服务器的内存大小有关。 3、Cookie有安全隐患,通过拦截或本地文件找得到你的cookie后可以进行攻击。 4、Session是保存在服务器端上会...

2018-08-13 19:38:53 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除