3 TheSkies

尚未进行身份认证

暂无相关简介

等级
TA的排名 28w+

用代理爬取boss直聘(很费代理)

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-23 21:20:51

利用selenium模拟浏览器登录豆瓣并且自动识别验证码(在需要验证码登录的情况下)

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 20:44:46

利用多进程爬取西刺代理并检测是否可用记录时间

import requestsfrom lxml import etreeimport timeimport multiprocessing# 耗时 84.26855897903442 5(pool最大次数)# 耗时 44.181687355041504 10# 耗时 29.013262033462524 20# 耗时 22.825448036193848 ...

2018-08-21 20:44:08

爬取西刺代理检测代理是否可用并记录时间

import requestsfrom lxml import etreeimport time# 424.13342022895813def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-08-21 20:39:07

利用进程池下载有声小说

import requestsfrom urllib import requestimport multiprocessingfrom multiprocessing import Queue, Pooldef download_url(url_name): (src,name)=url_name print(name + '正在下载') request.url...

2018-08-20 21:05:33

获取腾讯社会招聘的职位信息

import requestsfrom lxml import etreeimport pymysqlclass mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self.cursor = self.db.cur...

2018-08-19 22:07:52

爬取知乎某个用户的参与的问题讨论及回答

import requestsfor i in range(1,21): # 数据api url = 'https://www.zhihu.com/api/v4/members/leedaye/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Can...

2018-08-19 22:05:05

利用xpath爬取5i5j租房信息 并保存到数据库

import requestsfrom lxml import etreeimport timefrom urllib import requestimport pymysqlclass MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','****...

2018-08-18 21:44:36

利用xpath爬取lianjia租房信息 并保存到数据库

import requestsfrom lxml import etreeimport timeimport pymysqlclass MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','******','wang') self.cu...

2018-08-17 21:59:16

利用xpath下载图片

import requestsimport osimport timefrom urllib import requestfrom lxml import etreefor k in range(1,121): url = 'http://www.mzitu.com/xinggan/page/%s/'%k headers = { 'Accept': ...

2018-08-17 21:56:19

爬取jinritoutiao街拍图片并且进行文件存储

import reimport requestsimport jsonimport osimport timefrom urllib import requestfor i in range(1,4): url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%...

2018-08-16 22:47:13

把电影天堂的最新电影名称和观看链接存储到数据库(所有页)

import requestsimport jsonimport reimport timeimport pymysql# 连接数据库class mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self....

2018-08-16 22:01:42

使用高匿代理访问西刺代理(假如ip被封可用高匿ip访问网站)

import requestsurl='http://www.xicidaili.com'#代理池proxy = { 'http':'http://140.205.222.3:80'}headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...

2018-08-15 21:40:27

把雪球网房产信息前三页存储到MySQL数据库

#第一页链接# https://xueqiu.com/v4/statuses/public_timeline_by_category.json?# since_id=-1&max_id=-1&count=10&category=111#第二页链接# https://xueqiu.com/v4/statuses/public_timeline_by_category....

2018-08-15 21:28:42

利用cookie模拟renren网登录(无验证码)

import jsonfrom urllib import request,parsefrom http import cookiejar#定义cookie保存的对象cookie_object = cookiejar.CookieJar()handler = request.HTTPCookieProcessor(cookie_object)opener = request.bui...

2018-08-14 21:24:19

完善get和post方式爬取网页 增加cookie可模拟登录

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorfrom http import cookiejarclass session(object): def __init__(self): #保存cookie cookie_object = cooki...

2018-08-14 20:45:40

把get和post方式爬取网页进行函数封装

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorimport json#get方式def get(url,headers=None): return urlrequest(url,headers=headers)#post方式def post(url,form,heade...

2018-08-13 21:45:43

session和cookie的区别

session和cookie的区别:1、Cookie和Session都是会话技术,Cookie是运行在客户端,Session是运行在服务器端。 2、Cookie有大小限制以及浏览器在存cookie的个数也有限制,Session是没有大小限制和服务器的内存大小有关。 3、Cookie有安全隐患,通过拦截或本地文件找得到你的cookie后可以进行攻击。 4、Session是保存在服务器端上会...

2018-08-13 19:38:53
勋章 我的勋章
    暂无奖章