自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 原生爬虫

from urllib import requestfrom io import BytesIOimport gzipimport re#断点调试:F5:进入断点调试 F11:单步执行程序 F5:跳到下一个断点 F11:进入到函数内部 class Spider(): url = 'http

2020-11-16 23:07:11 114

原创 python爬虫小案例

1、豆瓣网美剧电影评分爬取from parse import parse_urlimport jsonclass DoubanSpider: def __init__(self): self.temp_url = "https://movie.douban.com/j/search_subjects?type=movie&tag=欧美&sort=recommend&page_limit=20&page_start={}" def ge

2020-11-15 21:40:28 297

原创 数据提取方法

##数据提取方法##json-数据交换格式,看起来像python类型(列表、字典)的字符串-使用json之前需要导入(import json)-哪里会返回json的数据-浏览器切换成手机版-抓包app-json.loads(“json字符串”)-把json字符串转化为python类型-json.dumps-把python类型转化成json字符串-json.dumps({“a”:a})-json.dumps(ret,ensure_ascii=False,indent=2) -ensu

2020-11-15 21:36:42 291

原创 requests模块学习笔记

1、request模块的徐诶西安装:pip install requests###发送get、post请求、获取响应–response = requests.get(url) #发送get请求,请求url地址对应的响应–response = requests。post(url, data={请求的字典} ##发送post请求###response的方法-response.text-该方式往往会出现乱码,出现乱码使用response.conding=“utf-8”–response.conte

2020-11-15 21:35:34 338

原创 python爬虫基础知识与软件准备

1、什么是爬虫爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序模拟客户端(浏览器)发送网络请求:照着浏览器发送一模一样的请求、获取和浏览器一模一样的数据2、爬虫的书去哪儿呈现出来:展示在网页上,或者展示在app上进行分析:从数据中寻找一些规律3、需要的软件和环境python3-基础语法(字符串、列表、字典、判断和循环)-函数(函数的创建和调用)-面向对象–编辑器:pycharm–浏览器:chrome-----分析网络请求用4、浏览器的请求–url-在c

2020-11-15 21:30:39 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除