4 二叉叔

尚未进行身份认证

学习过程中以博客记录同时和大家相互学习

等级
TA的排名 12w+

Python爬虫学习笔记(图形验证码的识别)

将验证码图片命名code.jpg放在项目根目录下import tesserocrfrom PIL import Imageimage = Image.open('code.jpg') #打开验证码图片# 模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。image1=image.convert('L') #threshold = 150 #设置...

2020-02-19 17:42:58

Python爬虫学习笔记(无法安装包+CMD使用pip安装的包无法在pycharm中使用)

原因:1.无法安装包往往是因为网络的原因,使用清华镜像安装也不是每次都可以2.pycharm无法使用包:这种情况往往是我们在cmd中使用pip安装包的whl文件时出现,因为网络的原因使用下载的whl文件安装包是一个很好的选择,这里提供另外一种选择以及解决问题的方法解决:安装包:1.从网盘或者博客中搜索对应本机python版本的包的whl文件,打开CMD,cd到保存whl文...

2020-02-19 17:02:08

Python爬虫学习笔记(那段在win10下安装Docker的不堪回首的往事)

“捕鲸”的教训:1.搞计算机的还是尽量用Linux系统吧2.实在不行,下次重装系统请装专业版的Windows3.安装Docker、数据库这类东西最好还是别轻易更改安装路径4.如果你的是Windows家庭版的系统,想用虚拟机,咱还是用Oracle的吧5.因为“墙”的原因,贫穷的秃头程序员访问不了很多技术、资源网站,但是我们要记得,我们有水木清华,我们有马爸爸,我们有很多同病相怜...

2020-02-17 22:37:54

Python爬虫学习笔记(实例:爬取今日头条街拍页面文章中的图片)

import requestsfrom urllib.parse import urlencodefrom requests import codesimport osfrom hashlib import md5from multiprocessing.pool import Poolimport reimport random#注意更换自己浏览器现实的headers和par...

2020-02-16 21:55:43

Python爬虫学习笔记(开发者工具中的Ajax+实例:爬取个人微博主页)

Ajax文件的Type是xhr,点击浏览器的开发者工具中NetWork选项下的XHR就可以筛选出所有的ajax请求,RequestHeader中有一个信息为X-Requestsed-with:XMLHttpRequest,意思代表此请求是ajax请求爬取个人微博主页前10条微博的ID、内容、点赞数、评论数、转发数存入MongoDB数据库from urllib.parse imp...

2020-02-16 21:51:10

Python爬虫学习笔记(实例:Selenium+cookies实现自动登录百度首页)

实现效果:利用selenium添加cookies信息登录百度首页,如果账号没有登录,则首次手动登录账号后去cookies信息写入文件,待浏览器60秒后自动关闭,工程目录下生成cookies.pkl文件,之后再登录百度首页账号自动登录完毕#!coding=utf-8import timefrom selenium import webdriverimport picklecl...

2020-02-16 16:25:57

Python爬虫学习笔记(Redis 存储)

1.连接Redis数据库,设置、读入数据from redis import StrictRedis,ConnectionPoolurl = 'redis://:lj960802@localhost:6379/0' #密码@地址:端口/数据库pool = ConnectionPool.from_url(url)redis =StrictRedis(connection_pool=pool)re...

2020-02-15 21:03:35

Python爬虫学习笔记(安装redis-dump ERROR:While executing gem ... (Gem::RemoteFetcher::FetchError) ****)

背景:windows10 OS 64位 Ruby、gem已经安装完成问题:CMD执行命令:gem install redis-dump 下载中断并报错:While executing gem ... (Gem::RemoteFetcher::FetchError) too many connection resets (https:...

2020-02-15 15:16:24

Python爬虫学习笔记(连接Redis数据库ERROR: Client sent AUTH, but no password is set)

原因:安装的Redis数据库没有设置密码解决方法:进入Redis的安装根目录:找到并双击运行:Redis-x64-3.2.100>redis-cli.exe查看是否设置了密码:127.0.0.1:6379> auth root(error) ERR Client sent AUTH, but no password is set说明没有设置密码,执行命...

2020-02-15 14:17:11

Python爬虫学习笔记(Mysql 存储)

1.连接数据库import pymysqldb = pymysql.connect(host='localhost',user='root',password='lj960802',port=3306) #声明MySQL连接对象dbcursor = db.cursor() #获得MySQL的操作游标,利用游标执行SQL 语句cursor.execute('SELECT VERSION()')...

2020-02-14 22:30:59

Python爬虫学习笔记(Selenium(3))

9.几种等待方式固定等待:time.sleep(seconds)隐式等待:driver.implicitly_wait(seconds)显示等待(推荐):from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui im...

2020-02-13 18:00:10

Python爬虫学习笔记(Selenium(2))

5.执行JS#将进度条拉到底部from selenium import webdriverbrowser = webdriver.Chrome()url = 'https://www.zhihu.com/explore'browser.get(url)browser.execute_script('window.scrollTo(0,document.body.scrollHeight)...

2020-02-13 17:52:16

Python爬虫学习笔记(Selenium(1))

1.基本使用、from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom s...

2020-02-13 17:49:21

Python爬虫学习笔记(创建数据库MySQL数据库ERROR: "Can't create database 'spiders'; databas)

背景:pymysql库创建数据库出错报错:pymysql.err.ProgrammingError: (1007, "Can't create database 'XXXX'; database exists")分析:数据库中已经存在该 数据库,删除该库即可创建实例:import pymysqldb = pymysql.connect(host='loc...

2020-02-11 23:34:55

Python爬虫学习笔记(文件存储:CSV存储)

CSV:以纯文本的形式写入表格数据#写入CSV文件import csvwith open('data.csv','w',encoding='utf-8') as csvFile:writer = csv.writer(csvFile,delimiter=' ') #初始化写入对象,修改列之间的分隔符为空格writer.writerow(['id','name','age'])...

2020-02-11 21:10:29

Python爬虫学习笔记(文件存储:JSON存储)

json内容以字符串的形式存在:import json#json数据以键值对的形式以双引号来包围str ='''[{"name":"Bob","gender":"male","birthday":"1992-10-18"},{"name":"Selina","gender":"female","birthday":"1995-10-18"...

2020-02-11 16:30:31

Python爬虫学习笔记(文件存储:TXT存储)

open()方法常用写入方式:import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = {'authority': 'www.zhihu.com','pragma': 'no-cache','cache-contro...

2020-02-11 16:25:32

Python爬虫学习笔记(字符串转json报错:DecodeError)

报错:json.decoder.JSONDecodeError: Invalid control character************解决:loads()方法中加入strict属性 json.loads(str,strict=False)同时注意:1.str的书写形式 2.JSON数据以键值对的形式用双引号包围实例:impo...

2020-02-11 14:54:32

Python爬虫学习笔记(pyquery)

from pyquery import PyQuery as pqhtml ='''<div id="container"><ul class="list"><li class="item-0">first item</li><li class="item-1"><a href="link2.html">sec...

2020-02-09 17:29:47

Python爬虫学习笔记(BeautifulSoup补充)

from bs4 import BeautifulSoupsoup = BeautifulSoup('<p>Hello</p>','lxml') #添加lxml解析器print(soup.p.string) #获取p标签中的字符 from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #添...

2020-02-09 13:33:23

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周上午根据用户上周周三的博文发布情况由系统自动颁发。