自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 关于Fiddler打开抓不到任何一个包的问题【已解决】

之前使用fiddler抓包都没有任何问题,过了一段时间再次打开就发现无法抓包的问题。打开fiddler只有一个fiddler自家的检查更新的请求,还是502。一开始以为是证书的问题,或者版本太老的问题

2022-08-04 11:02:35 1476

原创 关于python使用win32com生成word文档目录

最近在做一个数据分析项目,涉及到生成word文档。py在操作word这一块使用的是python-docx,但是我看了官方文档,发现这个模块并不能生成目录。在查了一些资料后发现win32com能够解决这个问题使用win32com生成word目录需要搭配微软的.Net api使用,地址:(https://docs.microsoft.com/zh-cn/office/vba/api/word.document)代码:def update_toc(docx_file): # word路径 wo

2021-03-15 16:57:47 1676 7

原创 解决windows使用pytesseract的几个BUG(tesseract.exe is not installed or it's not in your PATH)

正常安装pytesseract时没有任何问题的,但是在真正使用的时候就会报错:pytesseract.pytesseract.TesseractNotFoundError: tesseract.exe is not installed or it's not in your PATHpytesseract未安装或者不在指定路径,百度了一大堆,说什么要添加路径:tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe.

2020-05-09 16:11:10 777

原创 PyQt5 +requests 写一个能播放全网音乐的播放器

先展示一下界面:在界面美化这一块参考的是‘州的先生’大佬的文章:https://zmister.com/archives/477.html 感兴趣的朋友可以去看看,参考了大佬的界面布局和美化,在他的基础上做了些许的改动在界面布局这一块采用的是Qtdesigner:整体布局产用的两个widget来分开左右布局简单贴一些界面优化的代码Form.setWindowOpacity(0.9)...

2020-05-06 10:36:30 873

原创 使用selenium控制浏览器实现自动指定文件夹下载app

前两天帮一个朋友写了个自动下载app的脚本,发现了一个问题:在网上找的配置谷歌浏览器下载文件的代码中:prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'd:\\'}大多数人都是使用这样的配置,但是由于我也不知道什么东西的改版导致这个方法行不通,需要自己选择下载路径。后...

2020-03-02 11:39:57 539

原创 python定时启动多个爬虫,解决(twisted.internet.error.ReactorNotRestartable)报错

最开始是使用commands方法启动的多个爬虫,但是这种方法在使用定时任务的时候会出现只能跑一次的情况from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settingsclass Command(ScrapyCommand): requires_project...

2020-01-14 17:57:19 3762 1

原创 Json.loads()报错('gbk' codec can't encode character '\u0161'),解决字符串有大量转义的问题

在爬取数据的时候发现有大量转义字符:https:\/\/img.abiosgaming.com\/flags\/然后使用 json.loads(response.text)就会报错:UnicodeEncodeError: 'gbk' codec can't encode character '\u0161' in position 60388: illegal multibyte sequ...

2020-01-08 14:45:55 1113

原创 Scrapy框架初始化请求为POST的两种方法

Scrapy框架初始化请求为POST的一些坑第一次碰到scrapy框架第一个请求为post,找到的两种方法,记录一下第一种是使用携带 method='POST' 的方法:yield scrapy.FormRequest(url='https://*****************', method='POST', formdata={'Type': 'UpComing,Live'}, cal...

2019-12-26 17:29:51 589

原创 scrapy 爬网站 显示 Filtered offsite request to 错误

在用scrapy框架爬取某些网站碰到需要提取ajax请求的json数据时,可能会出现url不在允许的域名范围内,这个时候就会出现下面这种错误:Filtered offsite request to 'xxxxxxxx'这个时候只需要停掉过滤功能就好了:yield scrapy.Request( url=url2, callb...

2019-12-12 18:07:46 252 1

原创 scrapy中的yield scrapy.Request 在传递item 的注意点

在用scrapy框架的时候在很多情况下会出现要爬取一个列表页面和一个详情页面的情况,这个时候通常会使用yield 来发起一个请求,并通过 callback 参数为这个请求添加回调函数,在请求完成之后会将响应作为参数传递给回调函数,但在我们传递item的时候会出现一些问题:在需要多次调用下面这个parse_detail() 方法的时候,会出现获取到最后一个item的情况,而且是循环调用最后一个,...

2019-12-10 11:29:38 2943 5

原创 Scrapy框架启动多个爬虫的方法

有的时候在抓取过程中可能会出现同一个网站相同数据在不同url里有不同爬取方法的情况,所以这个时候需要编写多个爬虫,最开始是使用cmdline.execute(“scrapy crawl spider1”.split()) 启动爬虫,但发现用这种方法执行多个最后真正抓取的只有第二个。from scrapy import cmdlinecmdline.execute("scrapy crawl ...

2019-12-10 11:09:52 1072

原创 python爬虫解决timed out 的几种方法

python爬虫解决timed out 的几种方法在请求量比较大,目标网站承重量有限的情况下可能会出现下面这种报错:Max retries exceeded with url : … Connection to www.xxxx timed out 一开始想着增加timeout的大小,但后来发现这样不仅降低了爬取速度,而且并不能有效的解决这种问题,后来在看了看别人...

2019-12-10 10:11:47 10039

某猫直播源获取(房间号).py

有什么想问的可以留言,其实也挺简单,只要抓包抓对了就没什么问题

2019-12-20

某牙直播源获取(直播链接).py

有什么想问的可以留言,其实特别简单,加密的东西存放在HTML页面里面,如何加密未知

2019-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除