MengDiLI-CSDN博客

原创 pandas常用方法

pandas对于处理表格类数据来说是非常方便的模块，同时也是做数据分析绕不开的第三方库。这里将工作中常用到的各种处理方法记录下来

2023-07-18 15:45:12 400

原创 undetected_chromedriver解决网页被检测

opts = ChromeOptions() opts . add_argument(f'--proxy-server=socks5://127.0.0.1:9050') driver = Chrome(options = opts) driver . get('目标网址')

2023-06-15 09:57:16 7166 3

原创不逆向解决5s盾之cloudscraper

经常写爬虫的同学，肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候，它会返回如下这段文字：Please allow up to 5 seconds… 即使你把 Headers 带完整，使用代理 IP，也会被它发现。

2023-06-15 09:52:39 3690

指纹技术就是通过不同的设备和客户端在参数上的微妙差异来识别用户。本来按照规范，这些值都是应该任意选取的，但是，现实世界中，服务端反而对不同值采取了区别对待。指纹技术可以说应用到了 OSI 网络模型中所有可能的层，基于 HTTP header 顺序的指纹工作在第七层应用层， SSL/TLS 指纹工作在传输层和应用层之间，TCP 指纹在第四层传输层。而在 TCP 之下的 IP 层和物理层，因为建立的不是端到端的链路，所以只能收集上一跳的指纹，没有任何意义。

2023-06-14 18:06:08 1530

原创某网站cookie反爬记录

最近做城投项目时候遇到一个问题，就是一个代码写好不动，我只操作页面，运行出来的结果却是页面上显示的内容。这就导致了我不能按自己的需求抓取指定模块的内容。

2023-06-14 17:52:39 497

原创如何优雅的写try...except....嵌套

我在工作中因为经常需要正则解析大量结构不一的文本，所有异常捕获用的非常频繁，甚至需要深层嵌套才能完成最终提取，所以写出的异常捕获代码异常难看，大概类似于这种吧。。。。因为深受其害，后来百般寻找解决办法，还真让我找到了可行方案。总体思想就是将所有可能性通过循环的方式捕获异常，测试例子大概是这样：def a(): print(name_a)def b(): # print(name_b) aaa = 123 return aaadef c(): prin

2022-04-22 10:53:05 348

原创 python 批量移动文件

import osdef remove_file(): target_dir= r'./docx文件新' if not os.path.exists(target_dir): os.makedirs(target_dir) old_dir = os.getcwd() + '/docx文件旧' for root, dirs, files in os.walk(old_dir): for file in files: #

2021-03-05 16:37:20 250

原创格式化headers，正则替换key:value到‘key’:‘value‘,

选择regex，将（.*?):(.*)替换为'$1':'$2',之后可以ctrl+alt+l，进行代码美化

2020-12-16 10:05:35 863

原创将doc、docx文件转为pdf

from win32com import client as wcimport os# 将doc转pdfdef get_pdf(): # doc文档对象 w = wc.Dispatch('Word.Application') file_dir = 'D:/需要转换的文件夹路径' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs)

2020-08-21 10:06:23 828

原创 css笔记

2020-07-29 10:23:22 98

原创使用Beautifulsoup解析网页遇到的问题

今天遇到一个网页，按往常的老办法soup = BeautifulSoup(content, 'lxml')打印soup发现少了很多数据，刚开始还以为反爬，后来经过验证不是。、那么就是解析问题，我换成了soup = BeautifulSoup(content, 'xml')打印发现我想要的那块成功出现了，但是对比整个网页发现，其实还是有一些没有显示出来的，不管他，时间紧任务重，得过且过。后来进入详情页，发现又显示不全了。中间试了xpath等各种解析手段，还是显示不出来。最后还是继续使用bs4

2020-07-07 11:08:56 1958 1

原创时间转换

字符串类型转时间类型date = datetime.datetime.strptime(data1,'%Y-%m-%d')#获取当前时间 now=datetime.datetime.now()获取当日时间now = datetime.date.today() # 获取时间间隔 jg = now - end_date jg_days = jg.days...

2020-06-18 15:31:16 178

原创关于python爬虫post请求

今天搞爬虫代码，明明能找到post请求网址，以及请求需要带的参数，但是写到代码里就是不行运行结果却出了问题后面找到了问题只需要将data数据json格式化一下结果完美收工

2020-06-05 18:06:42 624

原创 python 爬取doc文档

doc_href='https://resource.lzbank.com:18106/cportalFileServer/files//site/doc/pc/20201/12021/goods/20200521172408609syj8FsHJ.doc'conten=requests.get(doc_href).content with open('D:\爬取doc\doc\\1.doc','wb')as f: f.write(conten)另外，python没法直接处理doc

2020-05-26 14:42:06 1726

原创 python代码中写sql语句的模糊查询

db = pymysql.connect(host="127.0.0.1", user="root", password="", db="demo", port=3306,charset='utf8')cur = db.cursor(cursor=pymysql.cursors.DictCursor)cur.execute('select * from demo_table where cp_name like "%%%s%%" and yh_name="云南红塔银行"' % cp_name)res

2020-05-22 11:04:30 1591

原创推荐一个在线格式化显示json网址

因为疫情，在家呆了很久，也失业了，emmmmm。。。。刚找到工作，公司老人给我推荐了一个json格式化显示网址https://json.cn复制想要显示的json文本内容放到位置1，位置2会自动显示json样式，方便数据的查看...

2020-04-15 15:37:44 1061

原创 python使用Beautiful定位时，标签内的属性不是正经属性的定位方法

今天做爬虫定位标签时，遇到了这样一个问题我需要通过data-region_id这个属性值来跟他的上级区域对应。当我使用它定位时很明显，这个属性值不是正经属性值，不能像id，class这些用法一样。后来想想，虽然它不是正经属性值，但它确实是属性值，只不过不正经。那就用对待不正经的属性值的方法使用title=soup.find('div',id='title')area= soup.f...

2020-01-07 16:11:38 262

原创天猫商品详情爬取（以及评论信息）

今天试了下爬取天猫，没系统写，只是看了下每页各种数据怎么获取。其中商品列表页出现了点问题，记录一下。如果直接用从列表页拿到的链接请求的话，最后得出来的结果是没有价格信息的，其他到没注意最后各种试，发现要从页面中取出另一个js链接，这个链接返回的数据是有价格信息的import requestsurl='https://mdskip.taobao.com/core/initItem...

2020-01-05 11:54:35 5310 8

原创大众点评文字反爬破解

我刚开始就是这么干的，但是最后发现，这个网页渲染不是用了三四个字体文件吗，结果在不同文件里，‘e605’代表的不只是我，一个文件里‘e605’代表‘我’，可能另一个文件里会是‘你’，‘他’。前面写了58同城的字体反爬，这几天又跟大众点评的文字反爬杠上了，多方查找，各种踩坑，好多文章是之前的解决办法，大众已经更改了反爬方式，好在磕磕绊绊终于是搞定了。好了，这就算初步完成了。这样一来，我们可以先根据其中一个文件，手动写出字体与编码的对应关系，然后其他文件来了，我们就可以根据对比x,y,on值推出它对应的字体。

2020-01-04 17:47:52 1198

原创 python使用replace做多字符替换

如果需要替换的字符比较少，我们可以直接写出来，但是多的话，就要用for循环了

2020-01-03 15:59:29 8098 4

原创 python爬虫进程池，线程池，异步，的使用

也就是说本文使用的多进程，多线程，异步爬虫，适合没有顺序要求的爬取需求，比如你爬取楼盘网，哪个楼盘信息先入库其实问题不大吧。本文章爬取的小说放在了一个文件里，所以使用多进程，多线程，异步，会导致文章顺序不对。简直可以用恐怖形容，当然这里我们没有规定最大请求数，而进程和线程我们都限制了10条，但是异步请求的速度还是真的可观。任务量多的时候可以考虑使用，因为任务多，值得我们搞一些稳定的代理，也就不担心速度快被封了。但是打印顺序是乱的，其实很好理解，有的进程跑得慢，有的进程跑得快。

2019-12-27 09:59:22 1033

原创 python两列表对应元素求和

一种方法是循环，但是有简便方法，用numpyimport numpy as nplist1=[1,2,3,4]list2=[1,2,3,4]a_array = np.array(list1)b_array = np.array(list2)c_arry=a_array+b_arrayprint(c_arry)列表中的数字是字符串形式的话import numpy as np...

2019-12-26 14:49:49 7993

原创 python爬虫破解简单的字体反爬

这两天一直在看字体反爬方面的文章，现在难一点的还没摸清怎么搞，但是58的品牌公寓的字体反爬相对简单一些，已经自己做出来了，特此记下来，也可以帮刚在这方面入门的小伙伴更快熟悉起来。整体代码我会在文末发出来。话不多说，开始正题打开58公寓的页面，链接点这里页面是这样的打开调试可以看到源码是乱码的用代码跑出来之后，是这样的很明显的，出现了字体反爬。一般这种反爬，网页文件里是会有他们自...

2019-12-25 17:50:34 896

原创 python打开xml文件并转为Beautiful格式

from xml.dom.minidom import parseimport xml.dom.minidom#打开xml文档dom = xml.dom.minidom.parse('newmy.xml')#转为字符串collection = dom.documentElement.toxml()print(type(collection))#转Beautifulsoup=Beau...

2019-12-25 14:09:29 144

原创 python的全文检索库Whoosh使用示例

pip install whoosh首先，我有一个xiaoshuo文件夹，装了几部小说直接上代码：首先是创建索引的文件from whoosh.filedb.filestore import FileStoragefrom whoosh.fields import *from jieba.analyse import ChineseAnalyzerimport osanaly...

2019-12-14 15:54:00 1932 1

原创批量取文件

file_dir='G:/2017年更新2018年楼盘/' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs) # 当前路径下所有子目录 # print(files) # 当前路径下所有非目录子文件 for x...

2019-12-14 15:35:21 136 1

原创 python爬虫重试模块

from retrying import retry@ retry(stop_max_attempt_number = 10) #让被装饰的函数反复执行10次，10次全部报错才会报错，中间有一次正常就继续往下走def get_url(): pass...

2019-12-06 11:38:59 197 1

原创使用anaconda新建各种python版本虚拟运行环境（附pycharm设置运行环境）笔记

下载地址：https://www.anaconda.com/download/安装包下载下来之后，点击安装，自己定义选择安装到哪里，之后一路next到这里，就按他默认的这样不动。因为第一个是加环境变量，选择的话后面会有不少麻烦，后面咱们手动添加。第二个意思是默认使用python3.7然后耐心等待，中间电脑可能有提示木马修改啥的，全部允许了最后装好后配置环境变量配置好后打开命令行输入c...

2019-12-06 10:27:18 5328 4

原创图片文字识别各种方法比较

网上有很多种图片文字识别方法，我这选了几种，做下比较代码在这：import tesserocrfrom PIL import Imageimport pytesseractdef a(): #这是一种办法,使用tesserocr image=Image.open('xxx.jpg') result=tesserocr.image_to_text(image) ...

2019-11-30 11:18:47 1607

原创 python使用pyqt5自制成语接龙

前段时间看了下pyqt5，还写了个计算器玩玩，python使用pyqt5制作计算器，前面也写过一个成语接龙的小程序，自制成语接龙。就想着把他俩结合一下，做个有界面的成语接龙玩玩。代码如下：首先是chengyu.py，这个文件是界面文件（chengyu.ui）转出来的，看我上篇[python使用pyqt5制作计算器]这篇文章就知道怎么弄得了，不想知道怎么弄也没关系，直接创建一个chengyu.p...

2019-11-29 10:14:04 650

原创 python使用pyqt5制作计算器

这两天看pyqt5了，这个模块可以用来制作桌面软件，自己试着做了个计算器，这里记录一下。安装：pip install PyQt5安装完成继续安装PyQt5-toolspip install PyQt5-tools然后配置pycharm点击：File -》Settings-》Tools -》 External Tools -》点击“+”号我的配置过了，所以下面显示的有Qt Desi...

2019-11-27 18:39:38 6997 6

原创 pip install使用镜像

例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests，这样就会从清华这边的镜像去安装requests库

2019-11-23 13:46:45 3785

原创使用selenium运行chrom无头浏览器(不显示界面)

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')driver = webdriver.Chrome(chrome_options = ch...

2019-11-20 14:30:30 4027

原创爬取小说并在手机上看

昨天女友说她在手机APP软件上看的一部小说到某一章看不了了，是vip章节，我在电脑浏览器上搜了下发现网页上是有全本的，都能看。她说网页广告多，啥都有，一不小心就点进去了，很是麻烦。我想，爬下来吧。。。很简单的小爬虫，网站也没有啥反爬，加个头就好了。主要记录的是怎么能在手机上看这个坑。我刚开始是把每一章作为一个txt文件存储的但是发现这样虽然看起来很清楚，但是传到手机上之后，用看书软件打开，...

2019-11-13 11:56:23 2130

原创给女朋友推送睡前小故事

没错，还是我，我有女朋友上一篇写了推送天气的，但是未免太单调，来个推送睡前小故事这次用的是这个网站http://www.tom61.com/ertongwenxue/shuiqiangushi/index_2.html，这个网站需要用一丢丢爬虫知识首先，得到列表页所有故事的url，还有长度，也就是多少个故事def get_list(): headers = { ...

2019-11-08 11:48:12 751

原创给女朋友推送天气

没错，我有女朋友使用的是和风天气的接口网址是https://dev.heweather.com/进网站之后点右上角注册注册好之后登陆到网站，进入‘控制台点击应用管理，创建一个应用然后新建应用，我创建的是web端的，其他创建方法详见https://dev.heweather.com/docs/getting-started/get-api-key。应用名称自己随便写个，test之类的...

2019-11-08 11:03:33 3397

原创识别图中文字

from PIL import Imageimport pytesseracttxt = pytesseract.image_to_string('pingjia.png', lang='chi_sim')print(txt)print('*'*50)#二值化然后转灰度图像def c(): image = Image.open('pingjia.png') imag...

2019-10-30 15:04:39 152

原创用flask-restful搭建超级简单的http服务

今天来用flask做一个很简单的http服务首先安装要用到的模块pip install flaskpip install flask-restful这是我的脚本结构：废话不多说，直接上代码：一，服务端代码：# -*- coding:utf8 -*-from flask import Flask, jsonifyfrom flask_restful import reqpars...

2019-10-30 14:06:16 2584 2

异步重试（支持异步重试）

空空如也