2 殇夜07

尚未进行身份认证

im

等级
TA的排名 5w+

反爬虫策略总结

反爬策略1.最常见的ip检测,ua检测2.cookie检测3.需要登陆,又衍生各种出登陆验证,图片验证码,滑块等4.参数加密:包括请求参数加密和返回数据加密。大致分为两大块:js加密及css反扒js加密需要进行js逆向解析,常见有rsa,aes,des,md5,base64及一些自定义加密:如字符串置换css反爬包含css字体反爬(如大众点评,猫眼电...

2019-10-16 10:38:16

爬虫碰到请求参数无法正常显示问题

比如电信的fiddler抓到的包,username值是四个框框,不是明文。可以在网页源码里查找:<metahttp-equiv="Content-Type"content="text/html;charset=gbk">发现是gbk编码在搜索username参数(就像分析js刚开始搜索参数一样),会找到:最后postdata时:reci...

2019-09-10 16:55:08

fiddler保存请求头,url 到本地txt文件

打开fiddler--->Rooles--->CustomizeRules如果提示没有下载FiddlerScriptEditor则按提示下载后进入下一步操作安装好FiddlerScriptEditor后,就能打开CustomizeRules.js文件打开CustomizeRules.js文件后,在OnBeforeRequest函数里添加如下方法:...

2019-09-06 15:09:29

appium 使用

安装教程:使用步骤:1、手机用数据线连接电脑2、选择文件夹方式连接3、手机打开usb调试并允许4、电脑命令行查看是否连接成功,>adbdevices出现Listofdevicesattachedf431d9device说明连接成功5、打开appium桌面版点击startserver。。出现[Appium]...

2019-09-05 17:23:48

指定线程数的方式实现python多线程

#coding=utf-8importthreading,time#1、自己写代码实现defget_detail_video(vid):print('-->',vid)time.sleep(2)ths=[]foriinrange(10):th=threading.Thread(target=get_detail_vi...

2019-09-05 16:29:46

json.loads()报错处理

#coding=utf-8importjson,rea='''{"bulletAttributes":["A-linesilhouettewitharelaxedfit.","Highwaisted.","Hitsattheuppercalf.","Modelis5'9"(176cm),sizeS,wearingaregularGaps...

2019-08-29 11:56:39

分布式爬虫管理框架

ScrapydGitHub:https://github.com/scrapy/scrapydGerapyGitHub:https://github.com/Gerapy/Gerapy推荐链接:https://cuiqingcai.com/4959.html

2019-08-28 14:14:19

xpath 获取某个标签下的所有子节点

//div[@class="main"]//span[@id="address"]//d|//e或者//div[@class="main"]//span[@id="address"]/*

2019-08-28 10:31:59

python定时任务

原文:https://www.cnblogs.com/wanglinjie/p/9286323.htmlimportschedule2importtime34deftest():5print("I'mworking...")6deftest2():7print("I'mworking...injob2")8...

2019-08-27 12:00:01

大众点评爬虫方案

因本人写的pdf文档,懒得再这里重写一遍,就放个百度云链接把包含svg矢量图和字体两种方案,字体里又包含两种解析方案链接:https://pan.baidu.com/s/1BYqTzyY0qWCWxKOOrMwtog提取码:12gt有不对的地方,还请指教!!!若提示提取码过期,请留言...

2019-08-22 16:46:47

汉字生成woff字体文件

#coding=utf-8importcodecsfromfontToolsimportunichr#生成所有汉字信息#start,end=(0x4E00,0x9FA5)#汉字u编码范围16进制的#withcodecs.open("chinese.txt","wb",encoding="utf-8")asf:#forcodep...

2019-08-22 10:43:37

自定义字体文件解析成人眼可识别文字

#coding=utf-8fromfontTools.ttLibimportTTFontfromPILimportImage,ImageDraw,ImageFont#绘制图片importnumpy,os,platformimportpytesseract#文字识别库,这个包的安装还需要安装tesseract.exe,可以网上搜教程#coding=...

2019-08-21 16:18:52

python读取字体文件,转成xml并解析xml数据

#coding=utf-8fromfontTools.ttLibimportTTFontworld=TTFont('898a472b.woff')#读取响应的映射关系uni_list=world['cmap'].tables[0].ttFont.getGlyphOrder()#'cmap'表示汉字对应的映射为unicode编码print(uni_list)...

2019-08-20 18:52:36

python实现拍拍贷 rsa 加密 及 python普通rsa加密方式

普通加密方式之一:#coding=utf-8importrsaimportbinascii,base64#使用网页中获得的n和e值,将明文加密defrsa_encrypt(rsa_n,rsa_e,pwd):#用n值和e值生成公钥key=rsa.PublicKey(rsa_n,rsa_e)print('key=',key)...

2019-08-19 17:07:48

python获取指定日期内的所有日期,所有月份

#coding=utf-8importdatetimefromdatetimeimporttimedeltadefgen_dates(b_date,days):day=timedelta(days=1)#print(day)foriinrange(days):#print(b_date+day*i)...

2019-08-16 10:46:55

爬虫加密参数:一号店 登陆密码 rsa加密调试

入口地址:https://passport.yhd.com/passport/login_input.dovarnavigator={};varwindow=this;varJSEncryptExports={};(function(a6){vardQ;vardg=244837814094590;vardE=((dg&16777215)...

2019-08-15 18:02:48

charles抓包参数格式化输出

新建个00.txt文件,直接复制粘贴进去,然后运行,结果就是像个字典样式的输出,再复制粘贴到代码里,省的一行行手动添加引号,都好啥的。datas=open('00.txt','r',encoding='utf-8')datas=datas.readlines()print('{')fordataindatas:print('"%s":"%s",'%...

2019-08-15 10:52:13

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置

转载:静觅»[Python3网络爬虫开发实战]7.3-Splash负载均衡配置原文地址:https://cuiqingcai.com/5654.html用Splash做页面抓取时,如果爬取的量非常大,任务非常多,用一个Splash服务来处理的话,未免压力太大了,此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理,可以减小单个Splas...

2019-08-13 15:40:40

转载:常见加密方式和Python实现

原文地址:https://www.jianshu.com/p/4ba20afacce21.前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示:#方法...

2019-08-08 10:35:03

爬虫遇到另类js加密(自己实现加密算法的js)之图文教程

https://passport.kongzhong.com/

2019-08-06 18:25:48

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。