自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 今日头条as和cp参数破解!

网址:https://www.toutiao.com/打开网址,抓包分析之后,数据在这个页面中:查看webView之后,发现有三个参数:需要去解决。先来试试不传这三个参数分别是什么情况?奇怪的发现,没有这个参数,也是可以拿到结果的,那我们要解决的就只有as和cp参数了。看到这个,是不是会以为这个as是个定值?下面那个框才是真正的值。跟着断点进...

2019-11-22 15:59:37 964

原创 python3中关于mysql的数据库连接池

配置:host = '127.0.0.1'port = '3306'user = 'root'password = '****'db_name = 'dbutils_lianxi'代码如下:#!/usr/bin/env python# -*- coding:utf-8 -*-import pymysql, os, configparserfrom pymysql.cu...

2019-05-05 14:50:00 1013 1

原创 跟师傅学习的那点事儿--爬虫JS解密练习。

目标网站:https://www.icgoo.net/search/?partno=AD620&qty=1&tdsourcetag=s_pcqq_aiomsg要获取这个网页的信息。先来分析网页机构:所需要的信息在:拿出编译器,requests.get()发现没有这个信息。怎么办?打开fiddler,进行抓包。找到信息所在的请求。发现类似的请求,特...

2019-03-14 17:29:43 1187 4

原创 上传本地项目到gitlab代码仓库

1、创建项目2、配置公钥cd ~/.ssh如果为空,则创建公钥(mkdir ~/.ssh)然后cd ~/.ssh通过ls -l查看SSH目录,如果为空,生成密钥。如果存在如下文件,说明你以前创建过了。ssh-keygen -t rsa -C "你注册gitlab的email地址"生成之后,找到你的密钥地址,我的在:/c/Users/Administrator/....

2019-02-18 15:04:44 1498

原创 Ssms.exe

C:\Program Files (x86)\Microsoft SQL Server\110\Tools\Binn\ManagementStudio\Ssms.exe

2021-11-23 15:42:10 695 1

原创 挑选幸运数!

从列表中挑选出来出现次数和数字大小相同的数~~~arr = [3, 5, 2, 5, 3, 5, 1, 2, 5, 8, 5, 3]f = set(arr) # set 过滤m = map(arr.count, f) # map 函数是把第二个参数以第一个的参数的规则依次去执行, 生成器只能用依次就会自动销毁z = zip(f, m) ...

2020-04-03 17:50:26 338

原创 请求延迟产生的__cfduid参数和cf_clearance参数解决思路

网址:https://www.ixian.cn/thread-1703333-1-1.html抓包之后,数据逻辑分析如下:数据在这个请求当中,需要的参数值:jschl_answer,jschl_vc,pass,r,其中jschl_vc,pass,r,三个参数在第一个503请求中有返回,直接拿来用即可。然后剩余一个参数:jschl_answer可以看到这个a的值即...

2020-01-15 16:54:02 3073 3

原创 ImportError: libSM.so.6: cannot open shared object file: No such file or directory

sudo yum install libXext libSM libXrender

2020-01-10 13:14:39 199

原创 将xlsx文件以列表的形式输出。

def excel_to_list(data_file, sheet): data_list = [] # 新建个空列表,来乘装所有的数据 wb = xlrd.open_workbook(data_file) # 打开excel sh = wb.sheet_by_name(sheet) # 获取工作簿 header = sh.row_values(0) #...

2019-12-31 14:31:25 326

原创 xposed+justTrustMe在逍遥模拟器上的安装配置

下载xposed框架下载网址:https://xposed.appkg.com/nav模拟器中安装即可,安装成功之后重启一下。justTrustMe安装下载链接:https://github.com/Fuzion24/JustTrustMe/releases打开xposed之后,找到模块选项,选中即可。重启模拟器,ok。...

2019-12-17 13:20:48 2262

原创 python切割txt文件

将数万行的txt文件切割为每个txt文件2万行的:def cut_txt(): # 计数器 flag = 0 # 文件名 name = 1 # 存放数据 dataList = [] with open('taskId.txt', 'r', encoding='utf-8') as fp_source: for line ...

2019-12-05 11:16:55 1077

原创 新浪微博的协议登录

网址:https://www.weibo.com/登录的请求直接抓包获取,当点击登录的时候,提交了这样一个请求:其中su是base64加密的账号,sp是加密的密码。这个请求是点击登录之后出现的,追溯进去看看密码和账号是如何产生的。鼠标放上去,可以看到这是我们输入的账号密码以及验证码。继续追进去:到了这里便能够发现一点有用的东西了,账号和密码加密都在这里。...

2019-11-29 13:46:52 1766

原创 记一次滑块验证码协议通过的经历

网址:https://my.ztgame.com/plugin/pwd然后来看一下这个滑块验证码是如何通过的。打开F12:当我把滑块拉到这个位置的时候,产生了一次请求:请求返回的内容如下:jQuery112309196920250839282_1574913077019({"code":0,"token":"1npfs7s1a68cf2bf3g06vzmp7gjfz06...

2019-11-28 13:25:54 1969

原创 使用LabelImg报错:ZeroDivisionError: float division by zero

出现这一问题的场景:在对滑块验证码的缺口进行标注的时候,报这个错,后来发现是因为滑块缺口的背景是透明的导致的。解决办法:使用cv2模块重新覆盖一次即可:def retry_save(): files = os.listdir('图片目所在文件夹') for file in files: img_name = 图片的目录 img = ...

2019-11-27 17:13:46 1434

原创 linux系统下安装chrome和chromedriver驱动

今天帮助小姐姐安装一番环境,以作记录。1.chromeyum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm2.安装必要的库yum install mesa-libOSMesa-devel gnu-free-sans-fonts wqy-zenhei-fonts...

2019-11-25 20:10:08 1537

原创 如何删除本地git所有仓库

git branch 显示本地所有分支git init 初始化本地版本库ls -a 显示所有目录,并且找到目录下的.git文件rm -rf .git 删除

2019-10-21 13:41:21 1196

原创 在windows服务器上为项目创建虚拟环境

1.安装python链接:https://www.python.org/getit/下载适合自己的版本,进行安装即可。2.上传项目3.安装virtualenvpip install virtualenv4.进入项目根目录virtualenv venv5.激活虚拟环境进入venv/Scripts文件夹中使用activate启动虚拟环境即可。6.安装依赖包...

2019-10-16 14:49:23 572 1

原创 cookie中__jsl_clearance参数的破解。

在爬取网站的时候遇见了这个参数很无解。详细内容如下:__jsluid_h; __jsl_clearance在请求详情页的时候需要这两个参数作为cookie的值。但是第一个__jsluid_h我可以在上一个请求中直接获取,因为此值在上一个请求头中的set-Cookie字段中会产生,拿回来做对比之后再做简单的处理即可直接使用。第二个__jsl_clearance如果不添加的话会一直...

2019-09-10 17:18:26 2710

原创 mongo中用python建立唯一索引

client = pymongo.MongoClient(host='localhost', port=27017) # 连接db = client['数据库名']['表名']db.ensure_index('name', unique=True) # 创建索引,name是字段名称

2019-08-15 12:43:35 576

原创 scrapy+redis实现url去重和断续重连(增量爬取)

自定义过滤器:import hashlibfrom redis import StrictRedisfrom scrapy.dupefilters import RFPDupeFilterimport osimport redisfrom w3lib.url import canonicalize_urlclass URLRedisFilter(RFPDupeFilter):...

2019-08-13 17:38:41 1304

原创 scrapy中添加IP代理

获取IP:# coding:utf-8import requestsimport jsondef get_ip(): url = 'XXXXXX' # ip提取接口 print(requests.get(url).text) res = json.loads(requests.get(url).text)["data"][0] proxyHost...

2019-08-13 17:30:10 543

原创 url中含有gb2312编码方式的参数解码

from urllib import parsestr2 = 'gb2312编码的字符串'str3 = parse.unquote(str2,encoding='gb2312')print(str3)

2019-07-23 19:50:38 946 1

原创 爬虫请求头遇见了X-CSRF-Token和c-token如何解决

如果遇见了,大多都是对token的加密。今天遇见了这样一个网站:想要获取验证码图片。抓包获取之后:requests.post()请求啊,但是请求之后一直在被网站拒绝,一直在报403.。后来回头重新看,才发现请求头中是有X-CSRF-Token和c-token来识别身份的。这个网站比较简单,这两个值是一样的。然后就找这两值所在的界面嘛。全局搜索之后,发现这个是明文传输...

2019-05-06 18:42:36 21300

原创 RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\User

在使用tesserocr的时候报错RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Userimport tesserocrfrom PIL import Imageimg = Image.open('template.jpg')res = tesserocr.image_to_text(im...

2019-05-06 16:10:15 2932 2

原创 gevent初学,先来启动一个简单的爬虫

代码如下:from gevent import monkeyimport gevent.poolimport multiprocessing# 在进行IO操作时,默认切换协程monkey.patch_all()import requests# 调用了爬虫接口def run_Spider(i): url = 'http://127.0.0.1:5000' res =...

2019-05-06 14:43:27 360

原创 爬虫中线程,线程池,多线程,多进程,多线程+协程,单线程+协程的速度对比!!!!

首先用Flask搭建一个本地的页面:from flask import Flaskimport timeapp = Flask(__name__)@app.route('/')def index(): time.sleep(3) return 'Hello!'if __name__ == '__main__': app.run(threaded=True...

2019-05-06 11:37:46 721 1

原创 Requests方式登录网站

最近遇到了一个网站,需要登陆才能看到有效的信息,抓包之后发现:activity=login&mmqd=true&loginType=main&nsrsbh_Cert=&clientHello=&wsdlOper=proQxrzLogin&clientAuthCode=&serverRandom=&nsrsbh_SerNum=&am...

2019-04-26 16:56:12 2042

原创 Requests通过Session保持会话,获取数据

最近在爬一个网站,通过登录之后,获取信息。遇见的问题: 采取的selenium模拟登陆。因为有验证码的关系,直接用requests实现登陆不太方便,所以采用的selenium模拟登陆。 登陆之后,使用selenium中的get_cookies获取的cookie 并不能直接拿回数据,和数据所在的请求接口中的cookie有区别。 真实数据所在的...

2019-04-24 13:54:13 4205 1

原创 InsecureRequestWarning: Unverified HTTPS request is being made. 解决方式

import urllib3urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)简单粗暴!!!!

2019-04-18 18:43:14 2683

原创 request保持会话,寻找set-cookie来获取数据

今天遇到了 一个比较烦人的问题,爬取一个网站的时候,登陆返回的cookie和通过抓包获取的数据的cookie不一样,其中有个参数,找了半天,没找到。网址:https://i.keking.cn/user_index.html登陆返回的cookie是这个样子:acw_tc=2f624a7115548746919093682e53ca410b002b05e6d61724dbcfaaa50d...

2019-04-12 10:55:07 8733

原创 使用tabula处理pdf

环境安装:pip installtabula-py代码如下:import tabuladf = tabula.read_pdf("111.pdf", encoding='utf-8', pages='all')# print(type(df))for indexs in df.index: print(df.loc[indexs].values)输出结...

2019-04-11 11:54:33 6428

原创 tesseract的安装和环境配置

下载网址:https://digi.bib.uni-mannheim.de/tesseract/选择适合自己的版本,带dev的是测试版的,不带的是稳定版的。选择好之后,下载完毕之后,一路next安装,在选择语言的时候,根据自己需求来选择。完成之后,配置环境变量。将安装目录:F:\tesseract\Tesseract-OCR添加到环境变量之中。验证是否安装成功。打开cm...

2019-04-09 13:52:06 1533 1

原创 给定一个整数数组,返回两个数字的索引,使它们相加到特定目标。

给定一个整数数组,返回两个数字的索引,使它们相加到特定目标。您可以假设每个输入只有一个解决方案,并且您可能不会两次使用相同的元素。例:给定nums = [2,7,11,15],target = 9,因为nums [ 0 ] + nums [ 1 ] = 2 + 7 = 9,返回[ 0,1 ]。代码如下:def index(list1,target): #...

2019-04-09 10:51:17 1316

原创 selenium获取标签中的文本,找出文本所在的标签

# 寻找文本所在的标签waitClickCompanyName = self.browser.find_elements_by_xpath('//div[@id="nsrzt"]//li')for i in waitClickCompanyName: #找出标签中的文本内容 name = i.get_attribute('textContent') #找出文本所在的标...

2019-04-04 15:09:21 6871

原创 跟师傅学习的那点事儿--爬虫JS解密--天气网站。

目标网站:https://www.aqistudy.cn/html/city_detail.html当打开这个网站,发现所有的数据都是以图表形式展现,那么我们用selenium模拟浏览器,就产生了困难,果断放弃。F12分析,点击之后发现,Network中只多了下面两个请求:打开请求分析:我们找到的请求中,数据是这么个鬼,明显加密的了。找到按钮所在的位置:...

2019-03-21 13:44:50 384

原创 万能正则

re.sub(r"[\s+\.\!\/_,$%^*(+\"\')]+|[+——?【】?~@#¥%……&*]+|\\n+|\\r+|(\\xa0)+|(\\u3000)+|\\t", "", str(内容))接着就可以得到所有清洁后的小说了。正则判断中文:import rea = '1a'isRight = re.compile(u'[\u4e00-\u9fa5]'...

2019-03-20 16:16:49 405

原创 关于conda install 报SSL错误的解决。

当conda install出现这个错误的时候:SSLError(MaxRetryError('HTTPSConnectionPool(host=\'repo.anaconda.com\', port=443): Max retries exceeded with url: /pkgs/free/win-32/repodata.json.bz2 (Caused by SSLError(SSLE...

2019-03-20 15:44:12 14593 5

原创 跟师傅学习的那点事儿--爬虫JS解密练习。

今天遇到了一个点击事件的js加密。全局搜索AddTab,找到之后,惊奇的发现,这个js函数仅仅只需要两个参数即可。将参数传递过来,然后使用execjs模拟执行js,成功拿回加密后的数据。废话不多说,直接上代码:js部分的代码:function AddTab(url,title){ if(url.indexOf('/GDS_GNJZ_NAVIGATE')...

2019-03-19 17:24:17 376

原创 python中pillow切割和拼接两个图片

切割:from PIL import Imageimg = Image.open('1552455215.bmp')print(img.size) #输出宽高cropped = img.crop((0,0,180,140))cropped.save('1.bmp')拼接:from PIL import Imageim = Image.open(r'C:\User...

2019-03-13 16:27:32 3096

原创 列表中隔相同的间距取出元素,合并列表

a = [1,2,3,4,5,6]for i in range(0,len(a),3): print(a[i])隔两个取一个,输出结果如下:将两个列表合并为一个列表:list1 = [1,2,3]list2 = [4,5,6]for x in range(len(list1)): list1.append(list2[x])print(list...

2019-03-12 13:58:44 1356

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除