回忆不说话-CSDN博客

原创今日头条as和cp参数破解！

网址：https://www.toutiao.com/打开网址，抓包分析之后，数据在这个页面中：查看webView之后，发现有三个参数：需要去解决。先来试试不传这三个参数分别是什么情况？奇怪的发现，没有这个参数，也是可以拿到结果的，那我们要解决的就只有as和cp参数了。看到这个，是不是会以为这个as是个定值？下面那个框才是真正的值。跟着断点进...

2019-11-22 15:59:37 964

原创 python3中关于mysql的数据库连接池

配置：host = '127.0.0.1'port = '3306'user = 'root'password = '****'db_name = 'dbutils_lianxi'代码如下：#!/usr/bin/env python# -*- coding:utf-8 -*-import pymysql, os, configparserfrom pymysql.cu...

2019-05-05 14:50:00 1013 1

原创跟师傅学习的那点事儿--爬虫JS解密练习。

目标网站：https://www.icgoo.net/search/?partno=AD620&qty=1&tdsourcetag=s_pcqq_aiomsg要获取这个网页的信息。先来分析网页机构：所需要的信息在：拿出编译器，requests.get()发现没有这个信息。怎么办？打开fiddler，进行抓包。找到信息所在的请求。发现类似的请求，特...

2019-03-14 17:29:43 1187 4

原创上传本地项目到gitlab代码仓库

1、创建项目2、配置公钥cd ~/.ssh如果为空，则创建公钥（mkdir ~/.ssh）然后cd ~/.ssh通过ls -l查看SSH目录，如果为空，生成密钥。如果存在如下文件，说明你以前创建过了。ssh-keygen -t rsa -C "你注册gitlab的email地址"生成之后，找到你的密钥地址，我的在：/c/Users/Administrator/....

2019-02-18 15:04:44 1498

原创 Ssms.exe

C:\Program Files (x86)\Microsoft SQL Server\110\Tools\Binn\ManagementStudio\Ssms.exe

2021-11-23 15:42:10 695 1

原创挑选幸运数！

从列表中挑选出来出现次数和数字大小相同的数~~~arr = [3, 5, 2, 5, 3, 5, 1, 2, 5, 8, 5, 3]f = set(arr) # set 过滤m = map(arr.count, f) # map 函数是把第二个参数以第一个的参数的规则依次去执行, 生成器只能用依次就会自动销毁z = zip(f, m) ...

2020-04-03 17:50:26 338

原创请求延迟产生的__cfduid参数和cf_clearance参数解决思路

网址：https://www.ixian.cn/thread-1703333-1-1.html抓包之后，数据逻辑分析如下：数据在这个请求当中，需要的参数值：jschl_answer，jschl_vc，pass，r，其中jschl_vc，pass，r，三个参数在第一个503请求中有返回，直接拿来用即可。然后剩余一个参数：jschl_answer可以看到这个a的值即...

2020-01-15 16:54:02 3073 3

原创 ImportError: libSM.so.6: cannot open shared object file: No such file or directory

sudo yum install libXext libSM libXrender

2020-01-10 13:14:39 199

原创将xlsx文件以列表的形式输出。

def excel_to_list(data_file, sheet): data_list = [] # 新建个空列表，来乘装所有的数据 wb = xlrd.open_workbook(data_file) # 打开excel sh = wb.sheet_by_name(sheet) # 获取工作簿 header = sh.row_values(0) #...

2019-12-31 14:31:25 326

原创 xposed+justTrustMe在逍遥模拟器上的安装配置

下载xposed框架下载网址：https://xposed.appkg.com/nav模拟器中安装即可，安装成功之后重启一下。justTrustMe安装下载链接：https://github.com/Fuzion24/JustTrustMe/releases打开xposed之后，找到模块选项，选中即可。重启模拟器，ok。...

2019-12-17 13:20:48 2262

原创 python切割txt文件

将数万行的txt文件切割为每个txt文件2万行的：def cut_txt(): # 计数器 flag = 0 # 文件名 name = 1 # 存放数据 dataList = [] with open('taskId.txt', 'r', encoding='utf-8') as fp_source: for line ...

2019-12-05 11:16:55 1077

原创新浪微博的协议登录

网址：https://www.weibo.com/登录的请求直接抓包获取，当点击登录的时候，提交了这样一个请求：其中su是base64加密的账号，sp是加密的密码。这个请求是点击登录之后出现的，追溯进去看看密码和账号是如何产生的。鼠标放上去，可以看到这是我们输入的账号密码以及验证码。继续追进去：到了这里便能够发现一点有用的东西了，账号和密码加密都在这里。...

2019-11-29 13:46:52 1766

原创记一次滑块验证码协议通过的经历

网址：https://my.ztgame.com/plugin/pwd然后来看一下这个滑块验证码是如何通过的。打开F12：当我把滑块拉到这个位置的时候，产生了一次请求：请求返回的内容如下：jQuery112309196920250839282_1574913077019({"code":0,"token":"1npfs7s1a68cf2bf3g06vzmp7gjfz06...

2019-11-28 13:25:54 1969

原创使用LabelImg报错：ZeroDivisionError: float division by zero

出现这一问题的场景：在对滑块验证码的缺口进行标注的时候，报这个错，后来发现是因为滑块缺口的背景是透明的导致的。解决办法：使用cv2模块重新覆盖一次即可：def retry_save(): files = os.listdir('图片目所在文件夹') for file in files: img_name = 图片的目录 img = ...

2019-11-27 17:13:46 1434

原创 linux系统下安装chrome和chromedriver驱动

今天帮助小姐姐安装一番环境，以作记录。1.chromeyum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm2.安装必要的库yum install mesa-libOSMesa-devel gnu-free-sans-fonts wqy-zenhei-fonts...

2019-11-25 20:10:08 1537

原创如何删除本地git所有仓库

git branch 显示本地所有分支git init 初始化本地版本库ls -a 显示所有目录，并且找到目录下的.git文件rm -rf .git 删除

2019-10-21 13:41:21 1196

原创在windows服务器上为项目创建虚拟环境

1.安装python链接：https://www.python.org/getit/下载适合自己的版本，进行安装即可。2.上传项目3.安装virtualenvpip install virtualenv4.进入项目根目录virtualenv venv5.激活虚拟环境进入venv/Scripts文件夹中使用activate启动虚拟环境即可。6.安装依赖包...

2019-10-16 14:49:23 572 1

原创 cookie中__jsl_clearance参数的破解。

在爬取网站的时候遇见了这个参数很无解。详细内容如下：__jsluid_h； __jsl_clearance在请求详情页的时候需要这两个参数作为cookie的值。但是第一个__jsluid_h我可以在上一个请求中直接获取，因为此值在上一个请求头中的set-Cookie字段中会产生，拿回来做对比之后再做简单的处理即可直接使用。第二个__jsl_clearance如果不添加的话会一直...

2019-09-10 17:18:26 2710

原创 mongo中用python建立唯一索引

client = pymongo.MongoClient(host='localhost', port=27017) # 连接db = client['数据库名']['表名']db.ensure_index('name', unique=True) # 创建索引，name是字段名称

2019-08-15 12:43:35 576

原创 scrapy+redis实现url去重和断续重连（增量爬取）

自定义过滤器：import hashlibfrom redis import StrictRedisfrom scrapy.dupefilters import RFPDupeFilterimport osimport redisfrom w3lib.url import canonicalize_urlclass URLRedisFilter(RFPDupeFilter):...

2019-08-13 17:38:41 1304

原创 scrapy中添加IP代理

获取IP：# coding:utf-8import requestsimport jsondef get_ip(): url = 'XXXXXX' # ip提取接口 print(requests.get(url).text) res = json.loads(requests.get(url).text)["data"][0] proxyHost...

2019-08-13 17:30:10 543

原创 url中含有gb2312编码方式的参数解码

from urllib import parsestr2 = 'gb2312编码的字符串'str3 = parse.unquote(str2,encoding='gb2312')print(str3)

2019-07-23 19:50:38 946 1

原创爬虫请求头遇见了X-CSRF-Token和c-token如何解决

如果遇见了，大多都是对token的加密。今天遇见了这样一个网站：想要获取验证码图片。抓包获取之后：requests.post()请求啊，但是请求之后一直在被网站拒绝，一直在报403.。后来回头重新看，才发现请求头中是有X-CSRF-Token和c-token来识别身份的。这个网站比较简单，这两个值是一样的。然后就找这两值所在的界面嘛。全局搜索之后，发现这个是明文传输...

2019-05-06 18:42:36 21300

原创 RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\User

在使用tesserocr的时候报错RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Userimport tesserocrfrom PIL import Imageimg = Image.open('template.jpg')res = tesserocr.image_to_text(im...

2019-05-06 16:10:15 2932 2

原创 gevent初学，先来启动一个简单的爬虫

代码如下：from gevent import monkeyimport gevent.poolimport multiprocessing# 在进行IO操作时，默认切换协程monkey.patch_all()import requests# 调用了爬虫接口def run_Spider(i): url = 'http://127.0.0.1:5000' res =...

2019-05-06 14:43:27 360

原创爬虫中线程，线程池，多线程，多进程，多线程+协程，单线程+协程的速度对比！！！！

首先用Flask搭建一个本地的页面：from flask import Flaskimport timeapp = Flask(__name__)@app.route('/')def index(): time.sleep(3) return 'Hello!'if __name__ == '__main__': app.run(threaded=True...

2019-05-06 11:37:46 721 1

原创 Requests方式登录网站

最近遇到了一个网站，需要登陆才能看到有效的信息，抓包之后发现：activity=login&mmqd=true&loginType=main&nsrsbh_Cert=&clientHello=&wsdlOper=proQxrzLogin&clientAuthCode=&serverRandom=&nsrsbh_SerNum=&am...

2019-04-26 16:56:12 2042

原创 Requests通过Session保持会话，获取数据

最近在爬一个网站，通过登录之后，获取信息。遇见的问题：采取的selenium模拟登陆。因为有验证码的关系，直接用requests实现登陆不太方便，所以采用的selenium模拟登陆。登陆之后，使用selenium中的get_cookies获取的cookie 并不能直接拿回数据，和数据所在的请求接口中的cookie有区别。真实数据所在的...

2019-04-24 13:54:13 4205 1

原创 InsecureRequestWarning: Unverified HTTPS request is being made. 解决方式

import urllib3urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)简单粗暴！！！！

2019-04-18 18:43:14 2683

原创 request保持会话，寻找set-cookie来获取数据

今天遇到了一个比较烦人的问题，爬取一个网站的时候，登陆返回的cookie和通过抓包获取的数据的cookie不一样，其中有个参数，找了半天，没找到。网址：https://i.keking.cn/user_index.html登陆返回的cookie是这个样子：acw_tc=2f624a7115548746919093682e53ca410b002b05e6d61724dbcfaaa50d...

2019-04-12 10:55:07 8733

原创使用tabula处理pdf

环境安装：pip installtabula-py代码如下：import tabuladf = tabula.read_pdf("111.pdf", encoding='utf-8', pages='all')# print(type(df))for indexs in df.index: print(df.loc[indexs].values)输出结...

2019-04-11 11:54:33 6428

原创 tesseract的安装和环境配置

下载网址：https://digi.bib.uni-mannheim.de/tesseract/选择适合自己的版本，带dev的是测试版的，不带的是稳定版的。选择好之后，下载完毕之后，一路next安装，在选择语言的时候，根据自己需求来选择。完成之后，配置环境变量。将安装目录：F:\tesseract\Tesseract-OCR添加到环境变量之中。验证是否安装成功。打开cm...

2019-04-09 13:52:06 1533 1

原创给定一个整数数组，返回两个数字的索引，使它们相加到特定目标。

给定一个整数数组，返回两个数字的索引，使它们相加到特定目标。您可以假设每个输入只有一个解决方案，并且您可能不会两次使用相同的元素。例：给定nums = [2,7,11,15]，target = 9，因为nums [ 0 ] + nums [ 1 ] = 2 + 7 = 9，返回[ 0，1 ]。代码如下：def index(list1,target): #...

2019-04-09 10:51:17 1316

原创 selenium获取标签中的文本，找出文本所在的标签

# 寻找文本所在的标签waitClickCompanyName = self.browser.find_elements_by_xpath('//div[@id="nsrzt"]//li')for i in waitClickCompanyName: #找出标签中的文本内容 name = i.get_attribute('textContent') #找出文本所在的标...

2019-04-04 15:09:21 6871

原创跟师傅学习的那点事儿--爬虫JS解密--天气网站。

目标网站：https://www.aqistudy.cn/html/city_detail.html当打开这个网站，发现所有的数据都是以图表形式展现，那么我们用selenium模拟浏览器，就产生了困难，果断放弃。F12分析，点击之后发现，Network中只多了下面两个请求：打开请求分析：我们找到的请求中，数据是这么个鬼，明显加密的了。找到按钮所在的位置：...

2019-03-21 13:44:50 384

原创万能正则

re.sub(r"[\s+\.\!\/_,$%^*(+\"\')]+|[+——?【】？~@#￥%……&*]+|\\n+|\\r+|(\\xa0)+|(\\u3000)+|\\t", "", str(内容))接着就可以得到所有清洁后的小说了。正则判断中文：import rea = '1a'isRight = re.compile(u'[\u4e00-\u9fa5]'...

2019-03-20 16:16:49 405

当conda install出现这个错误的时候：SSLError(MaxRetryError('HTTPSConnectionPool(host=\'repo.anaconda.com\', port=443): Max retries exceeded with url: /pkgs/free/win-32/repodata.json.bz2 (Caused by SSLError(SSLE...

2019-03-20 15:44:12 14593 5

原创跟师傅学习的那点事儿--爬虫JS解密练习。

今天遇到了一个点击事件的js加密。全局搜索AddTab，找到之后，惊奇的发现，这个js函数仅仅只需要两个参数即可。将参数传递过来，然后使用execjs模拟执行js，成功拿回加密后的数据。废话不多说，直接上代码：js部分的代码：function AddTab(url,title){ if(url.indexOf('/GDS_GNJZ_NAVIGATE')...

2019-03-19 17:24:17 376

原创 python中pillow切割和拼接两个图片

切割：from PIL import Imageimg = Image.open('1552455215.bmp')print(img.size) #输出宽高cropped = img.crop((0,0,180,140))cropped.save('1.bmp')拼接：from PIL import Imageim = Image.open(r'C:\User...

2019-03-13 16:27:32 3096

原创列表中隔相同的间距取出元素，合并列表

a = [1,2,3,4,5,6]for i in range(0,len(a),3): print(a[i])隔两个取一个，输出结果如下：将两个列表合并为一个列表：list1 = [1,2,3]list2 = [4,5,6]for x in range(len(list1)): list1.append(list2[x])print(list...

2019-03-12 13:58:44 1356

空空如也

空空如也