自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(335)
  • 收藏
  • 关注

转载 python 多进程数量 对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点  多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。基于这个特性,常常会用多进程来实现守护服务器的功能。 然而多线程不足之处在于,任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。 ...

2019-09-12 13:16:00 562

转载 python 使用sort 对列表排序的性能测试

首先对一百万数据进行排序:    对一千万数据进行排序:    对一亿数据进行排序:            转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...

2019-09-01 00:20:00 564

转载 使用 python set 去重 速度到底是多快呢???

这次去测试一下 python 的set去重,速度怎么样?我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。第一步:对121w 条数据去重,看去重话费的时间  上证据:      第二步:对1210 w 条数据去重,看去重话费的时间      第三步:对1.21 亿 条数据去重,看去重话费的时间      ...

2019-08-29 17:09:00 476

转载 搜狐视频 登录 md5 加密破解

这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程第一步:请求抓包     password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下          发现我们的猜测是完全正确的第二步:搜索js加密字段      第三步: 静态分析js,打断点    1.        2....

2019-08-29 10:09:00 524

转载 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫

大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些:  封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码                    这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码                                              ...

2019-08-29 09:51:00 636

转载 京东js加密 nloginpwd 破解

京东登录,有一个参数nloginpwd,是加密字段。第一步:浏览器抓包    第二部:搜索加密字段 js 代码    第三部: 下断点    2.     js代码:var navigator = {};var window = {};var Base64 = {};var ...

2019-08-28 16:53:00 1558

转载 python 实现 DES CBC模式加解密

# -*- coding=utf-8-*-from Crypto.Cipher import DESimport base64"""des cbc加密算法padding : PKCS5"""class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV =...

2019-08-28 08:29:00 1389

转载 python 实现 AES CBC模式加解密

AES加密方式有五种:ECB, CBC, CTR, CFB, OFB从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodomepython 在Linux下使用AES时要安装的是pycrypto模块pi...

2019-08-28 08:25:00 1233

转载 python 实现 AES ECB模式加解密

AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节)在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模式不用IV)代码:  # -*- coding=utf-8-*-f...

2019-08-28 08:18:00 756

转载 某个新闻网站抓去自媒体账号 queryId js破解

第一步: 发现加密第二部:搜索加密参数 queryId  第三部:找到js核心加密代码第四部:代码实现window = {}function utf8ToBase64(t) { console.log(t) aa = window.btoa(unescape(encodeURIComponen...

2019-08-27 15:30:00 107

转载 rsa 解密过程

直接扣js代码  $w = {};if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {};var biRadixBase = 2;var biRadixBits = 16;var bitsPerDigit = biRadixBits;var biRadix = 1 &l...

2019-08-27 15:13:00 173

转载 计算机 KB,MB,GB,TB,PB,EB 计算

ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个...

2019-08-26 13:32:00 1240

转载 python 验证码识别示例(五) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html需要识别的验证码是:因为这个验证码有干扰点,所以直接识别的效果非常不好。首先对验证码进行二值化和降噪。效果如下:识别结...

2019-08-10 23:59:00 383

转载 python 验证码识别示例(四) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947需要识别的验证码是:识别结果是:识别率百分之八十。10个有两个错误。识别代码:#coding:u...

2019-08-10 23:54:00 210

转载 python 验证码识别示例(三) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414需要识别的验证码是:识别结果是:识别代码是:#coding:utf-8from c...

2019-08-10 23:46:00 171

转载 信用中国(广西验证码二值化和降噪)

对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。这篇博客主演是对验证码进行降噪和二值化。下面的图片是处理前的验证码和处理后的验证码截图:下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附加转载于:https://www...

2019-08-07 13:19:00 146

转载 unicode转换为中文

unicode转换为中文\u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c\u82f1\u56fd\u9996\u76f8\u70ed\u95e8\u5019\u90...

2019-07-22 14:48:00 17944

转载 烦人的警告 Deprecated: convertStrings was not specified when starting the JVM

python 调用java代码:  Deprecated: convertStrings was not specified when starting the JVM. The defaultbehavior in JPype will be False starting in JPype 0.8. The recommended settingfor new co...

2019-07-11 13:32:00 704

转载 Python 推送RabbitMQ

username = 'xxxxxxxx'pwd = 'xxxxxxxx'user_pwd = pika.PlainCredentials(username, pwd)s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd))c...

2019-06-20 08:37:00 158

转载 人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)...

人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)转载自:管理晨读原文链接:https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg作者|张瑞敏来源|人民日报这个社会有很多的成年人,还没有脱离幼稚的行为,一点小事情就跟别人争来争去。1 人不成熟的...

2019-05-31 09:10:00 157

转载 使用 xpath helper 提取网页链接

需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊,想到用xpath helper 作为一个临时的替补方案;第一步:下载 安装 谷歌xpath helper 这个插件  chrome插件XPath Helper的下载与安装  参考教程https://blo...

2019-05-28 10:33:00 507

转载 Python 爬虫js加密破解(四) 360云盘登录password加密

登录链接:https://yunpan.360.cn/mindex/login这是一个md5 加密算法,直接使用 md5加密即可实现本文讲解的是如何抠出js,运行代码第一部:抓包如图     第二步:调试,打断点;    第三步:找到js,扣出来;    第四部:运行js文件;  ...

2019-05-23 15:33:00 227

转载 Python 爬虫js加密破解(三) 百度翻译 sign

第一步: 模拟抓包分析加密参数    第二步: 找到加密字段 调试出来的sign和抓取得到的数据一致,都是275626.55195第三部: 分析js加密方法  第四部:运行js代码;...

2019-05-16 11:33:00 159

转载 Python 获得最近一个月的每天的日期

直接上代码:#coding:utf-8# from common.contest import *import datetimeimport timebegin_date = (datetime.datetime.now() - datetime.timedelta(days =30)).strftime("%Y-%m-%d")date_list = ...

2019-04-17 11:52:00 377

转载 VNC Viewer 设置屏幕分辨率

1.第一种方法:使用geometry参数进行调整vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是*2.第二种方法:修改配置文件vncservers[root@secdb ~]# vi /etc/sysconfig/vncservers# Th...

2019-04-11 22:06:00 4622

转载 单表40G,不要吃惊,还能往里面插入数据,哈哈

单表40G,不要吃惊,还能往里面插入数据,哈哈上图:转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html

2019-04-09 15:03:00 76

转载 谁是谁的谁多

(function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.indexOf(...

2019-04-04 10:21:00 89

转载 300万数据去重问题

问题:有一个300w行的文件,需要给他去重,有什么好的方法,前提是速度要快。我的实现方式是:1 .文件读取到内存中2.在内存中去重3.插入到MySQL中去。300万行数据,实现去重只需要80秒想提高插入速度可以批量插入和 并发 插入数据。直接上代码:# coding:utf-8from common.contest import *impo...

2019-03-13 15:09:00 148

转载 ip代理优化

如何保证可用ip不低于2000个,代理ip池优化策略第一:获得大量ip;第二:验证可用ip;第三:监控可用ip;第三:保证可用ip不低于3000或者5000;截图是实时可用ip数量心得:不要用什么 VPS虚拟主机拨号 或者ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用的。转载于:https://www.cnbl...

2019-02-27 13:43:00 122

转载 爬虫破解js加密破解(二) 有道词典js加密参数 sign破解

在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。    常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。本文重要讲js加密的破解方法。js加密一般是在请求头或者请求参数加入加...

2019-02-21 14:51:00 232

转载 搜狗微信 为了保护你的网络安全,请输入验证码

我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。破解方法:不停更换snuid转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html

2019-02-14 14:00:00 367

转载 MYSQL单表可以存储多少条数据???

MYSQL单表可以存储多少条数据???单表存储四千万条数据,说MySQL不行的自己打脸吧。多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。至于后期的处理需要查询,完全可以用ES或者其他的数据库。转载于:https://www.cnblogs.com/xuchunlin/p...

2019-02-14 09:49:00 1058

转载 进程,线程,协程的区别

进程不共享任何状态调度由操作系统完成有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大)通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低)线程共享变量(解决了通讯麻烦的问题,但是对于变量的访问需要加锁)调度...

2019-01-28 11:02:00 47

转载 ES 安装 head安装

https://www.elastic.co/downloads/elasticsearchhttp://www.cnblogs.com/xuxy03/p/6039999.htmlhttps://blog.csdn.net/camelcanoe/article/details/79528265转载于:https://www.cnblogs.com/xuchunli...

2019-01-08 15:42:00 42

转载 ES 插入十万条数据耗时1573秒

转载于:https://www.cnblogs.com/xuchunlin/p/10213927.html

2019-01-03 14:17:00 974

转载 淘宝频繁访问会出现滑动验证码

频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...

2018-12-29 11:39:00 6997

转载 百度 资讯 爬虫解决方案

前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步:关键词搜索  1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。  2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。 ...

2018-12-26 19:20:00 329

转载 人的一生会遇到什么样的痛苦????

最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成...

2018-12-20 09:39:00 105

转载 python gb2312 转换为 utf-8

  url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf...

2018-12-04 15:16:00 758

转载 爬虫 需要什么样的 CPU,内存 和带宽

所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...

2018-12-03 14:46:00 1835

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除