1 番茄西瓜汤

尚未进行身份认证

记录美好生活 github: https://github.com/wkunzhi 个人网: https://www.zhangkunzhi.com

等级
TA的排名 2w+

百万数量级的MongoDB去重操作

最近自己有一份MongoDB的数据需要去重,但是发下直接运行以前的去重命令发现报错,通过查看报错信息发现报错原因为超出了MongoDB的内存的限制,通过查阅资料整理,终于解决了问题,下面奉上代码供大家参考。查询数据中是否有重复的数据:.aggregate([{$group:{_id:'$店铺id',count:{$sum:1}}},{$match...

2019-10-14 16:54:43

大众点评最新字体解密19年7月

我的原文博客在此、https://www.zhangkunzhi.com/?p=72有网友说我之前写的大众点评字体解密的方法已经失效了,所以更新一篇解密2019年7月25日。查看加密看到都是小框框,为了一探究竟我们查看源码找到加密处所有文字都是>这样的怪符号。一脸懵逼,这和之前点评网站的字体反爬完全不同了。查看页...

2019-07-28 23:41:17

逆向APP - XX房产

需求分析拿到每套房子房价拿到所有户型介绍抓关键包房价请求包工具Charles抓包如下看这样子内容是加密后在app内不进行解密完成的,那么我们要获取到通过api请求到的真实数据就需要拆解app!获取其加解密方法才行。壳检测可以用工具查看是否有壳或者查看特征检测混淆百度加固特征明显所以判断为百度加固[外链图片转存失败(img-jYM2EbCz-1563893...

2019-07-23 22:46:14

拼多多登陆 JS 密码字段加密解析

个人博客网站拼多多登陆JS密码字段加密解析若有侵权请立即联系作者删除!!!目标:X多多自动登录时对密码字段的加密抓登陆包网址https://mms.pinduoduo.com/login打开调试工具,随意输入一个账号密码点击登陆然后我我们看到一个POST请求https://mms.pinduoduo.com/janus/api/auth可见密码是在js中加...

2019-07-23 22:45:33

python进行时间处理

取当前时间取当前时刻年月日取年datetime.now.now().yeay取月datetime.now.now().month取日datetime.now.now().dayfromdatetimeimportdatetime"""取当前时间与日期"""datetime.now()#2019-06-2222:15:16.529856"""取年"""da...

2019-07-02 10:20:41

原创小工具 - 可拓展式字符串解密器

引子GitHub代码有的情况下遇到传输工程中的,经常会遇到一些经过编码后的串,我们可以根据自己的经验和调试测试对其进行判断。他们可能是经过多次编码转换来的,所以每次调试的时候略显麻烦,本着一次开发,长久受益的想法,就着手开发了一个**【可拓展式解码器】**需求解码失败自动回跳到解码之前状态可连续解码(比如将base64转码后的结果,再进行字节流解压)可跟踪流式解码...

2019-06-02 11:24:07

Pandas 基础之 导入数据

文章目录Pandas基础之导入数据导入xlsx文件导入指定名Sheet导入指定索引Sheet设置指定竖为索引指定从第几行开始载入指定导入哪几列导入csv文件简单导入指定分隔符号指定读取行数指定编码读取导入中文名文件行索引等其余操作导入txt文件导入sql文件熟悉数据预览前几行head取数据表大小获数据类型取数值分布情况Pandas基础之导入数据导入数据主要用到的...

2019-05-26 22:35:57

Pandas 基础之 数据结构

Series一维数据对象创建Series列表形式创建指定索引创建传入一个字典importpandasaspdprint('\n用列表创建')s1=pd.Series(['a','b','c','d'])print(s1)print('\n用指定索引创建')s2=pd.Series([1,2,3,4],index=['a','b','c...

2019-05-26 22:35:24

如何优雅的书写Python代码, python使用小技巧

博客链接文章目录Python使用技巧变量命名技巧用有意义易读的命名同类型使用相同词汇可搜索的名字自我描述的变量不要取隐晦的名字精简不重复默认参数代替运算和条件实用小窍门变量值交换列表推导式字符串拼接join快速翻转字符串方便的语句for/else语句善用enumeratelambda来定义函数善用装饰器解决方案生成器词频统计CounterPython使用技巧如何优美的书写python代码...

2019-05-14 23:20:57

python 异步模块asyncio、aiohttp、gevent

asyncio、aiohttp、gevent模块文章目录asyncio、aiohttp、gevent模块概述基础示例核心解析创建task绑定回调函数await挂起耗时操作aiohttp网络访问并发访问多进程配合关闭协程同类型gevent模块概述在Python3.6后,可以通过关键词asyncdef来定义一个coroutine协程,协程就相当于未来需要完成的任务,多个协程就是多...

2019-05-11 14:14:15

超简单的付费代理池监控清洗器,自动维护ip池

开发一个超简单的付费代理池监控维护器爬虫经常会用到代理ip,其中有很多收费ip,但是如何在scrapy中,高效使用这些ip是一个比较麻烦的事情,在这里基于芝麻代理ip做一个代理池监控器,首先整理我们的需求整理需求芝麻付费代理取ip是不要钱,只有使用才收费,针对这个特点,可以让我们代理池24小时始终保持指定数量的ip即使没有使用需要监控ip是否过期,如果已经过期就从池中删除...

2019-05-03 22:39:48

Docker对接Github,docker在github中关联 并开启自动构建

Docker对接Github绑定github会让你的项目在每次commit后,自动构建一个docker镜像,无需自己操作,神器!github创建项目项目中需要有Dockerfile文件创建docker项目并在dockerhub中关联,注意私有仓库免费版只有1个设置自动构建选择自动构建总结:论方便当然是git自动构建,但是本地构建可以构建好之后本地测试完毕后自主上传服务...

2019-04-22 20:44:40

爬虫部署到Docker 中的方法 和案例

爬虫部署到Docker文章目录爬虫部署到Docker1.打包所需模块2.创建Dockerfile文件3.调整数据库连接地址4.构建镜像5.推送DockerHub6.服务器运行镜像本地调试与修改镜像vim下载安装保存修改1.打包所需模块在项目目录下创建一个名为requirements的文件,文件内记录本项目用到的模块,如有特殊需求可设置模块版本号,例如:scrapys...

2019-04-22 20:43:55

Docker基础语法,与常用场景案例

Docker语法官网地址文章目录Docker语法语法结构删除镜像交互式终端停止镜像进程运行(后台模式)Docker镜像操作常用命令创建镜像方法1更新镜像方法2构建镜像【常用】上传私有案例-运行web程序语法结构$dockerrunubuntu:15.10/bin/echo"Helloworld"以上命令完整的意思可以解释为:Docker以ubuntu15...

2019-04-22 20:43:21

Centos 下 Docker安装

Docker安装Docker大量集群、负载均衡爬虫部署,方便快捷的代言词本文作为记载,日后方便部署时翻阅Centos安装Docker查看你当前的内核版本请确保版本大于等于3.10$uname-r将yum包更新到最新$sudoyumupdate如果有旧版本请先现在,否则可能引起错乱$sudoyumremovedockerdoc...

2019-04-22 20:42:33

最新美团token生成算法

觉得还不错的,加个星starGitHub示例测试2019年4月20日可用,餐饮板块token生成器

2019-04-22 09:47:35

Docker 使用方法及常用命令 案例

官网网址语法dockerrunubuntu:15.10/bin/echo"Helloworld"参数说明dockerDocker的二进制执行文件。run与前面的docker组合来运行一个容器。ubuntu:15.10指定要运行的镜像,Docker首先从本地主机上查找镜像是否存在,如果不存在,Docker就会从镜像仓库DockerH...

2019-03-20 13:07:38

爬虫必备技能 熟练使用正则RE模块

正则爬虫技术中必不可少的技能re.search查找返回第一个匹配结果参数描述pattern正则string匹配字符串flags控制匹配方式:区分大小写,多行匹配等返回对象可调描述.span()匹配到(起始位置,结束位置).group(num=0)匹配到的所有结果.group(1)括号把匹配结果分成多...

2019-03-16 10:16:37

【教程】搭建免费代理IP池、代理IP小金库教程

总体分5个类redis储存库板块抓取代理IP板块检测代理IP可用性板块API调用板块调度器板块GitHub代码地址自建代理池系统pip3installasynciopip3installaiohttppip3installflaskpython3.7以轻量级Flask作为服务端,提供接口调用安装之后启动redis服务配置代理池vimsett...

2019-03-09 23:08:01

利用mitmproxy注入JS登录淘宝功能

2019TB更新反爬后,以前网上的淘宝登录功能教程失效了尊重淘宝只提供思路,不提供实例代码大前提熟练使用并掌握JavaScript要能看懂,能写出来工具python3mitmproxy原理利用mitmproxy做拦截,注入js代码修改TB的js这里是mitmproxy的使用教程...

2019-03-02 16:18:30

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。