自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 mumu配置

一. 模拟器安装相关1. 下载mumu模拟器:https://mumu.163.com/下载好手游助手,有点击下载mumu模拟器的提示, 默认最新版2. 安装微信:https://weixin.qq.com/cgi-bin/readtemplate?lang=zh_CN&t=page/faq/android/801/index&faq=android_801选择下载32位版本3. 打开mumu的root权限4. 安装 xposed.apk5. 安装 jus..

2021-03-19 13:21:24 2641

原创 flask group_by 不能使用的问题

https://limh.me/post-22.html/etc/my.cnf[mysqld]sql_mode = STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION主要是去除ONLY...

2019-05-06 14:51:13 818

原创 mac下Appnium Desktop + Genymotion 爬虫

1.  安装 java      https://blog.csdn.net/qq_23892379/article/details/794174852.  安装 appnium desktop, 这个资源挺多的。 https://blog.csdn.net/linlu_home/article/details/791722083. 安装android studio, https://bl...

2018-09-04 19:22:07 999

原创 selenium + chromedriver 被反爬的解决方法

问题背景:这个问题是在爬取某夕夕商城遇到的问题,原本的方案是用selenium + chromedriver + mitmproxy开心的刷,但是几天之后,发现刷不出来了,会直接跳转到登陆界面(很明显,是遭遇反爬了)讲实话,这还是第一次用硒被反爬的,于是进行大规模的测试对比。 同台机器,用铬浏览器正常访问是不用跳转到登陆界面的,所以不是IP的问题。再用提琴手抓包对比了一下两个请求头,请求头...

2018-09-01 12:57:19 39897 32

原创 【爬虫】 使用mongodb做去重集合

背景:最初是用redis数据库中的set来做去重集合的,但是因为url的量级在亿以上,redis内存飙升到了22G,服务器无法承受。于是将集合都搬到了mongodb中解决方法:1. 通过脚本对redis中的集合进行迁移,    <1  对url进行哈希,缩短长度,节省空间。    <2  在插入数据到mongo的时候, 要写好索引 (为了加快遍历速度,因为每访问一次ur...

2018-08-30 18:11:32 1489

原创 selenium + chromedriver 在centos 上的使用(假界面, 不使用headless)

1. 安装Xvfb :    yum install -y Xvfb2. 安装 chromedriver:  https://blog.csdn.net/mercury0712/article/details/802944333. 查看下chrome的版本, 下载对应的chromedriver版本 : https://www.cnblogs.com/dan-baishucaizi/p/90...

2018-08-30 15:24:50 717 1

原创 chromedriver + headless + proxy

这个时刻必须写个博客记录一下!!! 问题:爬取某网站需要用到 chromedriver + mitmproxy , 但是有个致命的问题就是加入headless和proxy参数后,代理一直会出错,其实就是证书的问题。 解决:根据以上问题,进行了很多搜索,测试。 但是有很多版本的答案其实都是不能用的,问题还是没有得到解决。最终在chromium上找到了一个标准答案。下面的代码转自:ht...

2018-08-29 18:08:19 4023 1

原创 scrapy中request的指纹生成

if include_headers: include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers)) cache = _fingerprint_cache.setdefault(request, {}) ...

2018-05-07 16:35:08 2463

原创 curl 如何支持 SSL,https

这是入职后遇到的问题,之前从来没有使用过curl的。运行之前公司的一个项目一直出错,搞了好久才知道是curl的问题,于是查看了一下curl的信息,原来是不支持HTTPS的:于是尝试着重装curl,但是curl默认是不支持SSL的,根据百度的各种教程,于是有下载了openssl,并对curl进行了关联,试了几次,还是不可以。curl的配置信息里还是不支持S

2017-09-14 18:23:22 10469

转载 9-11 python中pycurl模块学习

可见pycurl是十分强大和简洁的,只是要熟悉它的很多属性,下面来看一些常用的import pycurlc = pycurl.Curl()c.setopt(pycurl.URL,'http://www.baidu.com')c.setopt(pycurl.MAXREDIRS,5)c.setopt(pycurl.CONNECTTIMEOUT,60)c.setopt(pycurl.TIME

2017-09-11 17:58:29 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除