黑蚂蚁-CSDN博客

原创 mumu配置

一. 模拟器安装相关1. 下载mumu模拟器：https://mumu.163.com/下载好手游助手，有点击下载mumu模拟器的提示, 默认最新版2. 安装微信：https://weixin.qq.com/cgi-bin/readtemplate?lang=zh_CN&t=page/faq/android/801/index&faq=android_801选择下载32位版本3. 打开mumu的root权限4. 安装 xposed.apk5. 安装 jus..

2021-03-19 13:21:24 2641

原创 flask group_by 不能使用的问题

https://limh.me/post-22.html/etc/my.cnf[mysqld]sql_mode = STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION主要是去除ONLY...

2019-05-06 14:51:13 818

原创 mac下Appnium Desktop + Genymotion 爬虫

1. 安装 java https://blog.csdn.net/qq_23892379/article/details/794174852. 安装 appnium desktop，这个资源挺多的。 https://blog.csdn.net/linlu_home/article/details/791722083. 安装android studio， https://bl...

2018-09-04 19:22:07 999

原创 selenium + chromedriver 被反爬的解决方法

问题背景：这个问题是在爬取某夕夕商城遇到的问题，原本的方案是用selenium + chromedriver + mitmproxy开心的刷，但是几天之后，发现刷不出来了，会直接跳转到登陆界面（很明显，是遭遇反爬了）讲实话，这还是第一次用硒被反爬的，于是进行大规模的测试对比。同台机器，用铬浏览器正常访问是不用跳转到登陆界面的，所以不是IP的问题。再用提琴手抓包对比了一下两个请求头，请求头...

2018-09-01 12:57:19 39897 32

原创【爬虫】使用mongodb做去重集合

背景：最初是用redis数据库中的set来做去重集合的，但是因为url的量级在亿以上，redis内存飙升到了22G，服务器无法承受。于是将集合都搬到了mongodb中解决方法：1. 通过脚本对redis中的集合进行迁移， <1 对url进行哈希，缩短长度，节省空间。 <2 在插入数据到mongo的时候，要写好索引 (为了加快遍历速度，因为每访问一次ur...

2018-08-30 18:11:32 1489

原创 selenium + chromedriver 在centos 上的使用(假界面, 不使用headless)

1. 安装Xvfb : yum install -y Xvfb2. 安装 chromedriver: https://blog.csdn.net/mercury0712/article/details/802944333. 查看下chrome的版本, 下载对应的chromedriver版本： https://www.cnblogs.com/dan-baishucaizi/p/90...

2018-08-30 15:24:50 717 1

原创 chromedriver + headless + proxy

这个时刻必须写个博客记录一下！！！问题：爬取某网站需要用到 chromedriver + mitmproxy ，但是有个致命的问题就是加入headless和proxy参数后，代理一直会出错，其实就是证书的问题。解决：根据以上问题，进行了很多搜索，测试。但是有很多版本的答案其实都是不能用的，问题还是没有得到解决。最终在chromium上找到了一个标准答案。下面的代码转自：ht...

2018-08-29 18:08:19 4023 1

原创 scrapy中request的指纹生成

if include_headers: include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers)) cache = _fingerprint_cache.setdefault(request, {}) ...

2018-05-07 16:35:08 2463

原创 curl 如何支持 SSL,https

这是入职后遇到的问题，之前从来没有使用过curl的。运行之前公司的一个项目一直出错，搞了好久才知道是curl的问题，于是查看了一下curl的信息，原来是不支持HTTPS的：于是尝试着重装curl,但是curl默认是不支持SSL的，根据百度的各种教程，于是有下载了openssl，并对curl进行了关联，试了几次，还是不可以。curl的配置信息里还是不支持S

2017-09-14 18:23:22 10469

转载 9-11 python中pycurl模块学习

可见pycurl是十分强大和简洁的，只是要熟悉它的很多属性，下面来看一些常用的import pycurlc = pycurl.Curl()c.setopt(pycurl.URL,'http://www.baidu.com')c.setopt(pycurl.MAXREDIRS,5)c.setopt(pycurl.CONNECTTIMEOUT,60)c.setopt(pycurl.TIME

2017-09-11 17:58:29 267

weixin_39847926的博客