3 黑蚂蚁

尚未进行身份认证

我要认证

用博客记录自己的IT生涯,希望自己能坚持。

等级
TA的排名 22w+

flask group_by 不能使用的问题

https://limh.me/post-22.html/etc/my.cnf[mysqld]sql_mode = STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION主要是去除ONLY...

2019-05-06 14:51:13

mac下Appnium Desktop + Genymotion 爬虫

1.  安装 java      https://blog.csdn.net/qq_23892379/article/details/794174852.  安装 appnium desktop, 这个资源挺多的。 https://blog.csdn.net/linlu_home/article/details/791722083. 安装android studio, https://bl...

2018-09-04 19:22:07

selenium + chromedriver 被反爬的解决方法

问题背景:这个问题是在爬取某夕夕商城遇到的问题,原本的方案是用selenium + chromedriver + mitmproxy开心的刷,但是几天之后,发现刷不出来了,会直接跳转到登陆界面(很明显,是遭遇反爬了)讲实话,这还是第一次用硒被反爬的,于是进行大规模的测试对比。 同台机器,用铬浏览器正常访问是不用跳转到登陆界面的,所以不是IP的问题。再用提琴手抓包对比了一下两个请求头,请求头...

2018-09-01 12:57:19

【爬虫】 使用mongodb做去重集合

背景:最初是用redis数据库中的set来做去重集合的,但是因为url的量级在亿以上,redis内存飙升到了22G,服务器无法承受。于是将集合都搬到了mongodb中解决方法:1. 通过脚本对redis中的集合进行迁移,    <1  对url进行哈希,缩短长度,节省空间。    <2  在插入数据到mongo的时候, 要写好索引 (为了加快遍历速度,因为每访问一次ur...

2018-08-30 18:11:32

selenium + chromedriver 在centos 上的使用(假界面, 不使用headless)

1. 安装Xvfb :    yum install -y Xvfb2. 安装 chromedriver:  https://blog.csdn.net/mercury0712/article/details/802944333. 查看下chrome的版本, 下载对应的chromedriver版本 : https://www.cnblogs.com/dan-baishucaizi/p/90...

2018-08-30 15:24:50

chromedriver + headless + proxy

这个时刻必须写个博客记录一下!!! 问题:爬取某网站需要用到 chromedriver + mitmproxy , 但是有个致命的问题就是加入headless和proxy参数后,代理一直会出错,其实就是证书的问题。 解决:根据以上问题,进行了很多搜索,测试。 但是有很多版本的答案其实都是不能用的,问题还是没有得到解决。最终在chromium上找到了一个标准答案。下面的代码转自:ht...

2018-08-29 18:08:19

scrapy中request的指纹生成

if include_headers: include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers)) cache = _fingerprint_cache.setdefault(request, {}) ...

2018-05-07 16:35:08

curl 如何支持 SSL,https

这是入职后遇到的问题,之前从来没有使用过curl的。运行之前公司的一个项目一直出错,搞了好久才知道是curl的问题,于是查看了一下curl的信息,原来是不支持HTTPS的:于是尝试着重装curl,但是curl默认是不支持SSL的,根据百度的各种教程,于是有下载了openssl,并对curl进行了关联,试了几次,还是不可以。curl的配置信息里还是不支持S

2017-09-14 18:23:22

9-11 python中pycurl模块学习

可见pycurl是十分强大和简洁的,只是要熟悉它的很多属性,下面来看一些常用的import pycurlc = pycurl.Curl()c.setopt(pycurl.URL,'http://www.baidu.com')c.setopt(pycurl.MAXREDIRS,5)c.setopt(pycurl.CONNECTTIMEOUT,60)c.setopt(pycurl.TIME

2017-09-11 17:58:29
勋章 我的勋章
    暂无奖章