2 Crazy__Hope

尚未进行身份认证

我沉默不是因为我冷漠,只是不知道该怎么说...

等级
博文 22
排名 13w+

opencv截帧后获取图片流

使用opencv截帧后。拿到ndarray的frame对象直接frame.tobytes()是不行的,直接写入文件或上传到其它地方打不开。需要赋予原始frame一种格式才行。#frame是ndarray对象,这里是把原始ndarray转成jpg的字节流,转成其它格式直接替换jpg即可data=cv2.imencode(".jpg",frame)[1].tobytes()转换后的...

2019-06-13 21:46:12

doc批量转成docx(doc batch convert docx)

随便新建个word打开.使用Alt+F11打开内置vba点击上方插入—>模块在新窗口中粘贴复制如下代码SubConvertDocToDocx()'UpdatedbyExtendOffice20181128DimxDlgAsFileDialogDimxFolderAsVariantDimxFileNameAsStrin...

2019-05-24 17:52:15

逆向js之解析响应加密信息

    前些时候,看到有人在群里发了一个网站,说是返回的data参数是加密信息,无法解析data保存相关信息。想到好久没写文章了,于是乎就去看了一下,准备那这个当素材。    首先打开网站是这样的(网站地址:http://yc.wswj.net/ahsxx/LOL/public/public.ht...

2019-05-14 11:29:24

爬虫应对反爬之css反爬

最近看到一个网站有css反爬,感觉比较有意思,这里就顺手破解一下,纯做技术分享首先打开它的站点,感觉是个很low又没有任何反爬的站点,它长这样:很单纯的列表页,此页面无任何反爬,直接分析拿到详情页的地址即可。有意思的来了…任意打开一篇详情页文章可以看到它是一个字一个字的显示的,而有的字是不显示的,通过css障眼法隐掉不显示的字,剩下的就是完整的内容啦。可以看到这些字只有一个class...

2019-01-18 11:24:23

html文本保存为chm文档,并建立索引

上节讲解了如何抓取微信公众号文章,这节就来搞搞怎样保存,方便自己以后查阅。这里我选择了chm。有三个原因:    1.chm可以建立索引,查阅文章比较方便    2.chm暂时没发现有啥存储问题,例如图片不显示    3.管理方便,一个公众号一个chm那么接着上回...

2019-01-10 22:34:36

Python爬取微信公众号文章

本篇文章使用到的技术:mitmdump+电脑版微信先分析打开可视化抓包工具,勾选https代理。然后打开电脑版微信任意点击一个公众号,再点击查看历史消息打开后这样向下滑动右侧的滚动条,同时观察抓包软件,有新的数据加载即可停止滑动,仔细分析抓包软件的数据呐,接口已经找到了。下面来分析它的请求参数上面这些参数我们后面通过mitmdump抓到就可以使用,关键点在于如何构...

2019-01-09 19:46:45

美拍小视频去水印

分享一下逆向js的经验进入美拍任意一个视频页面,通过F12控制台通过点击顺序到js中,全局搜索mp4,可以找到一下代码这里发现比较可疑,打个断点,重新刷新页面,断点到此处,然后点击下一步断点来到6114行,把鼠标放到a上,可以发现,就是页面传过来的data-video这个属性的值。可以发现,a这个变量经过了什么步骤,相应的函数在上方也有。至于有些里面有些h,k是啥,在上面也有...

2018-12-13 21:36:21

airflow 修改中国时区(改airflow源码)

airflow默认使用utc时间,在中国时区需要用+8小时就是本地时间,下面把airflow全面修改为中国时区,带大家改airflow源码博主使用airflow版本是1.10.0,其它版本大同小异,参照修改即可1.先讲使用pip安装apache-airflow的修改方式在airflow家目录下修改airflow.cfg,设置default_timezone=Asia/...

2018-11-03 17:30:47

centos7 大数据任务调度系统airflow的安装(单机或分布式)

airflow的安装步骤1.设置airflow的家目录位置2.安装airflow3.初始化airflow4.修改mysql服务器的配置文件my.cnf5.airflow建议两种运行方案LocalExecutor或者CeleryExecutor6.再次初始化数据库7.启动web服务和调度服务即可本文使用的安装环境是python3,建议单独设置虚拟环境进行安装。airflows...

2018-10-26 09:52:16

pandas处理mongodb数据

使用pandas处理mongodb数据,转储为csvimportpymongoimportpandasaspdclient=pymongo.MongoClient('192.168.116.215')cur=client["库名"]["集合"]data=pd.DataFrame(list(cur.find()))deldata["_id"]#存储的时...

2018-03-27 10:35:13

opencv实现视频抽帧,作为其视频封面(python)

  在使用爬虫的过程中,爬到的视频没有视频封面,这时就需要我们手动给他添加一个视频封面,那么opencv就登场了,我们可以使用它抽取视频中的任意一帧保存下来,作为其视频封面importcv2defget_video_pic(name):cap=cv2.VideoCapture(name)cap.set(1,int(cap.get(7)/2))#取它的中间帧...

2018-03-12 20:56:20

windows部署SpiderKeeper(爬虫监控)

博主部署SpiderKeeper环境是windows,相信用Linux的同学部署起来也没有任何问题.第一步:  mkvirtualenv创建虚拟环境  Linux虚拟环境配置  Windows虚拟环境配置第二步:workonspiderkeeper(本人创建的虚拟环境spiderkeeper)pipinstallspiderkeeperpipinstal

2018-02-07 05:05:33

centos 安装twisted 报错error: command 'gcc' failed with exit status 1

我的环境是centos+python3.4安装twisted报错,error:command‘gcc’failedwithexitstatus1解决办法:yuminstallpython34-devel安装完了就好了,针对这个问题,网上的版本太多,但是好像只有这个适合我

2018-01-30 17:03:22

python虚拟环境配置

为了使开发环境互不影响,我们应该使用虚拟环境帮助我们去进行开发。第一步:安装virtualenv    直接pipinstallvirtualenv即可第二步:使用virtualenvwrapper管理工具来管理我们的虚拟环境    pipinstallvirtualenvwrapper第三步:编辑家目录下的.bashrc#虚拟环境存放位置expo

2018-01-28 13:57:57

爬虫常用的小工具(谷歌插件)

为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。1.xpath,全名XPathHelper在QUERY里可直接写XPATH规则,获取想要的数据2.JSON-handle此工具可把通过ajax请求网页的返回数据直接转换成比较好看的json格式,方便我们分析数据。3.User-AgentSwicher这个工具可直接修改

2018-01-18 19:57:49

navicat11破解工具PatchNavicat

此破解工具不能破解navicat12版本,navicat11可以破解。百度云地址:https://pan.baidu.com/s/1qZMxDBe密码:65by如失效,请在下方评论,我看到会更新链接。

2018-01-16 11:43:56

安装Twisted报错:Microsoft Visual C++ 14.0 is required

安装Twisted报错如下:解决方法:  1.进入http://landinghub.visualstudio.com/visual-cpp-build-tools页面  2.点击下载即可  3.一路next安装就可以啦!ps:百度云下载:https://pan.baidu.com/s/1OZUrLvFSIXKkhRF7DOsvPA密码:14js...

2018-01-16 11:38:20

快速解决No module named 'win32api'

启动scrapy的时候报这个错误,可使用pipinstallpypiwin32,是不是很方便呢

2018-01-16 10:48:39

json数据键值对两端没有引号怎么转字典

最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。  返回数据如下,具体多恶心,自己试一试就知道了!{serverSeconds:1515659363,last_time:1515659104,path:[{title:"全部",id:"89",cType:"c

2018-01-13 20:08:42

针对文章内容进行去重

最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。  大概思路是:取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为相同的内容生成hash值是一样,其实去重原理就跟scrapy-redis很类似…  具体实现代

2018-01-13 19:23:15
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。