4 小牛牛先生

尚未进行身份认证

也曾鲜衣怒马少年时,一夜忘尽长安路!

等级
TA的排名 4k+

Wireshark抓包工具介绍

在编写爬虫抓取app数据的时候,往往需要通过抓包工具对app进行抓包分析,例如:Fiddler、Charles等,但是在偶尔的情况下,你会发现通过这些工具抓包抓取失败,一启用抓包工具,就会显示网络错误。为什么会这样了?我个人的了解和分析来看,应该是以下原因:像Fiddler、Charles等这些大多数的抓包工具都是通过代理机制来抓包的,然而现在很多app对特定的敏感接...

2019-11-04 16:46:14

app反编译

在进行安卓开发或者爬虫开发过程中,偶尔会遇到需要将app进行反编译分析参考源码的需求,接下来,笔者将自己实践过程记录下来,給需要的朋友一个参考。仅供学习之用,勿做坏事儿,哈哈哈!准备工作:确保电脑已经配置好了java环境,最好是jdk1.8以上使用工具:apktool(作用:资源文件获取,可以提取出图片文件和布局文件进行使用查看)下载地址:https://bitbucket.or...

2019-10-31 14:41:40

Nginx负载均衡最简单的配置demo

将请求负载的5个不同的端口上,每个端口的分数为2worker_processes1;events{worker_connections1024;}http{upstreamproxy_ip_api{#ip_hash;server127.0.0.1:5001weight=2;...

2019-10-22 11:02:52

centos7 编译安装greenplum5.7

一、配置系统安装是以一个主节点,三个子节点进行安装。gp是在github上下载的5.7的源码。地址https://github.com/greenplum-db/gpdb/tree/5.7.0。1、Greenplum集群介绍这里使用1个master,3个segment的集群,ip为196.168.12.101196.168.12.102196.168.12.103196...

2019-10-12 13:45:52

Python爬虫之骚操作,破解扫码登录

来給大家分享一种破解扫码登录的方法,这里以淘宝为例,特别的骚气,老铁快双击666,哈哈哈哈准备工作:1,一台不常用的手机,下载安装好淘宝app,并使用一个不常用的账号登录。2,确保电脑已经配置好了appium和selenium环境3,准备一个支架,将手机固定在电脑屏幕前,并且确保使用数据线能正确连接appium4,破解思路:编写代码,使用selenium跳转到淘宝登录界面,...

2019-10-11 10:16:01

使用 aiowebsocket 库获取websocket数据

在写爬虫的时候,偶尔会碰到要爬取的网站或者app数据是通过websocket返回的,这时候,我们可以通过Python的aiowebsocket这个库来进行爬取,下面是一个简单的示例代码,获取指定ws地址的数据并打印:importasyncioimportloggingfromaiowebsocket.conversesimportAioWebSocketimportjso...

2019-10-08 15:10:25

好奇心驱使下的OceanBase分布式数据库尝鲜

OceanBase是一个支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务,由淘宝核心系统研发、运维、DBA、广告、应用研发等部门共同完成。在设计和实现OceanBase的时候暂时摒弃了不紧急的DBMS的功能,例如临时表,视图(view),研发团队把有限的资源集中到关键点上,当前OceanBase主要解决数据更新一致性、高性能的跨表读事务、范围查...

2019-10-08 11:05:15

Python+Selenium爬虫-获取浏览器Network请求和响应

1.问题自从发现Selenium这块新大陆后,许多异步加载、js加密、动态Cookie等问题都变得非常简单,大大简化了爬虫的难度。但是有些时候使用Selenium仍然有一些缺陷,比如现在很多网站数据都是通过json结构的接口来交互,通过分析报文的方式直接发包可以直接拿到json数据,数据不但全而且还很好解析,这比解析html网页容易多了。另一个非常重要的问题就...

2019-09-27 15:05:23

Python调用百度语音合成api将文字转换成音频文件并播放代码示例

fromaipimportAipSpeechimportwave,pygameimporttimeimportrandomimportos'''pipinstallbaidu-aip调用百度语音合成api将文字转换成音频文件'''defget_video(msg):APP_ID='17264707'API_KEY='59xxwY...

2019-09-18 10:02:27

python使用pyhdfs上传文件到hdfs

本文属于转载,仅用于做个笔记。#-*-coding:utf-8-*-importpyhdfs'''pipinstallpyhdfs'''classFileManager(object):#uploadfiletohdfsfromlocalfilesystemdeffile_upload(self,host,user_name...

2019-08-01 15:08:05

使用python将指定文件夹下的全部文件上传到 hdfs 的指定路径

因在公司业务上遇到一个需求,需要将指定服务器上的指定路径下的所有文件,例如:test.csv上传到hdfs上,参考了网上的一些大佬的帖子实现了需求,故做个笔记方便以后查看,参考地址:https://www.cnblogs.com/SmallCaff/p/10650699.htmlimportosimportplatformimportloggingaslgfrom...

2019-07-29 14:54:29

liunx下 Kafka与Kafka-manager在CentOS7下的安装与使用

kafka安装参考地址:https://blog.csdn.net/kisscatforever/article/details/86091136kafka-manger安装参考地址:https://blog.csdn.net/weixin_38187317/article/details/80037218

2019-07-02 13:49:22

centos下zokeeper安装

参考地址:https://www.52xbc.cn/linuxjishu/324.html

2019-07-01 14:44:42

appPackage和appActivity参数获取方法

以大众点评app为例:我们使用Appium连接并启动大众点评App进行模拟登陆,不知道有没有细心的读者发现,有两个特别重要的参数值appPackage和appActivity。下面分别讲解这个两个参数的值获取方法。1.appPackageappPackage方法的获取,可以通过一个工具来获取,这个工具的名字叫“GT”,GT的界面中自带了获取appPackage的功能,使用手机从应...

2019-06-26 16:49:12

Elasticsearch from+size 超过10000结果解决方法

转发地址:https://blog.csdn.net/asdasdasd123123123/article/details/86601671方法一:如果需要搜索分页,可以通过fromsize组合来进行。from表示从第几行开始,size表示查询多少条文档。from默认为0,size默认为10,如果搜索size大于10000,需要设置index.max_result_window参数...

2019-06-26 10:43:51

解决liunx下静态文件中如果名字包含中文访问不了报404错误问题

步骤1:安装字符编码sudolocale-genzh_CN.UTF-8打开/etc/default/locale修改为:LANG=zh_CN.UTF-8LANGUAGE=zh_CN:zh:en_US:en步骤2:yuminstallconvmv-y或者apt-getinstallconvmv-yconvmv-fGBK-tUTF8-r--note...

2019-06-05 17:30:21

Squid搭建代理ip服务器并使用python requests库进行连接测试

作者这里由于爬虫业务需要,所以向云立方购买了几台adsl拨号代理搭建自己的代理服气器,云立方地址:https://www.yunlifang.cn/具体搭建步骤如下:环境准备:购买adsl拨号服务器:centos7.x版本以上如下图所示:步骤1:安装squidyuminstall-yopensslsquid步骤2:配置squid用户名密码验证...

2019-06-03 12:03:34

Python下APScheduler的快速指南

原文转载地址:https://blog.csdn.net/luanpeng825485697/article/details/84395302APScheduler介绍APScheduler是基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。APScheduler...

2019-05-29 16:03:57

selenium优化禁止图片和css加载

在使用selenium模拟抓取网页的时候,速度效率其实是非常慢的,可以稍微优化一下,禁止不必要的图片加载和css加载,示例代码如下:fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsimporttimeimportrandomoptions=Options...

2019-05-21 11:35:16

ubuntu/深度系统下安装python3.6.4

背景开发使用python3.6.4但是系统自己带的是2.7和3.5版本的不仅要安装python3.6还要将环境隔离开下载安装下载python3.6编译安装1、建立一个soft文件夹用来存放下载文件mkdirsoft环境准备sudoapt-getinstallopensslsudoapt-getinstalllibssl-dev2进入...

2019-05-15 09:59:56

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。