半吊子Py全栈工程师-CSDN博客

原创大众点评与美团与饿了么

好久没有写博客了~~ 自从换了工作就一直忙一直忙~~ 现在腾出点时间,记录一下最近遇到的一些问题最近主要写了大众点评美团和饿了么的一些东西 ,这里不纠结具体细节,只说一下遇到的各种坑1.大众点评: 在3个中我觉得难度最低吧,最坑的一点是ip验证,一个ip只有通过了验证码才能访问一些东西,但是这个可以通过其它接口绕过,然后不用登陆账号通过h5 / 小程序接口,能获取到...

2019-05-20 18:18:24 2632 7

原创 appium 多开

最近跑一个app 使用的是appium，单开太慢了~，就想多开，结果遇到一个问题，最后解决了，这里记录一下！ self.desired_caps = { "platformName": PLATFROM, "deviceName": DEVIE_NAME, "udid":UDID, ...

2019-03-26 13:48:55 2104 1

转载 IT IS NOT POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS

转载地址https://intoli-dot-com.ext.jsproxy.tk/blog/not-possible-to-block-chrome-headless/（直接使用浏览器只带的翻译了）几个月前，我写了一篇名为Making Chrome Headless Untetectable的热门文章回应了一个名为Detecting Chrome Headless的文章作者：Antio...

2019-03-11 18:37:32 817

转载一行代码解决 window.navigator.webdrive 的问题

from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])driver = Chrome(o...

2019-03-11 16:52:34 6091 6

原创携程机票查询

比较简单，直接放代码，代码仅供学习。import requests, re, json, time, randomcity_listed = {"阿勒泰": "AAT", "兴义": "ACX", "百色": "AEB", "阿克苏": "AKU", "鞍山": "AOG", "安庆&quo

2019-03-08 18:14:44 3707 2

原创拼多多 anti_content 解密

当前时间：2019/3/4 14:44:57最近有些时间里，时不时听到拼多多市值多少啦，买东西怎么了啊，被赞羊毛了啊！然后就想花了一天半来分析拼多多的前端js这里我使用的接口是http://mobile.yangkeduo.com手机网页端，其中主要的js代码就是截图中的search_result.js(我这里使用的是关键字搜索商品)在请求的过程中有2个需要注意的...

2019-03-04 17:57:22 17017 55

转载 java 图片相似度算法

转载自：https://www.sunjs.com/article/detail/24dd9a9e436e489185430c4c45034d69.html利用直方图原理实现图像内容相似度比较、均值哈希实现图像内容相似度比较、汉明距离算法实现图像内容相似度比较直方图原理实现图像内容相似度比较算法：importjavax.imageio.*;importjava.awt.i...

2019-02-28 14:49:44 2053

转载 Java 操作 Excel

备份一份！转载着：https://blog.csdn.net/jianggujin/article/details/80200400 之前写过一篇《JAVA操作Excel》，介绍了jxl和poi读写Excel的实现，今天为大家介绍一下使用easyexcel对Excel进行读写，项目主页地址：https://github.com/alibaba/easyexcel作者对easyexc...

2019-02-18 17:59:55 2553

转载【Fiddler为所欲为第二篇】像OD一样调试

转载自 https://www.52pojie.cn/thread-854434-1-1.html导语：其实Fiddler隐藏的功能太多太多，其调试功能也是异常强大，可以说是抓包界的“OllyDbg”并不为过。接下来，教大家如何使用Fiddler进行调试、解析，甚至封包“逆向”！一、像OD一样定制菜单 1.1定制rule菜单的子菜单 // 定义名为52pj的子菜...

2019-01-31 15:17:18 1172

转载 Fiddler大解析！抱歉，抓包抓得好真的可以为所欲为（一）

转载自 https://www.52pojie.cn/thread-854434-1-1.html 狂暴补师亚丝娜说起抓包，很多人以为就是用个工具，简简单单地抓一下就可以了。昨天在面试一个安卓逆向，直接告诉我【抓包没有技术含量】。在这里，我必须发一个教程，解析一下抓包神器——Fiddler。Fiddler仅仅是一个抓包工具？不好意思，Fiddler用得好，真的可以为所欲为。Fiddler的作...

2019-01-31 15:12:49 9758 4

原创中国商标网 -爬虫

最近有时间，找了一些比较麻烦的网站来练手，然后想起来以前说要弄商标网的，今天就又上去看了下！以前转载的链接 :商标局网请收下我的膝盖上去查看了下，感觉怎么参数这么明显了！！！？？？应该是取消了很多爬虫限制！然后模拟请求的试了下，请求成功，成功获取到数值！使用的接口是：http://sbgg.sai...

2019-01-24 18:39:22 13768 19

原创行政区---高德坐标系的获取

最近研究了一下美团外卖，需要获取某些地区下的所有外卖信息，解决了获取数据的难题，但是美团限制，一个地点只能获取200个商家，如果想要获取全城的外卖信息，就需要使用不同的坐标来遍历一遍，在去重~~ 百度了一下美团使用的是高德坐标系，网上找了一下，发现有这样一个接口https://lbs.amap.com/api/javascript-api/example/d...

2019-01-23 13:50:57 657 1

原创记：当爬虫无路可走的时候

最近帮一朋友"了解" http://app1.sfda.gov.cn 食药局这个网站下的一些数据，首先一上来就正按照之前的正常操作：第一条路：分析js找到加密参数是如何生成的，然后发现debug 模式被ban了，调试半天不知道如何解除debug限制！好了，debug 模式开不了，就别想分析js是怎么运行的了，于是这条路gg。第二条路：使用seleni...

2019-01-22 17:22:49 872 4

原创 python 操作 excel 文件

官方地址：http://www.python-excel.org/使用xlsxwriter (只能写不能读取)来进行写成.xlsx文件可以使用xlrd 写成 xls 文件简单 demo 如下：import xlsxwriter, csv# 创建excel 对象workbook = xlsxwriter.Workbook('Expenses03.xlsx')...

2019-01-16 14:45:18 362

原创 JAVA 实现MD5加密

package crawl;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;public class CreateMD5 { public static String getMD5(String st) throws NoSuchAlgorithmException{ ...

2019-01-09 16:39:23 561

转载一张流程图简化安卓动态调试步奏

1.不应该在AndroidManifest.xml中添加android:debuggable="true"，app一旦加固了，会检测自己有没有被修改！一旦发现被修改，就打不开或报错！推荐修改系统中ro.debuggable这个属性值，ro.debuggable=1，网上有工具mprop可以直接修改。转载至冥界3大法王...

2018-12-19 16:16:34 444

原创 appium + 真机获取微信公众号信息

2018.11.30昨天简单获取了一下微信朋友圈，算是对appium 又回顾了一遍，今天爬一波微信公众号，改天研究一下微信app的加密直接上代码:import timefrom lxml import etreefrom appium import webdriverfrom selenium.webdriver.common.by import Byfrom seleniu...

2018-11-30 18:45:07 3171 2

原创 appium 之爬取微信朋友圈

2018.11.30 号我的相关工具：appium desktop v1.9.1 虚拟机夜神模拟器 v6.2.2.7 1.相关看了一下网络开发爬虫实战这本书里面appium 相关内容后写的import timefrom appium import webdriverfrom selenium.webdriver.common.by import Byfrom selen...

2018-11-30 10:45:16 3960 7

原创 xpath etree 异常

在windows 下，获得服务器端返回的json数据，然后在json数据中取出 html ，结果使用xpath 解析，结果异常最后发现是windows 系统中将/ 解析成\/ 产生的异常只需要进行html.replace("\\/","/")就行...

2018-11-26 15:59:09 815

原创 CSV 文件写入引号和换行

问题：需要在csv文件中写入双引号和换行解决,在需要写双引号的地方在加一个双引号进行转义，这一格的数据是必须用双引号括起来的，参考文档:https://tools.ietf.org/html/rfc4180...

2018-11-09 18:48:50 7523

转载转载：备份chromedriver版本

chromedriver安装直接使用PIP安装1 pip install selenium用浏览器浏览器的浏览器来测试1 from selenium import webdriver2 3 browser = webdriver.Chrome()4 browser.get('http://www.baidu.com/')运行这段代码，会自动打开浏览器，然后访问百度。...

2018-10-30 18:15:53 277

原创 1024程序员节 - 分享一个抖音视频下载程序

在网上调用别人的接口来实现的功能 import requestsimport execjs# 生成参数sdef generateStr(a): js = ''' test = function(a) { var c = function() { for (var d = 0, ...

2018-10-24 15:16:29 6372

转载如何让你的Python爬虫采集得更快

如何让Python爬虫采集的更快，如何处理海量数据的下载是我们一直探索和研究的对象。下面是我们从数学角度给出的一些分析以及我们的一些经验分享。假设线程数为n，线程中下载平均用时为td，线程中数据处理部分（纯计算）用时为tc。由于单个Python进程只能使用单CPU核心，因此总的数据处理耗时应是各线程tc的累加即n*tc。因为下载是阻塞操作，CPU可以几乎同时处理所有下载，因此总的下载耗...

2018-10-23 17:16:02 1863

转载如何突破网站对selenium的屏蔽

使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案，它通吃各种数据加载方式，能够绕过客户JS加密，绕过爬虫检测，绕过签名机制。它的应用，使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹，因此无法被网站直接识别和拦截。这是不是就意味着selenium真的就无法被网站屏蔽了呢？非也。selenium在运行的时候会暴露出一些预定义的Java...

2018-10-23 15:13:25 28870 16

转载 android四大组件(详细总结)

android四大组件分别为activity、service、content provider、broadcast receiver。一、android四大组件详解1、activity（1）一个Activity通常就是一个单独的屏幕（窗口）。（2）Activity之间通过Intent进行通信。（3）android应用中每一个Activity都必须要在AndroidManifes...

2018-10-11 18:46:08 200

转载 Android studio3.0打开Device File Explore(文件管理器)的方法(图文教程)

Android studio3.0打开Device File Explore(文件管理器)的方法看到网上AS3.0新增加的查看手机文件的新功能，全部都是转载的，没有几个人心细的把如何打开的方法写下来，我找了好多地方才找到打开的方法，目前有如下两种种：方法一：点击 View > Tool Windows > Android Profiler (还可以点击工具栏的).然后可以...

2018-10-11 18:34:44 7703 1

原创百度指数爬虫更新版

current time: 2019.3.21 正常今天跑了一下数据，发现百度随机返回缺失的数据~~，这就有点坑了对此我们就只能更换获取数据的接口了，我们更改接口以后，就没有缺失数据的情况了！！！current time: 2018.11.617.23 正常昨天晚上有人跟我说百度指数更新了，今天看了下，更新了下代码个人感觉是降低了难度，极大的减少了请求次数。这一...

2018-09-28 17:51:06 9188 4

原创抓手机app可能出现的问题及解决方式

概况：看了会大佬调试各种app，写各种插件，然后发现有一个很好的办法1.当我们使用fiddler进行抓取https包的时候，有可能安装了证书也获取不到，这个时候，可能就是服务器端进行了验证，这个时候，大佬们直接使用---第一、使用Xposed拦截系统的证书校验功能，这个网上有大神给出了hook模块代码，可以去github上搜JustTrustMe项目代码即可，就一个简单类，导入Xposed...

2018-09-10 18:36:27 891 1

原创 Scrapy 调用讯代理动态转发BUG 解决

问题：最近找一些代理来使用，用到了讯代理的动态转发，使用requests能正常使用，但是使用Scrapy框架调用的时候，怎么都调用不了。异常是没有特定的头部信息，但是请求是解决：先使用抓包工具，查看程序发出去的请求的头信息，发现是没有我添加的头部信息，先是觉得可能自己加错误了，但尝试几次，在几个可以添加header的地方都添加，结果是都不能，最后觉得应该是框架的锅。然后在框架里面寻找发...

2018-09-07 16:59:04 2761 8

转载 HTML，JS禁止鼠标右键、禁止全选、复制、粘贴的方法

禁止鼠标右键、禁止全选、复制、粘贴；oncontextmenu事件禁用右键菜单； js代码：document.oncontextmenu = function(){ event.returnValue = false;}// 或者直接返回整个事件document.oncontextmenu = function(){ return false;}onsele...

2018-09-07 15:02:34 525

原创汽车之家爬虫(autohome)

项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108 以前有写过汽车之家的爬虫，但是有一段时间没有爬了，所以网站也更新了。现在2018.8.23号的情况是这样，请求...

2018-08-23 18:13:57 7060

原创 pytesseract psm 选项参数

最近写*车之家的爬虫，遇到动态，扭曲的自定义字符，以前直接比对不变的字符部分已经不行了，想了半天，对字符的操作不是很了解，所以就想到用orc来直接识别好了遇到问题，使用pytesseract进行操作的时候，添加了中文的语言的选项，但是不添加psm参数时，识别不出来。经过一番查找找到应该加上--psm 8 ，将整个图像当初一个汉字来操作 Page segment...

2018-08-17 11:40:34 18372

转载自定义字符反爬

最近临时受命，要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域，但既然分到咱这儿了，那就上呗，有啥说的，谁让咱是“全栈工程师”呢（牛逼吹的大了点）。原本公司已经有了一套字体反爬的机制，但效果还是不很理想。花了一周的时间进行研究，最终在现有反爬基础之上，总结了本文要讲的方案。说是终极方案，是有些吹牛了，大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以...

2018-08-16 17:11:04 766

转载基于Node.js实现一个小小的爬虫

1.本次爬虫目标：从拉钩招聘网站中找出“前端开发”这一类岗位的信息，并作相应页面分析，提取出特定的几个部分如岗位名称、岗位薪资、岗位所属公司、岗位发布日期等。并将抓取到的这些信息，展现出来。初始拉钩网站上界面信息如下： 2.设计方案：爬虫，实际上就是通过相应的技术，抓取页面上特定的信息。这里主要抓取上图所示岗位列表部分相关的具体岗位信息。首先，抓取，就得先有地...

2018-08-10 18:06:28 600

转载 mySQL 关于bool类型

mysql是不支持bool类型的,所以,当把一个数据设置成bool类型的时候,数据库会自动转换成tinyint(1)的数据类型,其实这个就是变相的bool。默认值也就是1,0两种,分别对应了bool的true和false...

2018-08-08 18:09:55 33686 1

原创去表情字符串

try: microblog_device = re.findall(r'feed_from W_textb.*?nofollow">(.*?)<.*?div>', i, re.S)[-1] microblog_device = re.sub(u'[\uD800-\uDBFF][\uDC00-\uDFFF]|[\U00010000-\U0010ffff]|\ud...

2018-08-03 14:11:19 871

转载清除MYSQL字段中的空格

同时清除前面，后面及中间的空格：UPDATE et.yuangong SET xingming=TRIM(REPLACE(xingming,' ',''));清除数据库et中yuangong表xingming字段中的空格（前面后面中间的空格）。（1）mysql replace 函数语法：replace(object,search,replace) 意思：把object...

2018-08-02 11:34:25 4285

原创 mysql存储utf-8数据时有表情问题

从网络中取下的数据解析后不能插入数据库，提示某个字段有问题，问题提示如下： 1 SQLException: Incorrect string value: '\xF0\x9F\x98\x84' for column 'wei_content' at row 1 查阅资料后发现，是由于emoji字符和数据库有差异，不能直接存储解决方案一：将内容中...

2018-08-02 10:23:38 662

转载 XPath与lxml_4功能函数

实用功能函数，更好的进行模糊搜索。 1 starts-with函数用法：xpath('//div[stars-with(@id,"test")]')解释：选取id值以test为开头的div节点 2 contains函数用法：xpath('//div[contains(@id,"test")]')解释：选取id值包含test的div节点 3 and用法：x...

2018-07-30 18:05:55 393

转载 python 编码问题

字符串编码一直是令人非常头疼的问题，尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的str和bytes两种数据类型，并且可以通过encode()和decode()方法转换，但是，在不知道编码的情况下，对bytes做decode()不好做。对于未知编码的bytes，要把它转换成str，需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符，根据特征字符判...

2018-07-25 10:28:00 460

PyQt5翻译成中文的教程

FastDFS分布式存储服务器安装及nginx的安装配置

空空如也