自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YOYO的博客

Python_learning

  • 博客(165)
  • 收藏
  • 关注

原创 网易云音乐评论爬取

咳咳,终于要搞网易了,好激动啊我开始以为网易云的加密很简单,但是最终还是小看他了不得不说网易的程序员为了那些情怀满满的音乐评论还是下了很大的功夫的这里不放源码了,毕竟大家都不容易简单说下思路:encSecKey: 575a0c3e5f8b805c7a123b1065ea2769aac0072abb9cbe05306afa1016575bba6f9bf6a1d8ee4103501291de...

2019-01-07 13:37:50 1786 2

原创 房天下登录加密分析

分析做研究使用,非用作商业使用url="https://passport.fang.com/login.api"data ={ 'uid': "13913292465", 'pwd': "c88cff40bfdhgfjhgj2cf78352b8ca78789cdf0b2350a51967b2bb32d4c5905860863b7f119e43c4e4727f8dd650e5b4...

2019-01-03 10:57:07 794

原创 最新requests模拟百度登录的干货

前言百度的模拟登陆网上有很多的教程,大家可以看下.几乎所有的教程都是到error_no=0,就说已经登录成功了.关于这个问题我开始也以为是这样的,不过自己最近在一次尝试登录百度网盘的时候发现,仅仅是error_no=0,是无法登录到百度的任何产品的.很多文章误人太深在这里就不得不说一下python requests的session了requests的session在一定的程度上可以很好的管理...

2018-12-08 13:35:43 1159 2

原创 最新微博登录过程分析

使用requests登录新浪微博:网上的代码都大多失效,也有使用新浪账户登录微博,但是如果新浪账号没有关联微博就会出现失败.本文使用微博主页登录.微博的验证码使用打码平台解决,js加密使用pyv8本地运行难点:1.获取到sp加密代码2.登录跳转登录参数获取:首先请求链接获取大部分参数:https://login.sina.com.cn/sso/prelogin.php?entry=we...

2018-10-25 16:35:07 2956 1

原创 最新今日头条文章AS,CP,_signature参数分析

AS,CP参数由下面函数生成:function s() { var t = Math.floor((new Date).getTime() / 1e3) , e = t.toString(16).toUpperCase() , i = (0, o.default)(t).toString().toUpperCase(); ...

2018-10-18 14:08:13 2448

原创 Facebook爬虫

自己无聊的尝试,不知道能不能成功,只是记录:1. 个人动态:https://m.facebook.com/profile/timeline/stream/?cursor=tmln_strm%3A1341235186%3A4123521292106084490%3A0&profile_id=100003102976600&a

2018-10-17 15:16:34 14999 2

原创 裁判文书网爬虫Docid解密思路

1.使用node.js本地搭建web,运行js,返回解密结果.getValue()函数获取解密结果 // 创建服务器 http.createServer( function (request, response) { // 解析请求,包括文件名 var pathname = url.parse(request.url).pathname; // 输出请求的文件名 ...

2018-09-30 08:25:43 3554 5

原创 Python2 的编码问题:

比如这样一个字符串”\u6768\u777f”,无论怎么print它都是这个形式因为它是文本,不是编码,那么怎么转为中文呢,则需要用如下命令:print text.decode(‘unicode_escape’)\xe6\x9d\xa8”就代表着一个字 ,对于这些字符,只需要使用如下命令即可从文本转为编码字符串print text.decode(‘string_escape’)...

2018-09-06 20:56:05 1043

转载 k-d tree算法原理及实现

k-d tree算法原理及实现 原文:https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.htmlk-d tree即k-dimensional tree,常用来作空间划分及近邻搜索,是二叉空间划分树的一个特例。通常,对于维度为(k),数据点数为(N)的数据集,k-d tree适用于(N\gg2^k)的情形。1)k-d tree算法原理k-d tree是每个节点均为k维数值点的二叉树,其...

2020-06-11 11:08:43 921 3

转载 通过Javascript中的CFI实现混淆

https://bbs.pediy.com/thread-225748.htm

2019-12-26 10:47:29 307

转载 JavaScript混淆安全加固

转载自:https://juejin.im/post/5cfcb9d25188257e853fa71c#heading-14前言在安全攻防战场中,前端代码都是公开的,那么对前端进行加密有意义吗?可能大部分人的回答是,毫无意义,不要自创加密算法,直接用HTTPS吧。但事实上,即使不了解密码学,也应知道是有意义的,因为加密前和解密后的环节,是不受保护的。HTTPS只能保护传输层,此外别无用处。而...

2019-10-22 16:32:17 473 1

原创 SSl问题(未验证)

go to a diagnostics site like this one https://www.ssllabs.com/ssltest/analyze.htmlfind out what protocol the website uses (TLS1.0, TLS1.2, SSL3.0 (only?) …)find out what obsolete ciphers suite are...

2019-09-26 12:08:04 213

转载 js混淆加密,通过混淆Js代码让别人(很难)无法还原

1、为什么需要js混淆在web系统发展早期,js在web系统中承担的职责并不多,只是简单的提交表单,js文件非常简单,也不需要任何的保护。随着js文件体积的增大,为了缩小js体积,加快http传输速度,开始出现了很多对js的压缩工具,比如 uglify、compressor、clouser。。。它们的工作主要是    · 合并多个js文件&nbsp...

2019-07-09 15:54:33 31316 2

原创 window事件

keydown:altKey: falsebubbles: truecancelBubble: falsecancelable: truecharCode: 0code: "Space"composed: truectrlKey: falsecurrentTarget: nulldefaultPrevented: falsedetail: 0eventPhase: 0is...

2019-06-28 16:36:40 702

原创 7月更新 携程酒店价格房价爬取

5月,携程的反爬升级,新增加了加密参数目前js代码已经扒出来了,可实现脱机操作,稳定的解密eleven参数,稳定获取正确的酒店价格和其他相关信息,以下是截图,日期为5月8日:有需要加企鹅:1790017954...

2019-05-08 17:29:21 2261 1

原创 4.19最新携程酒店价格爬虫

在最近的4月,携程的反爬又升级了,加入了canvas指纹识别,反selenium操作,更多的cookies加密,不过思路还是以往的思路,通过正确的参数请求获得加密脚本,从而获得正确的eleven参数,请求得到ComplexHtml,解密正确的html.目前js代码已经扒出来了,可实现脱机操作,稳定的解密eleven参数,稳定获取酒店价格相关信息,以下是截图:有需要的可...

2019-04-22 11:12:29 2212

转载 superagent 模块

SuperAgentsuperagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下.一个简单的post请求,并设置请求头信息的例子 request .post('/api/pet') .send({ name: 'Manny', species: 'cat' }) ...

2019-04-15 16:15:26 409

转载 简要分析webpack打包后代码

简要分析webpack打包后代码 <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/1e9a94bda

2019-02-19 15:12:41 800

转载 移动时代的前端加密

背景相比其他被编译成二进制的应用,前端这种纯文本应用,太容易被解读和窜改。前端为什么要加密?加密重要的目的是出于对商业利益的保护。由于作品太容易被复制窜改,容易会失去渠道先机窜改不限于以下:署名被移除或替换;链接地址被替换;文案被修改;广告被移除、替换或植入;...一些轻度游戏,用户只会玩一两次,生命周期也就两三天。如果你开发的游戏被人山寨且他的渠道比你更广,那么对...

2019-02-11 10:29:47 238

转载 AMD模块化编程

概述RequireJS是一个工具库,主要用于客户端的模块管理。它可以让客户端的代码分成一个个模块,实现异步或动态加载,从而提高代码的性能和可维护性。它的模块管理遵守AMD规范(Asynchronous Module Definition)。RequireJS的基本思想是,通过define方法,将代码定义为模块;通过require方法,实现代码的模块加载。首先,将require.js嵌入...

2019-01-03 11:14:53 774

转载 Js apply方法详解

Js apply方法详解我在一开始看到javascript的函数apply和call时,非常的模糊,看也看不懂,最近在网上看到一些文章对apply方法和call的一些示例,总算是看的有点眉目了,在这里我做如下笔记,希望和大家分享..  如有什么不对的或者说法不明确的地方希望读者多多提一些意见,以便共同提高..主要我是要解决一下几个问题:1.   &n...

2018-12-12 08:44:23 549

转载 os.path

os.path.basename()返回path最后的文件名。若path以/或\结尾,那么就会返回空值。path='D:\CSDN'os.path.basename(path)=CSDNos.path.joinpath = "F:/gts/gtsdate/"b = os.path.join(path,"abc") # No '/' "F:/gts/gtsdate/abc" os...

2018-11-24 10:09:18 101

转载 网页编码终极解决

大家爬取网页的时候,应该都遇到过这种情况 当我打印网页源代码的时候发现 全部是乱码的那这个时候应该怎么办呢?requests是如何判断编码首先,response.content返回的内容 是二进制内容response.text 则是根据设置的encoding来解码 if not self.content:return str(’...

2018-11-22 09:52:02 538

转载 双向数据绑定实现之Object.defineProperty

vue.js利用的是es5的 defineproperty 特性实现的双向数据绑定,了解一下基本原理。举例var person= {};Object.defineProperty(person, "name", { value: '张三'})console.log(person.name); // 张三传参第一个参数:要设置的目标对象(必填)...

2018-11-11 12:38:58 141

转载 SSLError

python: 2.7 requests: 2.19.1最近需要向第三方发送https请求爬取数据,需要绕过SSL,但是在此过程中发生了如下错误: requests.exceptions.SSLError: (“bad handshake: SysCallError(-1, ‘Unexpected EOF’)”,)原因:R...

2018-11-10 09:55:14 905

转载 css选择器

基本css选择器CSS选择器中,最常用的选择器如下:选择器描述举例*通配选择器,选择所有的元素*<type>选择特定类型的元素,支持基本HTML标签h1.<class>选择具有特定class的元素。.class1<type>.<class>特定类型和特定clas...

2018-11-09 18:09:59 130

原创 Python2使用 requests管理cookies的bug

一般在訪問網頁的時候,response會向session中寫入cookie,例如:HTTP/1.1 200 OKContent-Type: application/json; charset=utf-8Content-Length: 41Access-Control-Allow-Methods: GET,PATCH,PUT,POST,DELETE,OPTIONSContent-Encod...

2018-11-05 14:22:12 253

转载 彻底理解js中this的指向,不必硬背。

  首先必须要说的是,this的指向在函数定义的时候是确定不了的,只有函数执行的时候才能确定this到底指向谁,实际上this的最终指向的是那个调用它的对象(这句话有些问题,后面会解释为什么会有问题,虽然网上大部分的文章都是这样说的,虽然在很多情况下那样去理解不会出什么问题,但是实际上那样理解是不准确的,所以在你理解this的时候会有种琢磨不透的感觉),那么接下来我会深入的探讨这个问题。  为什...

2018-11-05 09:27:34 110

转载 关于requests的session方法保持不了cookie的问题。

最近在做爬虫的时候遇到了一个问题,在用requests的session方法保持cookie的时候发现requests不能保持手动构建的cookie。起初以为requests只能自动保持由服务器返回的set-cookie语句中的cookie。后来查了很多资料,才终于明白。原来requests只能保持 cookiejar 类型的cook...

2018-11-01 14:44:28 724

转载 sqlachemy的使用

基本使用# coding: utf-8from sqlalchemy import create_enginefrom sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column, String, Integerengine = create_engine('mysql+mysqld...

2018-10-18 09:58:15 447

转载 RSA加密的python实现

import rsakey = rsa.newkeys(3000)#生成随机秘钥privateKey = key[1]#私钥publicKey = key[0]#公钥message ='sanxi Now is better than never.'print('Before encrypted:',message)message = message.encode()cryptedM...

2018-10-18 09:42:42 1285

原创 新浪模拟登陆

抓包:总共2个包GET https://login.sina.com.cn/sso/prelogin.php?entry=account&callback=sinaSSOController.preloginCallBack&su=MTM5MTMyOTI0NjU%3D&rsakt=mod&client=ssologin.js(v1.4.15)&_=1539...

2018-10-18 09:38:01 1315

原创 brpop阻塞redis消息队列

不使用brpop的时候其实也可以实现redis的消息队列,只是不是阻塞的: def parse_url(self): while True: url=self.redis.rpop(self.url_detail_list) if not url: continue u...

2018-10-16 10:42:18 12274

转载 python aiohttp简易使用教程

0. 前言本文翻译自aiohttp的官方文档,如有纰漏,欢迎指出。aiohttp分为服务器端和客户端,本文只介绍客户端。另外我已经对 aiohttp 和 asyncio进行了封装,可以参考我的 github 地址:https://github.com/web-trump/ahttp由于上下文的缘故,请求代码必须在...

2018-10-13 11:44:58 1532

转载 Python aiohttp

客户端import aiohttpimport asyncioasync def fetch(session, url): async with session.get(url) as response: return await response.text()async def main(): async with aiohttp.ClientSess...

2018-10-13 11:21:17 465

原创 redis的轻量级队列

To put jobs on queues, you don’t have to do anything special, just define your typically lengthy or blocking function:import requestsdef count_words_at_url(url): """Just an example function tha...

2018-10-13 10:12:03 438

原创 websocket-client的使用

1. 代理访问:import websocketws = websocket.WebSocket()# websocket的代理使用ws.connect("ws://example.com/websocket", http_proxy_host="proxy_host_name", http_proxy_port=3128)2. Long-lived connectionimpor...

2018-10-12 20:02:31 4023

转载 WebSocket教程

一、为什么需要 WebSocket?初次接触 WebSocket 的人,都会问同样的问题:我们已经有了 HTTP 协议,为什么还需要另一个协议?它能带来什么好处?答案很简单,因为 HTTP 协议有一个缺陷:通信只能由客户端发起。举例来说,我们想了解今天的天气,只能是客户端向服务器发出请求,服务器返回查询结果。HTTP 协议做不到服务器主动向客户端推送信息。这种单向请求的特点,注定了如果...

2018-10-12 19:21:23 151

转载 使用WebSocket构建实时WEB

http://www.cnblogs.com/shijiaqi1066/p/3795075.html  1 WebSocket与传统Web实时通信技术1.1 WebSocketHTTP是一种典型的单工模式。即基于Request/Response的方式与服务器进行交互。HTML5提供了浏览器与服务端的双工通信协议WebSocket。  1.2传...

2018-10-12 18:59:30 221

转载 Python websocket爬虫

有些网站为了追求数据的实时更新,很多时候会采用 websocket 的方式,例如股票交易数据、数据货币交易数据等。关于websocket的机制,网上不乏相关资料。但关于websocket的爬虫文章,还是比较少的。所以特地写此文章做个分享,希望对他人有所帮助。 正文1、 首先要意识到,websocket和普通的HTTP请求有些不同。websocket的方式:用户浏览器(客户端)和对方网站...

2018-10-12 18:32:51 4198 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除