自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 利用Python对链家网北京二手房进行简单数据分析

#首先我用爬虫获取到了链家二手房的一万多条信息,我在爬去的时候对空置进行了处理本文主要讲述如何通过pandas对爬虫下来的链家数据进行相应的二手房数据分析,主要分析内容包括各个区,各个小区的房源信息情况#导入主要的模块import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#读取数据house = pd.re...

2018-06-17 11:52:22 14381 9

原创 js hook cookie

//当前版本hook工具只支持Content-Type为html的自动hook//下面是一个示例:这个示例演示了hook全局的cookie设置点(function() { //严谨模式 检查所有错误 'use strict'; //document 为要hook的对象 这里是hook的cookie var cookieTemp = ""; Object.defineProperty(document, 'cookie', { //hook set方法也就是赋值的

2022-04-14 10:38:09 1682

原创 hadoop2.7.3 在 centos7 上部署安装(单机版)

hadoop 简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量...

2020-04-13 18:53:46 300

原创 python 调用js 实现 AES ECB Pkcs7 加密

在碰到一个登录加密的一个jsfunction encryptByAES(a, b) { var c = CryptoJS.SHA1(b); c = CryptoJS.SHA1(c).toString().substring(0, 32); var d = CryptoJS.enc.Hex.parse(c) , e = CryptoJS.AES.encryp...

2020-04-13 15:27:05 1266 3

原创 安卓逆向工具 jadx

在爬取app 的过程当中 用加密参数破解不了的时候,我们就需要逆向app今天介绍一个安卓逆向的工具jadx下载地址https://bintray.com/skylot/jadx/unstable/v1.1.0-b1266-a5ea560e#filesgithub地址https://github.com/skylot/jadxjadxjadx是个人比较喜欢的一款反编译利器...

2020-04-07 15:15:39 1183

原创 爬虫编码问题UnicodeEncodeError: 'gbk' codec can't encode character '\xb5' in position 833: illegal multiby

解决方案: content.encode('gbk', 'ignore').decode("gbk", "ignore")

2019-12-02 17:06:11 663

原创 python rsa 加密2

登录某网站发现post 请求密码加密 入下图这以看就事rsa 加密 ,然后我在源码中找到,key 值如下图然后我用python 来实现他的加密方法。# -*- coding: utf-8 -*- # 加密import rsa# key = ("8280f2b167fba159391389977a1b476c641e044c361898480715d652deff...

2019-07-03 10:40:59 783

原创 python 爬虫rsa加密

在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQDC7kw8r6tq43pwApYvkJ5laljaN9BZb21TAIfT/vexbobzH7Q8SUdP5uDPXEBKzOjx2L28y7Xs1d9v3tdPfKI2LR7PAzWBmDMn8riHrDDNpUpJnlAGUqJG9ooPn8j7YNpcxC...

2019-05-07 12:29:32 2153

原创 云服务器python3.6的安装

环境说明:centos7 云服务器,阿里云。 安装python版本:Python-3.6.5安装编译依赖包,不可省略yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc makeyum install openssl-d...

2019-04-20 19:55:59 2173 4

原创 mysql 在阿里云服务器上的安装

由于服务器到期,没有及时付费,有买了一台新的。买下先安装环境。在这做个记录。安装前,我们可以检测系统是否自带安装 MySQL:rpm -qa | grep mysql如果你系统有安装,那可以选择进行卸载:rpm -e mysql  // 普通删除模式rpm -e --nodeps mysql  // 强力删除模式,如果使用上面命令删除时,提示有依赖的其它文件,则用该命令...

2019-04-19 11:01:59 510

原创 Python操作MongoDB

很久没有写博客了,今天早上简单的复习了下mongdb,在之前的工作中一直用的是mysql,没有用过mongdb,对于大型的爬虫项目很多大佬都建议用mongdb。我们公司的Java爬虫用mongdb。对于python而言操作数据库是非常简单的。早上起来没什么事情就简单了找了一篇博客,一看是崔大佬写的。https://juejin.im/post/5addbd0e518825671f2f62e...

2019-03-30 15:41:38 173

原创 关于lxml 格式化后,如何输出源代码的问题

在工作中遇到问题就是用lxml匹配出来,得出的结果是[<Element div at 0x2d616dd48c8>]我需要把他格式化出来,然后用lxml的一个方法from lxml import htmlcontent = html.tostring(content[0])得出格式化后的结果,是bytes类型,我们需要转strcontent = str(...

2019-03-20 17:09:34 889

原创 python 链接redis数据库

redis提供两个类Redis和StrictRedis 用于实现redis的命令,strictRedis用于实现大部分的官方命令,并使用官方的语法和命令,redis 是strictictredis的子类。#decode_responses = True, 写入键值中的value 为str类型,不写这个为写入自字节类型。 import redis# python 链接数据库redis...

2018-12-19 17:30:42 395

原创 OpenCV-Python教程(5、初级滤波内容)

本篇文章介绍如何用OpenCV-Python来实现初级滤波功能。本文来自https://blog.csdn.net/sunny2038/article/details/9155893简介过滤是信号和图像处理中基本的任务。其目的是根据应用环境的不同,选择性的提取图像中某些认为是重要的信息。过滤可以移除图像中的噪音、提取感兴趣的可视特征、允许图像重采样,等等。其源自于一般的信号和系统理论,这...

2018-12-12 15:40:15 192 1

原创 OpenCV-Python教程(4、形态学处理)

本文来自https://blog.csdn.net/sunny2038/article/details/9137759定义结构元素形态学处理的核心就是定义结构元素,在OpenCV-Python中,可以使用其自带的getStructuringElement函数,也可以直接使用NumPy的ndarray来定义一个结构元素。首先来看用getStructuringElement函数定义一个结构元素...

2018-12-11 18:25:14 593

原创 OpenCV Python教程(3、直方图的计算与显示)

本文参考https://blog.csdn.net/sunny2038/article/details/9097989本篇文章介绍如何用OpenCV Python来计算直方图,并简略介绍用NumPy和Matplotlib计算和绘制直方图直方图的背景知识、用途什么的就直接略过去了。这里直接介绍方法。计算并显示直方图与C++中一样,在Python中调用的OpenCV直方图计算函数为cv...

2018-12-11 11:57:39 1015 2

原创 OpenCV Python教程(2、图像元素的访问、通道分离与合并)

访问像素像素的访问和访问numpy中ndarray的方法完全一样,灰度图为i = int(np.random.random() * img.shape[1])j = int(np.random.random() * img.shape[0])img[j,i] = 255其中j,i分别表示图像的行和列。对于BGR图像,为(第三个数表示通道)img[j,i,0]= 255im...

2018-12-10 18:56:23 654

原创 OpenCV Python教程(1、图像的载入、显示和保存)

本文来自 https://blog.csdn.net/sunny2038/article/details/9057415跟着老哥的博客做做笔记,本文是OpenCV  2 Computer Vision Application Programming Cookbook读书笔记的第一篇。注意:现在OpenCV for Python就是通过Numpy进行绑定的。所以在使用时必须掌握一些num...

2018-12-10 11:55:27 517

原创 python opencv的安装

命令安装pip install opencv-contrib-python安装OpenCV后验证python -c "import cv2;print(cv2.__version__,cv2.__doc__,cv2.__file__)"出现3.4.4 Python wrapper for OpenCV这个说明安装成功详情请看官方文档https://pypi.org/project/...

2018-12-08 21:49:41 167

原创 flask项目部署到阿里云服务器

mkdir uwsgi

2018-11-15 11:37:11 1707

原创 Python3-StringIO和BytesIO的总结

StringIO经常被用来作字符串的缓存,因为StringIO的一些接口和文件操作是一致的,也就是说同样的代码,可以同时当成文件操作或者StringIO操作。StringIO的行为与file对象非常像,但它不是磁盘上文件,而是一个内存里的“文件”,我们可以将操作磁盘文件那样来操作StringIO。一个简单的例子,让你对StringIO有一个感性的认识:import io#生成一个Strin...

2018-11-14 15:53:49 6255

原创 关于图片webp 转 jpg

前端时间遇到一个问题就是下载下来的webp图片在苹果手机和火狐浏览器打不开,,,这时我想到的是webp 转jpg,,非常简单首先我们先下载一张webp的图片代码request.urlretrieve('http://p99.pstatp.com/large/pgc-image/95b9aa2664c1441199795f84e2812e39.webp','./sss.jpg')...

2018-11-14 14:00:44 4699 1

原创 关于西瓜视频加密算法的总结

前段时间遇到一个视频加密的网站。西瓜视频首先先通过抓包软件抓取接口,一般抓取的接口都是json,接口就不给你们写了,自己可以用抓包软件抓取,,我们请求URL,记得加cookie 得到结果如下图,只有一部分可以看出视频的地址是但不是真实的地址。真实地址是通过加密算法算出来,以上就是视屏的真实地址,但是他有以上好几个参数获取1首先要获取视频的唯一id、可以在以上...

2018-10-15 15:27:59 5627 3

原创 关于Charles的安装,手机抓包的连接,以及配置

Charles是一个网络抓包工具,相比Fiddler,其功能更为强大,而且跨平台支持得更好,所以这里选用它来作为主要的移动端安排app抓包工具配置,以及连接。1. 相关链接官方网站:https://www.charlesproxy.com 下载链接:https://www.charlesproxy.com/download2. 下载Charles根据自身情况下载,Charles...

2018-10-15 11:37:12 4544

原创 关与今日头条app的爬虫介绍

这段时间忙于工作,主要针对新闻资讯内容的爬取主要爬的有今日头条,凤凰,网易,腾讯,大型网站的爬取,的总结,1,必须熟悉手机抓包软件的配置,才可以有效的抓取到接口2,从接口处寻找规律,3,明确自己需要哪些内容,4.写爬虫我通过接口找到了所有的类目:classify_url = 'https://is.snssdk.com/article/category/get_sub...

2018-09-27 22:14:13 5377 23

原创 linux 工作中常用的命令

#定时启动你的脚本在命令行输入:crontab -e#会出现编辑器在里面编辑你要启动的脚本命令,以Python为列5 10 * * * /usr/bin/python 然后输入你脚本的绝对路径这将会在每天早上10点 5 分运行这个脚本以下是 crontab 文件的格式:{minute} {hour} {day-of-month} {month} {day-of-wee...

2018-09-20 18:23:58 378

原创 request.urlretrieve下载视屏,图片报403,解决方案

#加请求头就可以了opener = request.build_opener()opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1941.0 Safa...

2018-09-17 14:29:25 856

原创 处理HTTPS请求 SSL证书验证

现在随处可见 https 开头的网站,urllib2可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如:https://www.baidu.com/等...如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,比如浏览器在访问12306网站如:https://www.12306.cn/mormhweb/的时候,会警告用户证...

2018-06-28 11:23:45 4394 1

原创 Selenium的使用

SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。命令安装:p...

2018-06-28 11:08:55 664

原创 进程,线程,协程

cpu:内核进程:优点:提高效率,利用cpu多核优势开启个数:理论上是cpu内核的1-2倍描述:一段程序或者脚本的执行,cpu资源分配的最小单位缺点:资源消耗非常大,进程过多,cpu切换进程执行也消耗资源,资源共享困难使用场景:cpu密集型应用程序(计算密集型)线程:优点:提高效率,资源共享开启个数:跟计算硬件有关系,跟应用场景有关系,一般高于可开启进程守数描述:进程下可以开启多个线...

2018-06-25 16:39:46 542

原创 python 生成器

 什么是生成器?通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,  创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后  面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否    可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间...

2018-06-18 15:30:41 355

原创 从Redis把数据导入mysql数据库脚本

上次我们说到scrapy_redis ,我们把爬去的数据爬到内存里,那我们如何把数据导入数据库我的思路是 指定redis数据库信息和mysql数据库,然后无限循环从redis读取数据,然后写入mysql里具体代码如下# -*- coding: utf-8 -*-import jsonimport redis # pip install redisimport pymysqldef m...

2018-06-16 17:40:39 5257

原创 scrapy分布式爬虫的流程

最近在爬去网站中一直使用 redis 来管理分发爬虫任务,让我对 scrapy-redis 有很深刻的理解,下面让我慢慢说来。首先说下scrapy 和scrapy-redis的关系scrapy-redis 与 Scrapy的关系就像电脑与固态硬盘一样,是电脑中的一个插件,能让电脑更快的运行。Scrapy 是一个爬虫框架,scrapy-redis 则是这个框架上可以选择的插件,它可以让爬虫跑的更快。...

2018-06-12 20:52:59 1719

原创 NumPy - Matplotlib绘图库

NumPy - MatplotlibMatplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。Matplotlib 模块最初是由 John D. Hunter 编写的。 自 2012 年以来,Michael Droettboom 是主要开发者。 目前,Matpl...

2018-06-10 20:15:28 2131

原创 python 题

def accum(s):#写你的代码代码输出结果accum("abcd")  # "A-Bb-Ccc-Dddd"accum("cwAt")  # "C-Ww-Aaa-Tttt"这到题用到了字符串的所有字母大写和所有字母小写和字符串拼接,复制,用到的函数有 json 将列表中的内容按照指定字符连接成一个字符串,upper() 所有字母变大写 和lower() 所有字母小写 含有内置函数enumer...

2018-06-10 12:22:06 999

原创 NumPy - 线性代数

NumPy - 线性代数NumPy 包包含numpy.linalg模块,提供线性代数所需的所有功能。 此模块中的一些重要功能如下表所述。序号函数及描述1.dot 两个数组的点积2.vdot 两个向量的点积3.inner 两个数组的内积4.matmul 两个数组的矩阵积5.determinant 数组的行列式6.solve 求解线性矩阵方程7.inv 寻找矩阵的乘法逆矩阵numpy.dot()此函数...

2018-06-10 11:25:43 391

原创 scrapy 代理池的使用

#我们在爬取一些网站时往往会封ip,那我们这个时候就用到代理了,首先说下 请求头的使用的几种方法#第一我们可以在setting里设置请求头DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en...

2018-06-10 05:04:47 2532

原创 Nnumpy 教程(下)

import numpy as npa = np.arange(1,6)b = np.arange(3,8)a*b

2018-06-09 16:10:27 869

原创 Nnumpy 教程(上)

NumPy - 简介NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。Numeric,即 NumPy 的前身,是由 Jim Hugunin 开发的。 也开发了另一个包 Numarray ,它拥有一些额外的功能。 2005年,Travis Oliphant 通过将 Numarray 的功能集成到 Numeric...

2018-06-08 23:28:49 1128

原创 python 进程池

当需要创建子进程的数量不多的时候,可以直接利用multiprocessing 中的Process 动态生成多个进程,但如过有上百个或者上千个任务,手动创建工作量很大,此时我们就可以用到multiprocessing 下的Pool#初始话Pool时,可以指定一个最大的进程数,当有背后的请求提交到Pool中时,如果池子还没有满,name就会创建一个新的进程来执行该请求,但如果满了(池子当中的进程已达到...

2018-05-28 01:01:30 644

ython-157374.pdf

ython-157374.pdf

2021-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除