飞车穿越联盟-CSDN博客

原创 python+opencv实现图像拼接

任务拍摄两张图片去除相同部分，拼接在一起原图结果步骤读取两张图片使用sift检测关键点及描述因子匹配关键点处理并保存关键点得到变换矩阵图像变换并拼接代码实现# 读取两个图片 imageL = cv.imread('image/sift/test_left.jpg') grayL = cv.cvtColor(imageL, cv.COLOR_BGR2GRAY) imageR = cv.imread('image/sift/test_right.jpg')

2020-10-26 21:40:54 1155

原创 python使用opencv实现文档扫描并提取文字

目的将输入文档使用透视变换将不规则图形变换，然后使用tesseract库进行识别文字变换前图形变换后图形步骤1.加载原图并显示2.重新调整大小3.灰度处理4.滤波5.边缘检测6.找出轮廓7.透视变换主要的步骤：需要变换前pst1和变换后的4个坐标点pst2使用函数获得M矩阵pts1 = np.float32([[56,65],[368,52],[28,387],[389,390]])pts2 = np.float32([[0,0],[300,0],[0,300

2020-10-18 20:29:25 4012 1

原创 python安装及使用tesseract识别文字

步骤：下载安装tesseract配置环境变量安装pytesseract模块修改pytsseract模块中tesseract的安装路径使用1.下载安装：要记得安装在那个地方后面配置环境变量要用tesseract安装包地址2.配置环境变量目的：配置环境变量是为了在计算机中随意使用tesseract步骤：电脑右键点击属性高级系统设置环境变量系统变量找到path点击编辑新建环境变量：要填写你安装的tesseract的路径如下图这样就可以在任意地方使用了：敲入tesse

2020-10-18 20:11:27 648

原创 python+opencv实现信用卡识别

任务：使用opencv利用模板实现对信用卡卡号的识别模板图像如图：使用opencv对图像处理得到图像对应的数字并使用字典存储def template_process(img): temp_img = cv.cvtColor(img, cv.COLOR_BGR2GRAY) # 转换颜色 ret, temp_img = cv.threshold(temp_img, 127, 255, cv.THRESH_BINARY_INV) # show('temp', temp_i

2020-10-17 17:44:53 798 2

原创 scrapy爬取网站在线播放TS视频流片段并整合为MP4格式

目标：爬取网站在线播放的视频分析：1.网站：天一影视视频：天地争霸美猴王第一集2.request请求：'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000001.ts------>'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000664.ts可以看出只有最后不同：视频流从001.ts–&g

2020-09-29 11:00:35 8163 3

原创 selenium+scrapy爬取前程无忧职位

目标：爬取前程无忧网站职位关键字为python的职位信息分析首页的链接地址：‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,1.html’不同页码对应url‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,page.html’ 其中page对应页数存在的问题对第一页爬取数据发现不能解析职位信息：将获得的响应保存为h

2020-09-28 06:46:35 664 1

原创 scrapy yield request失效问题

1.出现的域名问题，可能yield request 中url允许的域名没有添加进去allowed_domains = [‘www.search.51job.com’,‘www.jobs.51job.com’]2.可以试试添加dont filter = trueyield scrapy.Request(url=url, callback=self.detail, dont_filter=True)...

2020-09-27 10:28:29 572

原创 python实现分布式爬取房天下数据的详细实现过程

**- @[TOC]提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、任务目标二、步骤1.准备工作2.修改为分布式3.运行爬虫三、结果前言首先，如何做一个分布式爬虫呢？其实不难，因为有scrapy-redis第三方库帮我们实现了、首先先写好一个本地的爬虫，然后再根据需求改一下就可以了，简单吧！。一、任务目标win10作为redis主服务器，在ubuntu中linux系统以及本机win10同时运行爬虫程序，并将爬取到的数据存储到win10 的redis数据

2020-09-06 15:40:40 510

原创 django使用fastdfs+nginx管理员上传文件报错问题

环境：ubuntu16.04django 1.8.2python 3.5安装好fastdfs和nginx后就要开始使用django框架使用管理员账号来测试能否上传成功先安装包pip install py3Fdfs导包时注意from fdfs_client.client import Fdfs_client, get_tracker_conf注意要导入这个函数get_tracker_conf 是用来获取tracker的后面要用这个函数来获取我们的tracker,不能直接传入一个路径字符串

2020-09-04 12:18:11 219

原创 python 使用imblearn处理非平衡数据

今天准备做一个针对python工作选择城市的分类算法数据集格式：以城市city那一列作为训练的目标值，这里把城市分为两类：一线城市和其他，一线城市包括：北京，上海，深圳，广州，这样划分后会导致数据集不平衡：python工作在上述一线城市的数量占到9成以上，在分类过程中，算法可能会有较好精确率，但是预测后发现算法将城市都预测为一线城市，因此，在这里要通过召回率和准确率来评判模型的好坏。*这里就要使用到不平衡数据集的处理方式1.过采样：将数量较少的数据增加如smote算法等2.欠采样：将数量多

2020-08-26 19:53:49 2219 1

原创 cannot encode object: 8, of type: ＜class ‘numpy.int64‘＞

pandas数据存储到mongodb数据库中需要注意类型转换不然会出现以下错误：bson.errors.InvalidDocument: cannot encode object: 8, of type: <class ‘numpy.int64’>mogo_item = python.loc[i].to_dict()collection.insert(mogo_item)这样插入mogodb数据库，由于pandas数字数据是以n’da’r’ra’y格式存储的，因此需要进行int 或者

2020-08-25 19:24:33 2651

原创 2020-08-18日爬取拉勾网java和python所有职业信息进行数据分析汇总并可视化展示

2020-08-18日爬取拉勾网java和python所有职业信息（具体爬虫看上一篇博客）链接地址本文爬取到的数据集可以在git上下载，地址如下：数据集和源码下载效果展示：由于保存的图片格式是svg,博客不能上传，这里只截了图。两种类型公司在全国分布**各城市给出的平均工资全国的平均工资分布公司规模和平均工资关系图这里java中爬取到的数据有些公司给出的工资不正常导致曲线有部分不正常，在图片中标出了工资随着工作年限的变化java中要求10年年限的公司一家而且给出的工资较低，没

2020-08-20 14:05:32 970

原创 matplotlib简单绘制常见图像

使用matplotlib绘制常见图像**导入的包及设置**import matplotlib.pyplot as pltimport osimport randompicture_path = os.path.join(os.getcwd(),“picture”)plt.rcParams[‘font.sans-serif’] = [‘SimHei’] # 设置中文显示1.散点图设置图片大小等信息fig = plt.figure(figsize=(20, 8),dpi=80)# 准备数据

2020-08-17 06:57:11 306

原创爬取拉钩网所有python职位信息

爬取所有关键字时python的职位信息并保存为csv格式项目在github下载地址：lagou-crawl-download说明：1.关键字可以是任意的在相应函数中修改就可以2.由于反爬虫需要添加middleware中间件，来添加随机请求头和代理3.由于使用selenium不添加代理只能爬取十几页的信息，想要爬取所有的应该是三十页左右4.你也可以通过参数来自定义起始页和第几个位置开始下载主要是为了防止由于网速等外界因素导致爬虫只能下载一部分，下次可以从上次结束的位置下载5.具体信息说明如下：

2020-08-16 17:05:58 231

原创斗鱼爬取主播相册爬虫函数封装

针对上一篇博客的函数进行了封装优化，爬虫运行速度更快，界面更简洁！这是主函数的优化具体看上一篇博客内容下面是爬虫的粗略工作流程：import scrapyimport jsonfrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.suppor

2020-08-16 14:11:53 216 1

原创 python+selenium+scrapy框架爬取斗鱼主播相册内的图片

#准备工作1.python版本3.82.pip install selenium：由于斗鱼上的很多关键数据都是通过ajax请求来获取的，所以需要安装selenium来控制浏览器点击3.谷歌浏览器+与之对应chromedriver:火狐浏览器也可以不过笔者用的是谷歌版的4.安装scrpay框架#代码分析#这是spider类的具体代码*import scrapyimport jsonfrom selenium import webdriverfrom selenium.webdriver

2020-08-13 21:48:08 304 2

qq_38546597的博客