6 uncle_ll

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

OCR文本图像合成工具

OCR文本图像合成工具问题在进行文字识别时候,需要使用的数据集样式为一张含有文本的图片以及对应文本内容的标签。但是一般而言,实际情况是构建的文本字典中,每个字至少要出现200次才能有好的识别效果,因此,先对所有的label进行单字统计,看每个字出现的个数是否超过200次,如果不满足,则需要进一步收集数据。数据来源有两种:真实数据:通过真实数据去截取图片或者人工标注生成数据:通过文本去生成对应的文本图片真实数据的收集是比较费事费力的,因此可以使用一些生成数据的工具来无限量的生成想要的数据。

2020-10-27 17:14:35

Pymysql 连接池操作

https://www.coder.work/article/500786https://blog.51cto.com/lookingdream/2449109https://www.jianshu.com/p/53262bb292e5https://blog.csdn.net/jacke121/article/details/79852146https://blog.csdn.net/u010939285/article/details/71088145https://www.letianbij

2020-10-25 23:16:57

OCR相关介绍

OCR相关介绍0 计算机视觉技术(computer version)计算机视觉是人工智能的一个重要分支,它要解决的问题就是:看懂图像里的内容。人的大脑皮层, 有差不多70% 都是在处理视觉信息。 是人类获取信息最主要的渠道,没有之一。下图是网络上新增数据的占比趋势图。灰色是结构化数据,蓝色是非结构化数据(大部分都是图像和视频)。可以很明显的发现,图片和视频正在以指数级的速度在增长。而在计算机视觉出现之前,图像对于计算机来说是黑盒的状态。一张图片对于机器只是一个文件。机器并不知道图片里的内容到底

2020-10-24 13:15:26

OCR算法识别性能评估

评估OCR算法识别率的指标通常有这几种:one全对准确率: 每张图片版面上有多个文本时候,每个文本都对的张数占总的张数的比例;标签全对准确率:每张图片版面上有多个文本时候,文本对的个数占总的文本个数的比例;平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况;字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况;字符识别召回率,即识别对的字符数占实际字符数的比例

2020-10-22 10:11:20

目标检测图像数据增强(Data Augmentation)——对比度|加噪|随机调整颜色

数据扩增数据扩增是扩充数据的一项重要手段,原理是基于已有的标注数据,进行相应变化,其对应的标签不作改变或者也跟着有相应的变化。本次只对原始图片进行更改,label保持不变。即只变动原始数据,生成新的图像的label与原始图像一样,只是文件名变了import skimageimport osimport shutilimport sysfrom PIL import Image, ImageEnhance, ImageChopsimport randomimport numpy as np

2020-10-16 18:23:25

批量将xml标注数据转为yolo所需与的txt格式标注数据

#!/usr/bin/env python3# -*- coding: utf-8 -*-import copyfrom lxml.etree import Element, SubElement, tostring, ElementTreeimport xml.etree.ElementTree as ETimport pickleimport osfrom os import listdir, getcwdfrom os.path import joinclasses = ["姓

2020-10-13 19:19:56

算法统一图片输入格式RGB/BGR

统一图片输入格式问题在做一些图像处理项目时候,有些模型对输入图片格式有一定的要求,不一致的图片格式输入进去可能会造成一些错误情况出现;统一输入图片读取后的格式是非常有必要的;在opencv中,使用cv2.imread读取jpg类型图片,得到的图像矩阵形式是bgr格式; 对于png类型图片,得到的图像矩阵形式是RBG格式;如果算法处理的图片既有jpg又有png,那么很有必要在算法入口处对两种图片得到的图像矩阵格式进行统一方法假设这里算法需要的是rgb类型格式的图片矩阵, 传入的是本地图片的名称img

2020-10-10 18:10:12

python包:urllib——使用urllib下载无限制链接图片

背景需要将无限制链接转换为本地图片进行后续处理,这里需要用到python的urllib包,该包收集了多个涉及 URL 的模块的包:urllib.request 打开和读取 URLurllib.error 包含 urllib.request 抛出的异常urllib.parse 用于解析 URLurllib.robotparser 用于解析 robots.txt 文件这里需要用到urllib.request包进行打开和读取图片链接urlurllib.request详细介绍可以

2020-09-24 00:13:24

Python从入门到熟练(7):函数

函数本节主要讲函数。函数也可以看作是一种方法,能够去实现某种想法,比如加法等操作就是一种函数,只不过在背后被封装起来了。函数是编程中一个重要的方法,掌握函数,就可以以编程的方式实现自己脑海中的想法。1 函数的基本使用函数:把具有独立功能的代码块打包为一个小模块,在需要的时候调用函数的使用包含两个步骤:定义函数——封装独立的功能调用函数——享受封装的成果作用:在开发程序时,使用函数可以提高工作效率以及代码的重用Python中提供了非常多的内置函数:print()、in

2020-09-19 10:10:54

使用demjson解决json解析不规范格式json串JSONDecodeError错误

Json在编程中是一种轻量级的文件格式,在本地开发或者web开发中使用较多。参考维基百科介绍如下:JSON(JavaScript Object Notation,JavaScript对象表示法,读作/ˈdʒeɪsən/)是一种由道格拉斯·克罗克福特构想和设计、轻量级的资料交换语言,该语言以易于让人阅读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。尽管JSON是JavaScript的一个子集,但JSON是独立于语言的文本格式,并且采用了类似于C语言家族的一些习惯。JSON 数据格式与语言无

2020-09-16 22:29:20

Python从入门到熟练(6):流程控制

流程控制对于编程而言,其实严格来说就是将一套逻辑用程序语言编写出来,让其自动实现这套逻辑。那么在逻辑中,有各种各样的条件,以及条件对应下的实现,这就是流程控制。在程序中,一般是通过运算符, if 条件语句, while循环语句,for循环语句等方式控制流程。1. 运算符注意:is与==区别 :is用于判断两个变量引用对象是否为同一个(同一块内存空间)==用于判断引用变量的值是否相等内存空间可以用id来获取(id(a))逻辑运算符在程序开发中,有时候需要同时判断多个条件逻辑运算

2020-09-14 23:47:42

Python从入门到熟练(5): 数据类型进阶

在python中,数据类型主要由以下几类组成:列表(list): [a, b]元组(tuple):(a, b, )集合(set): {a, b}字典(Dictonary): {a: ‘aaa’, b: ‘bbb’}1. 列表列表(List)列表是Python中使用最频繁的数据类型,专门用于存储一串信息列表是一种有序和可更改的集合。允许重复的元素列表使用[]定义,元素之间使用,分隔。例:[1,2, ...]列表的索引从位置0开始索引就是元素在列表中的位置编号,索

2020-09-13 17:42:14

Python从入门到熟练(4):基础数据类型

1.变量与赋值1.1 什么是变量就像一个盒子(或者容器),可以通过使用定义变量的方式,开辟一块内存空间存储数据,定义变量之后使用变量名调用数据。如何定义一个变量赋值号(=):对变量赋值变量名 = 值,eg: a = 2Python中的命名规则:标识符由字符(A〜Z , a〜z ) 、下划线和数字组成第一个字符不能是数字不能包含空格、@、%以及$等特殊字符不 能 和Python中的关键字相同,例如:True , False , None等Python中的33个关键字[

2020-09-13 16:09:15

Leetcode practice(347): 前 K 个高频元素

题目: 前K个高频元素给定一个非空的整数数组,返回其中出现频率前 k 高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]提示:你可以假设给定的 k 总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(n log n) , n 是数组的大小。题目数据保证答案唯一,换句话说,数组中前 k 个高频元素的集合是唯一的。你可以按

2020-09-07 23:38:13

个人公众号: AI科技时讯

个人公众号: AI 科技时讯专注于分享:原创内容热门内容资源新闻职言路过的朋友关注下吧 ????

2020-09-07 22:49:15

Python从入门到熟练(3):第一个程序

第一个程序1 Python ShellShell (命令解释器):指提供交互式的操作界面,并能运行代码的软件Python Shell :安装Python后自带的Python交互式解释器进入:在终端中输入python , 回车退出 : 在Python Shell中输入exit(),回 车在 Python Shell中输入Python代码,回车可立即获得执行结优点:简单便捷,即时反馈,不需要创建Python文件缺点:不能保存代码,不方便输入或修改结构复杂的代码Python Shell 下

2020-09-03 22:57:12

Python从入门到熟练(2):Python简介

1.Python 起源在1989年的圣诞节,吉多决定开发一种新的脚本解释语言,作为ABC语言的继承。ABC语言是由吉多参加设计的一种教学语言,但是随着时间的推移,ABC语言因为自身封闭的语言特性,而没有广泛流行起来。1991年,Python 的第一个版本在吉多的Mac机上诞生了,吉多之所以将这门新的编程语言命名为Python,是因为他喜欢一部电视剧——蒙提·派森的巨蟒剧团之飞翔的马戏团(Monty python)吉多编写的第一个Python解释器是使用C语言实现的,并且能够调用C语言的库文件,所有

2020-09-03 19:18:23

Python从入门到熟练(1):安装python

安装pythonpython的安装相较于其它开发语言而言,其安装是比较简单的。大体上分为两种方式安装:Anaconda包安装python包安装Anaconda包是一个用于科学计算的Python 发行版,支持Linux, Mac, Windows, 包含了众多流行的科学计算、数据分析的Python 包。版本比较通用,且可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本,创建不同的版本已适配不同的项目环境需要。关于Anaconda的安装可以见之前的博客,对于开发者而言推荐使用这种方式

2020-08-31 19:17:29

新服务器CPU/GPU python开发环境装机记录

更改pip源至国内镜像,显著提升下载速度服务器装机原因新申请了几台服务器,有GPU机器以及CPU机器,需要给配置下运行环境。对于GPU与CPU而言,大致流程差不多,只是GPU会麻烦一些,需要安装NVIDIA相关的驱动及加速包等。不过有了docker后,可以将能运行好的项目用docker打包后,直接在新机器上部署就能跑动了,但这比较适用于服务端部署时候使用,如果是个人开发,还是建议单独配置下环境较好。分配到服务器后,大致需要安装及配置以下几项内容:联系运维开通个人账户,及机器访问外网权限及端口权限

2020-08-20 13:07:36

opencv-python: libSM.so.6: cannot open shared object file: No such file or directory

opencv-python: libSM.so.6: cannot open shared object file: No such file or directory问题:import cv2报错:from .cv2 import *ImportError: libSM.so.6: cannot open shared object file: No such file or directory 报错原因: 缺少共享库Centos解决方案sudo yum install libX

2020-08-10 10:25:10

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 1024勋章
    1024勋章
    #1024程序员节#连续参与两年活动升级勋章,当日发布原创博客即可获得
  • 分享精英
    分享精英
    成功上传11个资源即可获取