9 fu_shuwu

尚未进行身份认证

暂无相关简介

等级
TA的排名 3k+

【OCR技术系列之七】端到端不定长文字识别CRNN算法详解

在以前的OCR任务中,识别过程分为两步:单字切割和分类任务。我们一般都会讲一连串文字的文本文件先利用投影法切割出单个字体,在送入CNN里进行文字分类。但是此法已经有点过时了,现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过DCNN和RNN后,在输出阶段经过一定的翻译后,就可以对整个文...

2019-09-14 10:07:48

方舟编译器编译helloworld

根据方舟官方文档,首先要把方舟编译器的源码,编译成可执行代码maple1、操作系统环境:目前我使用的是Ubuntu16.04虚拟机而且官方推荐Ubuntu16.042、安装支持包及库文件:sudoapt-get-yinstallopenjdk-8-jdkgit-coregnupgflexbisongperfbuild-essentialzip...

2019-09-07 12:27:57

ffmpeg+nginx+rtmp+web实现视频直播网站

项目简介:视频直播网站由三个部分构成:1.推流端2.服务器3.拉流端。在该项目中,推流端用ffmpeg完成,服务器由NGINX+RTMP模块完成,拉流端使用VLC完成。一、开发环境简介:推流端:系统:UBUNTU16.04工具:ffmpeg服务器:系统:UBUNTU16.04工具:NGINX+RTMP拉流端:系统:WINDOWS7工具:VLC3.0.0二、构建服...

2019-04-27 10:40:54

Mask-RCNN 算法及其实现详解

https://blog.csdn.net/remanented/article/details/79564045写在前面:经过了10多天对RCNN家族的目标检测算法的探究,从一个小白到了入门阶段,觉得有必要记录下这些天学习的知识,如有理解的不到位的地方,还望各位大佬指教。文章代码量比较大,详细的看可能需要一段的时间,等毕设开题答辩完了之后有时间我再修改修改,望谅解。MASKRCNN算...

2019-04-21 22:21:13

MaskRCNN源码解读

https://blog.csdn.net/horizonheart/article/details/81188161源码地址:https://github.com/matterport/Mask_RCNN这个是一个基于Keras写的maskrcnn的源码,作者写的非常nice。没有多余的问文件,源码都放在mrcnn中,readme里为了了解maskrcnn的运行流程,最好的办法就是...

2019-04-21 20:43:33

AndroidO Treble架构下Hal进程启动及HIDL服务注册过程

https://blog.csdn.net/yangwen123/article/details/79854267通过前面对Treble架构的介绍,我们知道,Android Framework进程和Hal分离,每个Hal独立运行在自己的进程地址空间,那么这些Hal进程是如何启动的呢?本文以composer hal为例展开分析。在以下路径有composer hal的rc启动脚本:hard...

2019-04-20 21:05:33

MaxPooling的作用

maxpooling主要有两大作用1.invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度)2.保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力(1)translationinvariance:这里举一个直观的例子(数字识别),假设有一个16x16的图片,里面有个数字1...

2019-03-06 21:54:39

小白都能看懂的softmax详解

1.softmax初探在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义,softmax由两个单词组成,其中一个是max。对于max我们都很熟悉,比如有两个变量a,b。如果a>b,则max为...

2019-03-06 21:47:16

卷积神经网络系列之softmax,softmax loss和cross entropy的讲解

我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等。虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变得非常简单,但是你对这些层具体是怎么实现的了解吗?你对softmax,softmax loss,cross entropy了解吗?相信很多人不一定清楚。虽然网上的资料很多,但是...

2019-03-06 21:26:50

深入理解GoogLeNet结构

inception(也称GoogLeNet)是2014年Christian Szegedy提出的一种全新的深度学习结构,在这之前的AlexNet、VGG等结构都是通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如overfit、梯度消失、梯度爆炸等。inception的提出则从另一种角度来提升训练结果:能更高效的利用计算资源,在相同的计算量下能提取到更多的特征,从而...

2019-01-24 21:13:51

ubuntu 16.04 利用samba 共享移动硬盘

    Windows下面如何访问到ubuntu下的一个移动硬盘呢,一开始当然是考虑到samba这个工具了。  没有什么好说的,立即安装一个samba  sudoapt-getinstallsamba添加系统用户账户sudoaddusersamba_user1添加samba共享用户账户   sudosmbpasswd-a...

2019-01-12 11:29:38

Keras TensorFlow教程:如何从零开发一个复杂深度学习模型

Keras是提供一些高可用的PythonAPI,能帮助你快速的构建和训练自己的深度学习模型,它的后端是TensorFlow或者Theano。本文假设你已经熟悉了TensorFlow和卷积神经网络,如果,你还没有熟悉,那么可以先看看这个10分钟入门TensorFlow教程和卷积神经网络教程,然后再回来阅读这个文章。在这个教程中,我们将学习以下几个方面:为什么选择Ke...

2019-01-05 22:39:36

基于tensorflow + Vgg16进行图像分类识别

1. VGG-16介绍vgg是在Very Deep Convolutional Networks for Large-Scale Image Recognition期刊上提出的。模型可以达到92.7%的测试准确度,在ImageNet的前5位。它的数据集包括1400万张图像,1000个类别。 vgg-16是一种深度卷积神经网络模型,16表示其深度,在图像分类等任务中取得了不错的效果。 vgg...

2018-12-04 22:09:02

深度学习中的注意力机制

作者 | 张俊林责编 | 何永灿 最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。注意力模型...

2018-11-25 10:43:20

Attention注意力机制--原理与应用

                               Attention注意力机制--原理与应用注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。什么是Attention?Att...

2018-11-24 10:05:05

中文文本识别 FSNS格式tfrecord生成

最近,想使用谷歌的Attention OCR做中文文本识别,项目github地址:https://github.com/A-bone1/Attention-ocr-Chinese-Version,中文介绍可参考CSDN博客:https://blog.csdn.net/qq_40003316/article/details/80062023。        研究后发现该模型的训练数据需要提供FSN...

2018-11-24 09:37:12

基于注意力模型和卷积循环神经网络的中文自然场景文本识别

 最近,在进行相关中文文本识别的工作,查阅了许多论文。最终决定参考谷歌的基于注意力机制的街景文本识别的论文:"Attention-based Extraction of Structured Information from Street View Imagery",并对官方源代码进行修改。      本次中文文本识别的github地址为:https://github.com/A-bone1/...

2018-11-24 09:30:13

【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)

文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。今天我们首先来谈一下当今流行的文字检测技术有哪些。文本检测不是一件简单的任务,尤其是复杂场景下的文本检测,非常具有挑战性。自然场景下的文本检测有如下几个难点:文本存在多种分布,文本排布形式多样; 文本存在多个方向; 多种语言混合。 我们先从直观上理解文本...

2018-11-18 10:55:54

详述目标检测最常用的三个模型:Faster R-CNN、SSD和YOLO

最近做一些关于FasterR-CNN、SSD和YOLO模型选择和优化的项目,之前只了解FasterR-CNN系列目标检测方法,于是抽空梳理一下这几个检测模型。先上两张简单的精确度和运算量的对比图,有个粗略的了解,虽然图中缺了YOLO,参考价值仍然很大:下面开始分别详述吧~FasterR-CNN架构传统目标检测方法大致分为如下三步:深度学习特别是CNN的出现...

2018-11-18 10:13:41

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。object detection技术的演进:RCNN->S...

2018-11-18 09:17:39

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。