爱破破爱科研-CSDN博客

原创 TensorRT简介--高性能深度学习支持引擎

上文简单提到了TensorRT的基础与onnx转换：基于TensorRT的神经网络推理与加速：https://blog.csdn.net/intflojx/article/details/81712651后面看到老板的slides, 感觉理解更深层次了哈，要学习的东西还有很多哈。摘要：随着传统的高性能计算和新兴的深度学习在大型的互联网企业的普及发展，作为训练和推理载体的...

2018-08-17 16:13:29 25838 3

一. 引言NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎，用于在生产环境中部署深度学习应用程序，应用于图像分类、分割和目标检测等，可提供最大的推理吞吐量和效率。TensorRT是第一款可编程推理加速器，能加速现有和未来的网络架构。TensorRT包含一个为优化生产环境中部署的深度学习模型而创建的库，可获取经过训练的神经网络(通常使用32位或16位数据)，并针对...

2018-08-15 22:52:32 13060 8

原创场景文字检测

场景文字检测可以作为OCR的前端，为可以应用于商标识别等应用。https://blog.csdn.net/intflojx/article/details/812783931 赛题简介在互联网世界中，图片是传递信息的重要媒介。特别是电子商务，社交，搜索等领域，每天都有数以亿兆级别的图像在传播。图片文字识别（OCR）在商业领域有重要的应用价值，是数据信息化和线上线下打通的基础，也是学术界...

2018-07-30 15:36:36 5971 3

原创商家招牌的分类与检测

现实生活中的招牌各种各样，千变万化。针对初赛，在现实世界中，选取100类常见的招牌信息，如肯德基、麦当劳、耐克等。将最终的分类结果上传到比赛平台。数据典型图像 a.样本类别多样性 b.每类样本数据多样化思路：初赛难度不大，通过简单的数据增强，将图像经过ResNet50提取特征，经过FC+softmax或者SVM就能达到很好的...

2018-07-30 01:53:18 3340 8

原创人脸比对（1:N）

第1章前言设计出人脸1：N，随着N的增大准确率降低最小的解决方案具有很强的现实意义。人脸1：N的框架大致分为：人脸检测、人脸对齐、人脸映射与人脸识别LOSS的设计，结构如下图所示：图1：人脸1：N的主要框架人脸1：N在学术界有着广泛的研究，对于人脸检测与人脸对齐（MTCNN、TCDCN等）在业界已经有较好的效果，目前的主要性能提升有：DeepFace、DeepID，框架为CNN ...

2018-07-30 01:02:57 29612 16

原创 GAN网络清晰化游戏视频

一. 研究背景为了能够流畅运行游戏，我们除了在视频流上面进行编码，也可以通过压缩画面的大小，以1/4或者1/8的画质进行传输。在客户端使用超分辨率重建技术得到清晰化的画面。模型解释：从上到下分别为生成器和判别器，生成器通过Resnet Block块和Deconv(转置卷积)来获得对应的高分辨率图像。判别器通过输入清晰图像和生成图像，通过卷积层+Leaky ReLU+BN来提取图...

2018-07-30 00:48:02 1330 1

原创轻量化网络mobileNet与ShuffleNet

摘要最近出了一篇旷视科技的孙剑团队出了一篇关于利用Channel Shuffle实现的卷积网络优化——ShuffleNet。我关注了一下，原理相当简单。它只是为了解决分组卷积时，不同feature maps分组之间的channels信息交互问题，而提出Channel Shuffle操作为不同分组提供channels信息的通信的渠道。然而，当我读到ShuffleNet Unit和Network ...

2018-07-26 16:12:34 6393 3

原创深度学习领域最新的技术（CV、NLP）

人工智能正在日益渗透到所有的技术领域。而深度学习(DL)是目前最活跃的分支。最近几年，DL取得了许多重要进展。其中一些因为事件跟大众关系密切而引人瞩目，而有的虽然低调但意义重大。深度学习从业人员应该保持足够的嗅觉，这个领域正在发生很多事情，你必须要跑的足够的快才能跟上时代步伐。一. 计算机视觉（CV）这是现在深度学习中最受欢迎的领域，我觉得我们已经完全获取了计算机视觉中容易实现的目标...

2019-02-27 23:50:36 26490 1

原创 FaceNet项目实践

一、论文的原理与复现1. 论文复现 Database：LFW db（论文采用，rgb图算是较大的典型数据集）。LFW数据库总共有 13233 张 JPEG 格式图片，属于 5749 个不同人。每张图片尺寸都是 250x250；数据库下载地址：http://vis-www.cs.umass.edu/lfw/lfw.tgz人脸对齐：python src\align\align_da...

2019-01-05 22:53:22 2535 3

原创 SSD论文解读

1 论文简述题目《SSD: Single Shot MultiBox Detector》作者 Wei Liu, Dragomir Anguelov, Dumitru Erhan , Christian Szegedy,Scott Reed , Cheng-Yang Fu , Alexander C....

2019-01-04 09:59:36 13300 4

原创彩色图像压缩（颜色量化）

调色板色度压缩调色板的概述大多数彩色图像采集设备及图像处理软件都采用24位真彩色图像数据结构记录图像信息，即以红（R）、绿（G）、蓝（B）彩色模式记录色彩。其中在数据结构中，R、G、B各用一个字节表示，R、G、B的取值各有 256级，可表达1677万多种颜色。将色彩空间化减到图像中常用的颜色。为此，我们设想利用人眼对色彩分辨能力的有限性，采用一个字节共8位的数据结构来显示、存储或传递24位...

2019-01-02 16:12:30 8641

原创交互式AR趣味学习软件

传统增强现实技术可以生成教材中的三维交互，但是对于教材中的图片逐一进行匹配建模又增加了软件开发了时间成本，亟需新的技术来改善性能。随着计算机视觉技术和深度学习技术的快速发展，将AR与深度学习相融合将会碰撞出新的深蓝市场。本系统结合OCR技术将教材的文字图片转为字符可以减轻手工输入的工作量、可以用于文字搜索，结合语音合成即可实现朗读功能；由于不同教材中存在着较多的物品种类相同的不同图片（特别是儿童A...

2019-01-02 16:04:16 2774 1

原创最小可觉察误差(JND)与图像压缩

1. JND算法背景/意义1算法的概述最小可觉察误差(JND, Just Noticeable Distortion)用于表示人眼不能察觉的最大图像失真，体现了人眼对图像改变的容忍度。在图像处理领域，JND 可以用来度量人眼对图像中不同区域失真的敏感性。目前已有多个 JND 模型被提出，这些 JND 模型主要可以分为 2 类：基于像素域的 JND模型和基于变换域的 JND 模型。像素域...

2019-01-02 15:26:38 27913 6

原创关于采集卡的学习项目实践

随着城市中 LED 的广泛应用，周围居民光污染事故的投诉也逐渐增多，但光污染的监测、评价仍无定量分析。结合 LED 光污染的特点，采用光学成像系统，光电传感器，LabVIEW搭建夜间 LED 光污染监测平台。以硅光电二极管（或光电倍增管）作为探测器的小视场滤光片式彩色亮度计因其低成本，在显示器生产线上广泛用于色度和亮度测量。光学成像系统图4-1 光学成像原理图主要采用一对有一定距离的...

2019-01-02 15:17:21 677

原创基于变换不变低秩纹理（TILT）的图像校正（附代码）

原理简介事实上，对于未加旋转的图像，由于图像的对称性与自相似性，我们可以将其看作是一个带噪声的低秩矩阵。当图像由端正发生旋转时，图像的对称性和规律性就会被破坏，也就是说各行像素间的线性相关性被破坏，因此矩阵的秩就会增加。低秩纹理映射算法(TransformInvariant Low-rank Textures，TILT)是一种用低秩性与噪声的稀疏性进行低秩纹理恢复的算法。它的思想是通过几...

2019-01-02 15:11:59 3046 13

原创数据库（基础知识）

数据库范化范化是在识别数据库中的数据元素，关系，以及定义所需的表和各表中的项目这些初始化工作之后的一个细化过程常见的有1nf 2nf 3nf bcnf 4nf1nf 第一范式数据库表的每一列都是不可分割的，同一列不能有多个值即一个实体的某个属性不能有多个值或者不能有重复的属性如果出现重复的属性，可能需要定义一个新的实体，新的实体由重复的属性构成，新实体与原实体之间为一...

2019-01-02 15:06:52 299

原创计算机网络（基础知识）

网络七层应用层 http协议:用于如何封装数据表示层会话层传输层 tcp/udp协议:传输控制协议解决数据在网络中的传输网络层 ip协议: 解决数据在网络中的传输数据链路层物理层 tcp三次握手第一次握手: 客户端向服务端发送请求报文,并进入syn_send状态第二次...

2019-01-02 15:05:41 436

原创风格迁移网络

生成网络与损失网络快速风格迁移的网络结构包含两个部分。一个是生成网络（Transformation Network），一个是损失网络（Loss Network）。生成网络是将输入图像进行风格迁移后输出，损失网络用以计算生成图像的内容损失和风格损失。对于生成网络，本质上是一个卷积神经网络，但不采用池化层，取而代之的是用步幅卷积或微步幅卷积做网络内的上采样或下采样。神经网络有五个残差块组成，除...

2019-01-02 14:58:57 2967

原创 TensorRT API开发手册

第一章综述1.1 TensorRTLayers1.2 关键概念1.3 TensorRT API’s1.3.1 Python Samples1.3.2 Python Workflows第一章综述NVIDIA的TensorRT是一个基于GPU高性能前向运算的C++库。TensorRT导入网络定义，通过合并tensors与layers，权值转换，选择高效中间数据类型，基于...

2019-01-01 16:20:46 9073 3

原创 opencv+dlib 制作平均脸

用OpenCV + dlib 制作“平均脸” 既然知道了原理，我们现在就要开始动手制作了。再来回顾一下步骤，当我们要将N张人脸照片合称为一张平均脸的时候，我们首先要处理每一张照片：【1】获取其中的68个脸部特征点，并以这些点为定点，剖分Delaunay 三角形，就如下图这样： [Code-1] 首先要获得68个脸部特征点，这68个点定义了脸型、眉毛、眼睛、鼻...

2019-01-01 16:12:07 4141

原创人脸对齐实现“平均脸”制作

“平均脸”的历史虽然现在很流行，但是，其实平均脸的历史相当悠久。1878年，英国的弗朗西斯·高尔顿爵士（Sir Francis Galton）发明了一种创造出“平均”面容的技术。弗朗西斯·高尔顿爵士，英国维多利亚时代的博学家、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家；也是《物种起源》作者查尔斯·达尔文的表弟。*这一方法是...

2019-01-01 16:07:23 9466 2

原创多任务学习

多任务学习以人脸特征点定位中的TCDCN模型[1]为例子，该模型思想：通过一些多样的精细的任务，来优化提升特征点定位精度。就是在人脸特征点检测的时候，同时进行多个任务的学习，这些子任务包括：是否带眼镜，是否微笑和脸部的朝向等分类任务。使用这些辅助的属性不仅可以起到一次性获取感兴趣的属性，更重要的是子任务更好的辅助定位人脸特征点，根据论文结果，这样确实对人脸特征点检测有一定的帮助。该模型优势：1）...

2019-01-01 15:44:00 571

原创 ubuntu安装TensorFlow（支持不同版本）

CUDA+CUDNN准备：1.安装NVIDIA驱动（1）查询NVIDIA驱动首先去官网(http://www.nvidia.com/Download/index.aspx?lang=en-us)查看适合自己显卡的驱动（下载runfile文件）： 2）安装驱动先按Ctrl + Alt + F1到控制台，关闭当前图形环境　　$sudo service lightdm s...

2019-01-01 15:33:27 13133 1

原创 2018年度机器学习50大热门网文

2018年度机器学习50大热门网文：《Learn Machine Learning from Top 50 Articles for the Past Year (v.2019)》by Mybridge https://pan.baidu.com/s/1Q01j8rIh6Ft6_UrHX3LEeA No. 1Deepfakes与家庭乐趣，如何让自己妻子参加今夜秀——由Sven Ch...

2019-01-01 15:24:27 1255 1

原创排序算法(一)之堆排序

预备知识堆排序　　堆排序是利用堆这种数据结构而设计的一种排序算法，堆排序是一种选择排序，它的最坏，最好，平均时间复杂度均为O(nlogn)，它也是不稳定排序。首先简单了解下堆结构。堆　　堆是具有以下性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆；或者每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆。如下图：同时，我们对堆中的结点按层进行编号，...

2019-01-01 14:39:07 284

原创基于深度学习的图像压缩

近年来，深度学习在计算机视觉领域已经占据主导地位，不论是在图像识别还是超分辨重现上，深度学习已成为图片研究的重要技术，但它们的能力并不仅限于这些任务；现在深度学习技术已进入图片压缩领域。下面就说说神经网络在图像压缩领域的应用。当前主要图片压缩算法说到图像压缩算法，目前市面上影响力比较大的图片压缩技术是WebP和BPGWebP：谷歌在2010年推出的一款可以同时提供有损压缩和无损压缩的图...

2018-12-30 13:40:06 14208 2

原创基于Mask rcnn的行人检测与安卓客户端的移动监控系统

一. Mask rcnn简述Mask rcnn是何凯明基于以往的faster rcnn架构提出的新的卷积网络，一举完成了object instance segmentation. 该方法在有效地目标的同时完成了高质量的语义分割。文章的主要思路就是把原有的Faster-RCNN进行扩展，添加一个分支使用现有的检测对目标进行并行预测。同时，这个网络结构比较容易实现和训练，速度5fps也算比较快点...

2018-10-12 20:39:39 3769 2

原创 COCO loss （人脸识别损失函数）

2017年nips的一篇做分类和识别的工作，其中在人脸识别任务上也做了实验，Rethinking Feature Discrimination and Polymerization for Large-scale Recognition.Yu Liu, Hongyang Li, XiaogangWang。提出了一个新的损失函数：congenerous cosine，本质上就是一个cosine距离...

2018-09-06 10:36:07 1978

原创卷积神经网络模型部署到移动设备

截止到今年，已经有超过 20 亿活跃的安卓设备。安卓手机的迅速普及很大程度上是因为各式各样的智能 app，从地图到图片编辑器应有尽有。随着深度学习的出现，我们的手机 app 将变得更加智能。下一代由深度学习驱动的手机 app 将可以学习并为你定制功能。一个很显著的例子是「Microsoft Swiftkey」，这是一个键盘 app, 能通过学习你常用的单词和词组来帮助你快速打字。计算机视觉，...

2018-09-05 22:56:42 5856

原创人脸验证之SphereFace

2017的一篇cvpr，SphereFace: Deep Hypersphere Embedding for Face Recognition，继centerloss之后又一大作。文章主要提出了归一化权值（normalize weights and zero biases）和角度间距（angular margin），基于这2个点，对传统的softmax进行了改进，从而实现了，最大类内距离小于最...

2018-09-04 09:55:45 746

原创人脸验证（LOSS）之Facenet

FaceNet是目前引用量最高的人脸识别方法，没有用Softmax，而是提出了Triple Loss：以三元组（a, p, n）形式进行优化，不同类特征的L2距离要比同类特征的L2距离大margin m，同时获得类内紧凑和类间分离。FaceNet用200M训练数据，仅128维特征映射，在LFW上达到了99.63%，非常犀利。但代码、模型和训练数据集都没有开源，三元组选择极具技巧性，复...

2018-09-04 09:51:31 1625

原创人脸识别的LOSS（多分类Softamx）

人脸1：N应用：https://blog.csdn.net/intflojx/article/details/81278330超多分类的Softmax早期深度人脸识别方法，框架为CNN + Softmax，以“超多分类”这样一种比较难的任务训练CNN，强迫网络在第一个FC层形成比较紧凑的，判别力很强的深度人脸特征，之后用于人脸识别。Softmax优缺点Softmax是soft（...

2018-09-04 09:47:14 5540

原创 Ubuntu 安装百度云bcloud

在日常科研中，常常遇到数据集的下载问题，对于linux系统来说存在诸多不便，可以通过bcloud来下载百度网盘的内容。常见深度学习数据集整理： deb包下载链接: https://pan.baidu.com/s/1hskY04G 密码: f66d 安装deb包在自己的下载目录下打开终端，输入以下指令 sudo dpkg -i bcloud_3.9.1_all...

2018-09-04 09:39:25 10215 4

原创人脸识别之数据、网络结构、损失函数

基于深度学习的人脸识别发展，已经基本趋于成熟，业界比较成熟的人脸1：N应用总结如下：https://blog.csdn.net/intflojx/article/details/81278330凡是基于识别的，总是离不开三个东西：数据，网络，以及loss。数据方面，目前的公开数据集中有主打类别数的MS_celeb_1M，有主打各种姿态角与年龄的VggFace2；也有一些主打高质量的...

2018-09-04 09:19:16 3113

原创 YOLO 与增强现实

分类器darknet-53(52层卷积层+1FC )实现每秒最高的测量浮点运算。这意味着网络结构可以更好地利用GPU，从而使其评估效率更高，速度更快。Darknet-53比ResNet-101更好，速度更快1：5倍。 Darknet-53与ResNet-152具有相似的性能，速度提高2倍。多尺度预测坐标预测： bbox 预测仍是yolov2的使用维度聚类（dimension clu...

2018-08-06 13:42:52 852 1

转载盲去卷模糊核估计（最优化）

前言之前写过一篇维纳滤波在图像复原中的作用，讲述了图像退化模型以及维纳滤波的作用。维纳滤波使用的前提是知道信号和噪声的功率谱，但在实际应用中较难得到，只能根据先验知识进行估计拍照过程中相机抖动、离焦、散焦或目标物体移动等，带来图像模糊。盲去卷积盲去模糊可以概括为：“模型的提出（最优化式的提出）”和“算法求解”两个方面。盲去模糊的处理模型：

2017-10-27 12:26:09 13478 1

原创逻辑回归（根据Andrew Ng 课程整理）

1、总述逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。 2、由来要说逻辑回归，我们得追溯到线性回归，想必大家对线性回归都有一定的了解，即对于多维空间中存在的样本点，我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示：线性回归能对连续值...

2017-10-26 22:28:52 700

爱破破爱科研