自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CV前沿

欢迎关注微信公众号「CV前沿」互动交流

  • 博客(144)
  • 资源 (2)
  • 收藏
  • 关注

原创 13G深度学习垃圾分类数据分享,技术学习交流群

各位同学、朋友我是某985院校的计算机硕士,也是一名图像算法工程师。之前在工作中接触过垃圾分类场景的项目,收集了图像8万多张、总数据量13G+的数据。我经常看到有的同学想入门而没有数据,有的同学身边是没有讨论问题的同学。这里我和我的朋友,一起发起了**一个以垃圾分类为主题,涉及图像分类、目标检测、边缘硬件设备(英达伟、树莓派)的技术学习交流群,**目前已经有80多个不同高校的小伙伴加入,有多名工训赛比赛的TOP5选手、也有做华为垃圾分类竞赛的同学、以及做毕业设计的同学。学习群的价值:提供了一份

2021-05-06 11:02:04 852 3

原创 7G的森林火情数据集,文末附数据集和源代码

在2020年12月,由北亚利桑那大学等学校开放了一个基于航拍图像的森林火情数据集:FLAME ,该数据集能够用于促进森林火灾的监控报警,帮助消防员和研究人员制定最佳火灾管理策略。该数据集是由无人机在亚利桑那州松树林火灾堆积物燃烧过程中采集的火灾图像数据集。数据集包括由红外摄像机捕捉到的视频记录和热图。演示的视频和图像都经过了注释,并按帧标记,以帮助重新搜索人员轻松应用其火灾检测和建模算法。论文提出了两个机器学习问题的解决方案:基于有无火焰的二值化视频帧的人工神经网络(ANN)方法,准确率达到76%

2021-03-17 23:22:57 9543 27

原创 数据增强的原理和指导方法

一、数据增强产生的背景深度学习网络在处理计算机视觉任务中获得巨大的成功。而这些网络都有着大量的参数,需要大量的数据来学习网络中的参数,从而避免出现过拟合现象。要解决过拟合问题,目前实施的策略主要分为两个方向:1.模型结构的改进Dropout 正则化方法Batch Normalization 正则化方法迁移学习2.数据集的改进数据增强(本节关注的内容)数据增强是一种解决过拟合问题的非常有效的方法。它假定可以通过增强从原始数据集中提取出更多的信息,使得增强后的数据集代表更为全面的数据

2021-02-23 21:30:01 6715 11

原创 图像分割中常用的上采样方法,你知道哪几种?

图像分割中常用的上采样方法,你知道哪几种?在基于深度学习的图像分割领域,基于Encoder-Decoder框架是一种非常经典的模型设计。在这种框架下,模型可以看作由两部分组成:编码器模块Encoder和解码器模块Decoder. 编码器模块负责提取特征,采用卷积和池化操作逐步缩小特征图并捕获更高级的语义信息;解码器模块基于上采样操作逐步恢复空间信息。下图是SegNet论文中体现Encoder-Decoder框架的示意图。上文提到,解码器模块基于上采样来不断恢复空间信息。本节内容即关注上采样这一操作

2021-02-23 20:28:34 2319

原创 OpenCV实战 | 一文剖析图像阈值化方法——adaptiveThreshold、 threshold、THRESH_OTSU

图像阈值化,是指根据图像内像素点强度的分布规律设置一个阈值,并根据像素点强度高于阈值或者低于阈值而进行一些处理。例如,输入是一张灰度图和一个阈值TTT,当图中像素值大于阈值TTT,则输出图像对应像素设置为255(白色);当图中像素值小于等于阈值TTT,则输出图像对应像素设置为0(黑色),这样通过阈值化就得到了一个二值化的图像。阈值化作为一种非常普遍使用的图像预处理方式,有利于我们在图像中定位到我们的目标对象。从上述阈值化的定义中,我们会发现存在两个关键问题:合适的阈值如何设置?阈值设置后,基于像素点

2021-10-22 21:37:29 1844

原创 OpenCV实战 | 基于形态学运算提取图像中的音符

图像形态学运算,顾名思义是应用形态学操作改变图像中物体的形状的过程。其中形态学操作比较基础的是膨胀、腐蚀、开运算和闭运算;形态学操作的对象通常是二值化图像。本文会先介绍形态学中常见的操作的原理部分,然后介绍在OpenCV中这些操作的函数和参数含义,最后通过一个提取图像中音符的样例来贯穿全部的内容。1 形态学操作1.1 腐蚀腐蚀过程是将一个核与一个图像进行卷积,其中核可以是任何的形状,比如大小为3∗33 * 33∗3的正方形核,也可以是大小为5∗15 * 15∗1的长条形核。核有一个参考点,参考点位

2021-10-20 11:58:43 1271

原创 【图像分类】ShuffleNet: 一个极端高效的移动端卷积神经网络

码字不易,欢迎点赞。文章同步发布在公众号:CV前沿在上一篇文章中,我们已经介绍了一种针对移动端和嵌入式设备的卷积神经网络—-MobileNet。今天我们要介绍的是旷视科技在2017年12月份提出的更加高效的移动端卷积神经网络—-ShuffleNet。在ShuffleNet网络中使用了两个创新的操作:pointwise group convolution(逐点组卷积)channle shuffle(通道混洗)概要来说,逐点组卷积是降低了逐点卷积(也即是1*1卷积)的计算复杂度; 同时为了

2021-05-19 12:25:42 998 1

原创 【图像分类】MobileNet: 一点创新、两个超参

MobileNet是2017年由Google提出的一个应用于移动端和嵌入式的卷积神经网络。它的主要应用场景包括有智能手机、无人机、机器人、自动驾驶、增强现实等等。在这之前,研究者更多还是关注于精度的提升,模型也是朝着深度更深、结构更复杂的方向发展。从最初12年提出的8层的AlexNet、再到14年各领风骚的19层的VGG和22层的GoogLeNet、再到15年何凯明大神提出的152层的ResNet。可见,深度是越来越深,精度是越来越高。但与此同时,这些网络的参数和计算量也是足够的大,很难在移动端和嵌入.

2021-05-12 11:26:51 1034 1

原创 【图像分类】移动端网络中最常用的几种卷积操作

随着AlexNet 在2012年ImageNet 竞赛中赢得冠军之后,卷积神经网络在计算机视觉领域已开始变得无处不在。一个大的研究趋势是研究更深、更复杂的网络,从而实现更高的准确率。但这些提升准确率的改进并不一定会使网络在大小和速度上更加高效。然而在许多现实世界的应用中,比如智能手机、机器人、无人机、自动驾驶、增强现实等,图像识别任务需要在计算资源受限的平台上高效的执行。为此,出现了很多研究针对移动端与嵌入式设备上应用的小型高效的网络,比如MobileNetV1、MobileNetV2、ShuffleN

2021-05-06 09:54:56 325

原创 DenseNet --CVPR 2017年 最佳论文

2017年国际计算机视觉与模式识别大会(CVPR2017)在美国夏威夷火奴鲁鲁岛召开,姚班计科30班刘壮同学以共同第一作者身份发表的大会论文Densely Connected Convolutional Networks(《密集连接的卷积神经网络》)获得了会议最佳论文奖。论文主要的贡献是提出了一种全新的卷积神经网络架构DenseNet,显著地提升了模型在图片识别任务上的准确率。让我们一起拜读一下大牛的这篇文章吧!!!摘要最近的研究工作表明,卷积神经网络在临近输入层和输出层之间加入捷径连接,使得网络.

2021-04-25 20:33:43 652

原创 【图像分类经典网络 | LeNet-5】一切都在孕育之中

今天我们讲的内容,要先从一个人物谈起。Yann LeCun(中文名:杨立昆、卷积网络之父、纽约大学数据科学中心主任、Facebook人工智能研究院主任、深度学习三巨头之一、图灵奖获得者)杨立昆于1960年7月生于法国巴黎附近。1983年他在巴黎高等电子与电气工程师学校获得了一个工程师学位,1987年从巴黎第六大学获得了一个计算机科学博士学位。博士在学期间,他提出了神经网络的反向传播学习算法(Backpropagation,缩写为BP)的原型。他随后到多伦多大学师从Geoffrey Everest Hi

2021-04-19 09:24:37 913

原创 200G时序行为检测经典数据集THUMOS 2014,文末附下载方式

THUMOS 2014数据集包括行为识别和时序行为检测两个任务。行为识别任务:它的训练集为UCF101数据集,包括101类动作,共计13320段分割好的视频片段。它的验证集和测试集则分别包括1010和1574个未分割过的视频。时序行为检测任务:只有20类动作的未分割视频是有时序行为片段标注的,包括200个验证集视频(包含3007个行为片段)和213个测试集视频(包含3358个行为片段)。这些经过标注的未分割视频可以被用于训练和测试时序行为检测模型。一般情况下,大家使用验证集来训练action.

2021-04-14 23:39:37 4693 3

翻译 【Nvidia DeepStream5.0】Gst-nvtracker插件功能说明

Gst-nvtrackerGst-nvtracker插件允许DeepStream 管道使用一个底层跟踪器来跟踪具有唯一ID的检测目标。它支持任何实现NvDsTracker API的底层库,包括三个参考实现:NvDCF、 KLT 和 IOU 跟踪器。作为这个 API 的一部分,插件查询底层库中关于输入格式和内存类型的功能和要求。然后,基于这些查询结果,插件将输入帧缓冲区转换为底层库请求的格式。例如,KLT 跟踪器使用 Luma 专用格式; NvDCF 使用 NV12或 RGBA格式; IOU 不需要缓冲区。

2021-04-09 16:49:42 2728

原创 【leetcode236】二叉树的最近公共祖先

题目描述给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。提示:树中节点数目在范围 [2, 10^5] 内。-10^9<= Node.val <= 10^9所有 Node.val 互不相同 。p != qp 和 q 均存在于给定的二叉树中。示例:输入:root = [3,5,1,6,2,0,8,null,null,7,4], p = 5, q = 4输出:5解释:节点 5 和节点 4 的最近公共祖先是节点 5 。因为根据定义最近公共祖先节点可以为节点本身。

2021-04-07 22:58:53 260

原创 【leetcode235】二叉搜索树的最近公共祖先

题目描述给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。说明:所有节点的值都是唯一的。p、q 为不同节点且均存在于给定的二叉搜索树中。示例:输入: root = [6,2,8,0,4,7,9,null,null,3,5], p = 2, q = 4输出: 2解释: 节点 2 和节点 4 的最近公共祖先是 2, 因为根据定义最近公共祖先节点可以为节点本身。解题思路对于二叉树的问题,我们通常要往递归的思路上去思考。思考递归的关键在于找到子问题,和终止条件。在本题中子问

2021-04-07 22:57:50 299

原创 【DeepStream5.0样例工程】deepstream-app的可视化 pipeline diagram (管道图 / 元件图 / 构件图)

我们在学习一个deepstream 样例工程的时候,我们希望知道工程中管道是由哪些元件组成,以及元件间的数据流转方式。如果我们人工的根据代码去绘制,也是可行的,但效率比较低下,且容易出现错误。我们可以通过一些代码实现,自动生成这样的管道图。本文不再介绍如何生成的过程,希望了解这个过程可以查看参考文献。这里直接给出deepstream-app 样例工程生成可视化管道图的结果。图片是高清大图,看的时候可以放大图像。(这里我在配置文件中配置的是拉两路流,所以管道图中的输入源有两个。)关注【CV面试宝

2021-04-07 08:58:19 1080 2

原创 【DeepStream5.0样例工程】deepstream-test3的可视化 pipeline diagram (管道图 / 元件图 / 构件图)

我们在学习一个deepstream 样例工程的时候,我们希望知道工程中管道是由哪些元件组成,以及元件间的数据流转方式。如果我们人工的根据代码去绘制,也是可行的,但效率比较低下,且容易出现错误。我们可以通过一些代码实现,自动生成这样的管道图。本文不再介绍如何生成的过程,希望了解这个过程可以查看参考文献。这里直接给出deepstream-test3 样例工程生成可视化管道图的结果。编译和运行进入这个目录/opt/nvidia/deepstream/deepstream-5.0/sources/app

2021-04-07 08:46:07 1265

原创 【DeepStream5.0样例工程】deepstream-test1的可视化 pipeline diagram (管道图 / 元件图 / 构件图)

我们在学习一个deepstream 样例工程的时候,我们希望知道工程中管道是由哪些元件组成,以及元件间的数据流转方式。如果我们人工的根据代码去绘制,也是可行的,但效率比较低下,且容易出现错误。我们可以通过一些代码实现,自动生成这样的管道图。本文不再介绍如何生成的过程,希望了解这个过程可以查看参考文献。这里直接给出deepstream-test1 样例工程生成可视化管道图的结果。图片是高清大图,看的时候可以放大图像。相关文章:DeepStream-test1样例 逐行讲解版,原来竟如此简单使用

2021-04-07 08:26:35 1178

原创 二叉树的前序、中序、后序、层序遍历,递归和迭代两大类解题思路,每类细分不同解法【完整版】附PDF文档

一、二叉树的前序遍历二叉树的前序遍历的记忆法则是“根左右",即先遍历根节点,再遍历左子树节点,再遍历右子树节点。以上图为例,前序遍历的结果是【A, B, D, E, C, F, G】1.1 解题思路:递归递归是我们实现前中后序遍历最常用的方法。什么问题可以采用递归求解呢?需要满足三个条件:一个问题的解可以分解为若干个子问题的解;这个问题与分解的子问题,除了数据规模不同外,求解思路相同存在递归终止条件。那么在知道一个问题可以采用递归实现之后,如何写出递归代码呢?关键在于能写出递归

2021-04-03 13:45:02 4930 2

原创 二叉树的后序遍历

二叉树的后序遍历的记忆法则是“左右根",即先遍历左子树节点,再遍历右子树节点,最后遍历根节点。以上图为例,后序遍历的结果是【D, E, B, F, G, C, A】一、解题思路:递归递归是我们实现前中后序遍历最常用的方法。什么问题可以采用递归求解呢?需要满足三个条件:一个问题的解可以分解为若干个子问题的解;这个问题与分解的子问题,除了数据规模不同外,求解思路相同存在递归终止条件。那么在知道一个问题可以采用递归实现之后,如何写出递归代码呢?关键在于能写出递归公式,找到终止条件。.

2021-04-03 13:42:23 42238 2

原创 二叉树的中序遍历

二叉树的中序遍历的记忆法则是“左根右",即先遍历左子树节点,再遍历根节点,再遍历右子树节点。以上图为例,中序遍历的结果是【D, B, E, A, F, C, G】一、解题思路:递归递归是我们实现前中后序遍历最常用的方法。什么问题可以采用递归求解呢?需要满足三个条件:一个问题的解可以分解为若干个子问题的解;这个问题与分解的子问题,除了数据规模不同外,求解思路相同存在递归终止条件。那么在知道一个问题可以采用递归实现之后,如何写出递归代码呢?关键在于能写出递归公式,找到终止条件。在.

2021-04-03 13:41:01 57704 3

原创 二叉树的前序遍历

二叉树的前序遍历的记忆法则是“根左右",即先遍历根节点,再遍历左子树节点,再遍历右子树节点。以上图为例,前序遍历的结果是【A, B, D, E, C, F, G】一、解题思路:递归递归是我们实现前中后序遍历最常用的方法。什么问题可以采用递归求解呢?需要满足三个条件:一个问题的解可以分解为若干个子问题的解;这个问题与分解的子问题,除了数据规模不同外,求解思路相同存在递归终止条件。那么在知道一个问题可以采用递归实现之后,如何写出递归代码呢?关键在于能写出递归公式,找到终止条件。在.

2021-04-03 13:39:39 37188

原创 使用DeepStream5.0部署YOLOV3,并实现多路拉流、自定义模型

一、前言本文介绍基于DeepStream5.0和YoloV3目标检测模型来实现车辆和行人检测的部署过程。在第二部分介绍依赖的环境;第三、四部分介绍YoloV3的样例工程和编译运行过程;第五部分介绍如何实现多路拉流;第六部分介绍如何自定义YOLOV3模型;最后是小结和参考资料。希望本文尽可能的详细和清晰,让大家在动手尝试过程中少走弯路,一步到位。二、环境准备Cuda10.2Jetpack4.4Ubuntu18.04DeepStream SDK >= 5.0硬件设备我这里使用的是NVID

2021-03-30 22:52:12 4898 13

原创 【LeetCode】之字形顺序打印二叉树(层序遍历 / 双端队列 / 双栈),清晰推演过程

一、题目请实现一个函数按照之字形顺序打印二叉树,即第一行按照从左到右的顺序打印,第二层按照从右到左的顺序打印,第三行再按照从左到右的顺序打印,其他行以此类推。例如:给定二叉树: [3,9,20,null,null,15,7], 3 / \9 20 / \ 15 7返回其层次遍历结果:[ [3], [20,9], [15,7]]二、思路分析这个题目考察的是二叉树的层序遍历的问题。比起普通的层序遍历,它增加了新的要求:按照之子形的顺序来打印。下面我们分别介绍三

2021-03-27 22:40:39 906 1

原创 【PyTorch】标量、向量、张量的直观理解

标量标量就是一个数字。标量也称为0维数组。比如5套房子中的“5”就是标量;向量向量是一组标量组成的列表。向量也称为1维数组。比如房子的价格是受多种因素(是否为学区房、附近有无地铁、房子面积、房间数量、楼层等)来影响,那么我们将这多种因素来表示为房子的特征,这一组特征值就可以用向量表示。矩阵矩阵是由一组向量组成的集合。矩阵也称为2维数组。在刚才的例子中,一套房子的特征可以用一个向量来表示。那么我们要建m套房子的数据集,那么就是m个向量的组合,也即是得到一个m行n列的矩阵。(n为一套房子的向量的

2021-03-25 19:40:09 2833

原创 【PyTorch】torch.mean(), dim=0, dim=1 详解

创建一个tensor,这个tensor是一个元素类型为浮点型的2维数组import torchs = torch.arange(6,dtype=float).reshape((2,3))print(s)print(s.shape)# 查看tensor的形状tensor([[0., 1., 2.], [3., 4., 5.]], dtype=torch.float64)torch.Size([2, 3])dim属性的全称是dimension,表示维度。dim=0为第0个维度

2021-03-25 12:20:09 19141 3

原创 NvInfer Config 配置 主推理引擎和二级推理引擎的配置组

NvInfer Config 配置 主推理引擎和二级推理引擎的配置组在 DeepStream 应用程序中支持多个二级推理引擎。对于每个二级推理引擎,必须在配置文件中添加一个名为 secondary-gie%d 的单独组。例如:[primary-gie]key1=value1key2=value2...[secondary-gie1]key1=value1key2=value2...主推理器和二级推理器的配置如下所示。对于每个配置:enable含义:是否必须启用主推理引擎。

2021-03-22 20:33:56 1085

原创 【Nvidia DeepStream. 001】DeepStream-test1样例 逐行讲解版,原来竟如此简单

本文介绍deepstream-test1 样例工程。在Nvidia 官方文档中对DeepStream-test1的描述是一个DeepStream 版本的“Hello World”。在下图中,展示了deepstream-test1,test2,test3,test4 四个样例。test1: DeepStream的Hello World。介绍如何基于多种DeepStream 插件来构建一个Gstream 管道。这个样例中输入的是一个视频文件,经过解码、批处理、目标检测,并将检测信息显示在屏幕中。test

2021-03-22 20:24:52 3114 2

翻译 DeepStream SDK中的元数据MetaData

Gst Buffer 是 Gstreamer 数据传输的基本单位。每个 Gst Buffer 都有关联的元数据。Deepstream SDK 附加 了Deepstream 元数据对象NvDsBatchMeta。要了解更多关于 Gst Buffer 的信息,请参考 Gstreamer documentationNvDsBatchMeta : 基础元数据类型DeepStream 使用一个可扩展的元数据标准结构。基本的元数据结构 NvDsBatchMeta 从批处理级元数据开始,这些元数据是在 Gst-nvs

2021-03-18 15:33:08 1609 1

原创 BFS和DFS两种方式实现二叉树的层序遍历

前言这是[LeetCode精选Top面试]系列文章的第1篇/145篇。在这个系列中,我们会按照题目类别进行总结。对于每一道题目,会给出一种或多种的算法思路,以及最精炼、最高效的代码。如果代码中涉及到语言上的语法知识,我们也会在知识扩展小节中进行详解。在每个系列介绍完成之后,我们会再次回顾总结,提炼出通用解法和代码模板。希望各位持续关注本系列,和我们一起前进,DayDayUp~一、题目给你一个二叉树,请你返回其按 层序遍历 得到的节点值。 (即逐层地,从左到右访问所有节点)。例如:给定二叉树:

2021-03-16 22:59:54 3803

翻译 【译】NVIDIA DeepStream 概况

关注【CV面试宝典】,分享面试高频题目、工业实践项目等技术文章一、NVIDIA DeepStream 概况DeepStream 是一个流分析工具包,用于构建人工智能应用程序。它以流数据作为输入——从 USB/CSI 摄像机、从 RTSP 上的文件或流中获取视频,并使用人工智能和计算机视觉从像素中生成洞察力,以便更好地理解环境。DeepStream SDK 可以成为一系列视频分析解决方案的基础层,比如理解智能城市中的交通和行人,医院的健康和安全监控,零售业的自检和分析,检测生产设施中的部件缺陷等等。.

2021-03-15 10:20:09 1528

原创 【LeetCode 精选TOP】剑指 Offer 32 - I. 从上到下打印二叉树

剑指 Offer 32 - I. 从上到下打印二叉树一、题目从上到下打印出二叉树的每个节点,同一层的节点按照从左到右的顺序打印。例如:给定二叉树: [3, 9, 20, null, null, 15, 7]二、解题思路根据题目要求"从上到下打印",且“同一层的节点从左到右”,了解这题考察的方向是二叉树的层次遍历。二叉树的遍历方式常见的有四种,分别是先序遍历中序遍历后序遍历层序遍历接下来,我们需要记住层序遍历通常是借助队列来实现。具体思路是:首先判断边界条件:如果根

2021-03-13 21:58:21 95

原创 CV面试高频夺命三连问:什么是NMS ? NMS与Soft-NMS的区别是什么? 编程实现一下呗(C++ or Python)?

大家好,我是行路南。本文是CV面试系列第一篇。上段时间,笔者对2020年各大视觉大厂面试题目进行了梳理。结果发现NMS真的是一道基本题和高频题。这里可以列出几家的题目给大家看看:百度图像算法工程师社招二面:编程实现一下NMS图森未来校招一面:Soft-NMS和NMS的区别,解决了什么问题。Soft-NMS的具体过程BIGO校招一面:python实现NMS货拉拉一面:编程实现NMS阿里达摩院二面:C++实现非极大值抑制快手一面:编程实现NMS地平线一面:

2021-03-12 22:56:17 813

原创 【论文学习】Soft-NMS: 用一行代码改进目标检测

在目标检测领域,非极大值抑制是目标检测管道中的重要一环。那么你知道它的原理吗?它有哪些缺点?如何改进?本文会介绍NMS和改进方法Soft-NMS。 后续会陆续介绍其他几篇有名的NMS变体,包括IoU-Guided NMS、Adaptive NMS、DIoU-NMS、Softer-NMS等。 详情关注【CV面试宝典】,回复关键词【NMS】可获取NMS与其变体的论文资料。摘要非极大值抑制(NMS)是目标检测管道中的一个必要组成部分。首先,它基于目标检测框的置信度对所有目标检测框进行排序,其中得分最高的检

2021-03-10 23:30:57 2081

翻译 一文了解语义分割网络(完结篇)

上文(一文了解语义分割网络)首先介绍语义分割的问题背景,从构造一个简单的网络结构开始,讲述了直接堆叠一些卷积层不可行的原因,最后引出了全卷积网络和编码器-解码器结构。本文接着上文继续…添加跳跃连接上文最后一段提到,FCN论文作者对语义分割的一段评价:语义分割面临着语义和位置之间的内在张力:全局信息解决**“是什么”,而局部信息解决“在哪里”**。…将细致层和粗糙层结合起来,可以让模型做出符合整体结构的局部预测。那么如何解决这种内在张力?作者通过对编码的特征图向上采样,得到一个特征图;从较早的

2021-03-06 19:29:51 2315

翻译 一文了解语义分割网络!

本文我将讨论如何使用卷积神经网络来完成语义分割任务。语义分割是一个计算机视觉任务,在这项任务中我们根据显示的内容来标记图像的特定区域。更具体的说,语义分割的目的是用所表示的内容的类别来为图像中每个图像打标签。因为我们是对图像中每个像素打标签,这类任务通常被称为密集预测。**需要注意的一点是,我们并不会分离同一个类别的不同实例,我们仅仅关注每个像素的类别。**换句话说,如果在图像中有两个相同类别的对象,分割图不会将它们区分为单独的对象。不同于语义分割,实例分割可以做到区分同一类别的不同对象。分割模型可

2021-03-03 08:38:39 1285

原创 语义分割中常用的评价指标有哪些?

语义分割的任务就是预测输入图像每个像素点的类别。简单来说,就是做像素级分类。图中左侧是一张输入图像,中间图像是对图像每个像素类别人工标记的Ground truth(真实标签),右侧图像是对图像每个像素类别预测得到的结果。为了证明一个语义分割方法的有效性,我们需要对语义分割方法进行严格的评估。下面介绍语义分割中最常用的几个评价指标。问题假定在准确描述每个评价指标之前,我们先做出一些假定:图像中每个像素都有一个类别标签。假定类别总数为k+1k+1k+1个类别,包括kkk个类别和111个背景pij

2021-02-28 00:01:02 5414 1

原创 [论文精读] 全卷积网络FCN

卷积网络正在推动图像识别技术的进步。卷积网络不仅提升整幅图像的分类能力,而且对于具有结构化输出的局部任务同样取得进展,这包括目标检测、关键点检测等。从粗到精的推理过程中,自然而然的下一步就是在每个像素点上进行预测。本文提出了一个全卷积网络概念,采用端到端、像素到像素的训练,在语义分割场景下达到了最优的水平。这是第一次端到端训练的FCN,以用于像素级的预测;同时是第一次用监督预训练的方法训练FCN。下面对FCN的关键点进行介绍。一、调整分类器以进行密集预测图中上半部分是一个经典的8层AlexNet

2021-02-26 08:50:47 542

原创 语义分割Baseline的基本流程

赛题背景赛题链接遥感技术已成为获取地表覆盖信息最为行之有效的手段,遥感技术已经成功应用于地表覆盖检测、植被面积检测和建筑物检测任务。本赛题使用航拍数据,需要参赛选手完成地表建筑物识别,将地表航拍图像素划分为有建筑物和无建筑物两类。如下图,左边为原始航拍图,右边为对应的建筑物标注。引入库import numpy as npimport pandas as pdimport pathlib, sys, os, random, timeimport cv2, gcfrom tqdm impor

2021-02-20 21:02:59 1564 1

原创 多目标跟踪DeepSORT

参考文献1. 综述多目标跟踪入门。适合刚接触多目标跟踪领域,同时该作者有一个自己的博客,内容都很不错。2. 论文翻译Harlek 的翻译版本一只有恒心的小菜鸟 的翻译版本mini猿要成长QAQ 的翻译版本3. 代码官方代码Pytorch 版本代码。结合yolov3来做目标检测,工程质量很好4. 代码解读mini猿要成长QAQ 的代码解读,逐帧分析,很细致,有助于理解代码多目标跟踪的经典论文集GIthub的开源项目,罗列多目标跟踪领域的数据集、论文、开源代码...

2020-11-24 11:01:08 390

人脸识别技术综述

  首先对计算机人脸 自动识别技术的研 究背景及发 展历程做 了简单回顾 ,然后 对人脸正面 像的识别 方法 ,按 照 识别 特征 的不 同 进行 了分 类综 述 ,主要 介绍 了特 征脸 ( Eigenface)方 法、基 于小 波特 征 的弹 性 匹配 ( ElasticM atching)的方法、形状和灰度模型分离的可变形模型 (Flexible M odel)以及传统的部件建模等分析方法 .通过对各种识别方 法的分析与比较 ,总结了影响人 脸识别技术实 用化的几 个因素 ,并提出了 研究和开发 成功的人 脸识别技术所需要考虑的几个重要方面 ,进而展望了人脸识别技术今后的发展方向 .

2014-08-20

数据挖掘导论(完整版)

数据挖掘导论,经典书籍。包含分类、关联分析、聚类分析、异常检测等核心技术

2014-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除