迷路的咸鱼-CSDN博客

原创 Pytorch框架下训练网络的代码结构

PyTorch 是一个基于 Torch 的 Python 开源机器学习库，用于自然语言处理等应用程序，它主要由 Facebook 的人工智能研究小组开发。PyTorch 提供两个高级功能：(1) 具有强大的 GPU 加速的张量计算（如 NumPy）；(2) 包含自动求导系统的深度神经网络。更多介绍详见官方网址：https://pytorch.org，也可以直接搜索 github 开源的：PyTorch 中文手册（pytorch handbook）。首先介绍Python的argparse模块（py

2021-05-09 16:34:29 1056 2

原创 Siamese系列跟踪网络之SiamFC、SiamRPN、DaSiamRPN、SiamRPN++、SiamMask

目前，跟踪领域主要分为两条主线，即基于相关滤波的跟踪算法和基于孪生网络的跟踪算法。由于深度特征的提取和更新很难做到实时，基于在线微调网络的深度目标跟踪方法会使跟踪器的效率大大降低。为解决这一问题，SiamFC提出基于离线端到端训练的全卷积李生网络的跟踪方法，在拥有较快的跟踪速度的同时，保持着较高的跟踪精度，因此受到了广泛的关注，近年来也出现基于此的大量研究。下图就是从SaimFC延伸的发展脉络：Pysot是由商汤视频智能研究小组上传在Github的一个开源项目，由pytorch深度学习框架提供支持，

2021-01-28 16:42:20 9392 3

原创视觉单目标跟踪任务概述

目标跟踪的主要难点单目标跟踪的基本流程单目标跟踪的分类1.经典目标跟踪方法（2010年以前）2.相关滤波（Correlation Filter，CF）3.基于深度学习的跟踪方法（Deep Learning，DL）(1) 基于预训练深度特征的跟踪模型(2) 基于离线训练深度特征的跟踪模型(3) 相关滤波融入深度学习框架的跟踪模型单目标跟踪的benchmark

2020-11-14 20:59:54 5532

原创基于注意力的语义分割之PSANet、DANet、OCNet、CCNet、EMANet、SANet等

注意力机制（Attention Mechanism）如今被广泛使用在自然语言处理、图像识别等各种不同类型的深度学习任务中，是深度学习技术中值得关注与深入了解的核心技术之一。对注意力机制的研究动机是受到人脑注意力的启发，人脑可以快速地从视觉信号中选择需要关注的区域，即注意力焦点。因此，在观察图像时，人类会根据之前观察的图像学习到未来要观察图像时注意力应该集中的位置，同时给予周围图像区域较低的注意力，而不是一次读取整幅图像的所有像素，并且随着时间推移调整焦点。

2020-10-15 12:08:02 15741 3

原创机器学习的模型性能度量：评估指标PR对比ROC/AUC

一般，对学习器的泛化性能进行评估，需要有能衡量模型泛化性能的评价标准，即性能度量（performance measure）。性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，并通过这个指标来进一步调参逐步优化我们的模型。分类常用的性能度量混淆矩阵精准率和召回率ROC/AUC混淆矩阵对于二分类的模型，可以把预测情况与实际情况的所有结果两两组合，结果就会出现以下4种情况，就组成了分类结果的混淆矩阵（confusion matrix）：令TP、FP

2020-09-11 17:15:58 2844

原创基于深度学习的语义分割之FCN、SegNet、UNet、LinkNet、PSPNet、DeepLab系列

图像分割（Image Segmentation）是计算机视觉研究中的一个经典难题，也是图像理解领域关注的一个热点。图像分割，简单来说就是在图像中把目标从背景中分离出来，分为语义分割（Semantic Segmentation）和实例分割（Instance Segmentation）。语义分割（应用于静态2D图像、视频，甚至3D数据、体数据）需要将视觉输入分为不同的语义可解释类别，语义的可解释性意为分类类别在真实世界中是有意义的，是像素级别的分类，主要应用领域有地理信息系统、无人驾驶、医疗影像分析、机器人

2020-09-04 22:55:51 8766

原创卷积神经网络中的基础知识点总结

对卷积的理解卷积神经网络（与DNN、RNN的区别）卷积的种类：普通卷积反卷积空洞卷积可变形卷积分组卷积深度可分离卷积什么是正则化？正则化的几种常用方法：dropout L1/L2范数 BN(Batch Normalization) 什么是梯度消失和梯度爆炸？原因解决方法

2020-08-04 21:15:30 2142

原创常用的Linux操作命令总结

命令行是在操作系统中，提示进行命令输入的一种工作提示符。在不同的操作系统环境下，命令提示符各不相同。在windows环境下，命令行程序为cmd.exe，是一个32位的命令行程序。一般说的“命令行”是指Linux命令，Linux命令是对Linux系统进行管理的命令。对于Linux系统来说，无论是中央处理器、内存、磁盘驱动器、键盘、鼠标，还是用户等都是文件，Linux系统管理的命令是它正常运行的核心。Linux命令在系统中有两种类型：内置Shell（脚本文件）命令和Linux命令（ Linux 系统的基本操

2020-08-01 21:51:03 253

原创操作系统的基础概念及进程和线程

操作系统（Operating Systems）的定义：操作系统是配置在计算机硬件上的第一层系统软件，它为用户控制和管理着计算机系统中的所有软硬件资源，是计算机系统高效工作；同时又为用户提供良好的用户接口，使用户能够方便、有效、安全地使用计算机资源。操作系统的特点：（1）高效资源管理；（2）方便用户使用。操作系统的设计目标：高效性，包括提高系统资源利用率和作业吞吐量；方便性，指得是给用户提供一个方便、高效的操作界面；可扩充性，指得是方便更新或增加新的功能模块；开放性，指得是不同平台上开发的应用程

2020-08-01 21:48:17 612

原创图像的平滑滤波、边缘检测、阈值化、腐蚀膨胀等原理介绍

一幅图像可以定义为一个二维函数f(x,y)，其中x和y是空间/平面坐标，而在任何一对空间坐标(x,y)处的幅值f称为图像在该点处的强度或灰度。彩色图像是由三个二维灰度图像 f(x,y)组成，三个通道分别是RGB或HSV。一般来讲，对图像进行处理的主要目的有三个方面：改善图像的质量。比如，进行图像的亮度、彩色变换，增强、抑制某些成分，对图像进行几何变换等。提取图像中所包含的某些特征或特殊信息。提取的特征可以包括很多方面，

2020-07-09 20:35:51 3634

原创 Python的图像处理库(OpenCV，PIL，matplotlib和scikit-image)

目前接触过的python图像处理代码涉及到多种的图像库，其中最常用的当属opencv和PIL。惭愧的是，以前只是拿来用，却一直迷惑为什么不同的代码会选择不同的图像库、这些图像库的联系和区别又是什么，这些迷惑也迟迟没有解决。现在，我终于要好好整理一下了！Python的图像处理库OpenCVOpenCV OpenCV是一个开源的计算机视觉库，该项目由Intel发起，采用C/C++语言编写，可以运行在Linux/Windows/Mac等操作系统上，还提供了Python、Ruby、MATLAB以及其他语

2020-07-07 22:11:37 2808 2

原创 Anchor Free的目标检测算法之CornerNet、ExtremeNet、CenterNet、FSAF、FCOS、FoveaBox

Anchor boxes在现有的经典目标检测算法中属于一个基本组成部分，像YOLOv3这样的one-stage detector中使用了anchor boxes之后，可以取得跟two-stage detectors相当的精度，同时检测速度也达到实时的效果。从去年开始，anchor free的方法大量涌现，虽然目前还不能保证完全优于anchor based方法，但是为目标检测的发展提供了另一个方向。本篇博客将逐步按照CornerNet →ExtremeNet →CenterNet →FSAF → FCOS

2020-06-30 14:13:38 4512

原创 One-stage目标检测里程碑算法之SSD、YOLO系列、RetinaNet等

相较于two-stage detectors ，one-stage detectors不需要提取region proposal的阶段，直接预测物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此有着更快的检测速度。本篇博客将逐步按照YOLO→SSD→RetinaNet→YOLOv2→YOLOv3→YOLOv4的顺序，依次整理one-stage目标检测算法的改进点。除此之外，one-stage的anchor-free目标检测器在不断发展，包括CornerNet、ExtremeNet、F

2020-06-14 21:45:20 3840

原创 Two-stage目标检测里程碑算法之RCNN、SPP Net、Fast RCNN、Faster RCNN、FPN等

在前面的博客中我基于三篇目标检测综述，描述了对视觉目标检测的整体认知，包括发展历程、算法流程、传统检测算法到深度学习算法的技术难点、评价指标和数据集。本篇博客将逐步按照RCNN→SPP Net→Fast RCNN→Faster RCNN→FPN→Mask RCNN→Cascade RCNN的顺序，依次整理two-stage目标检测算法的改进点。这些two-stage的目标检测方法主要通过一个卷积神经网络来完成目标检测过程，在训练网络时，分为两个部分，第一部分是需要使用启发式方法(selective s

2020-05-31 12:08:24 2227

原创对视觉目标检测的整体认知（基于目标检测综述）

图像的目标检测(Object Detection)算法大体上可以分为基于传统手工特征的时期（2013年以前）以及基于深度学习的目标检测时期。从技术发展上来讲，目标检测的发展则经历了包围框回归、卷积神经网络的兴起、多参考窗口（anchors）、困难样本挖掘、多尺度多端口检测、特征融合等几个里程碑式的进步。如下图所示，为2019年5月发表的目标检测综述《Object Detection in 20 Years: A Survey》，它除了对目标检测从2001到2009年的里程碑式算法和start-of-ar

2020-05-31 12:06:55 4859

原创决策树和集成学习(Boosting&Bagging&Stacking)的方法区分

决策树(Decision Tree)是常见的机器学习方法，可以处理分类和回归问题。用于分类的决策树对比逻辑回归和SVM的区别在于：LR适合处理接近线性可分的分类问题，决策边界是线性的；SVM通过把特征空间映射到核空间使得各个类别线性可分，在高维空间的决策面是线性的，映射回原特征空间的决策边界是非线性的；而DT是基于树形结构来进行决策的，将一个个特征按层次进行划分，可以找到非线性的决策边界。LR和SVM原理可以参考博客《机器学习中的分类器：感知机、逻辑回归、支持向量机》。下图是一个简单的二维特征空间的分类

2020-05-21 21:39:53 1707

原创深度学习中常见的loss函数汇总

损失函数(Loss Function)分为经验风险损失函数和结构风险损失函数，经验风险损失函数反映的是预测结果和实际结果之间的差别，结构风险损失函数则是经验风险损失函数加上正则项(L1或L2)。深度学习中的损失函数被用于模型参数的估计，通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。机器学习任务中的损失函数可以大体分为两种类型：回归损失和分类损失。在此基础上，在深度学习任务中又发展了很多不同的损失函数，由于在网络训练过程中损失函数指导着网络的学习，因此选择合适的损失函数也很重

2020-05-19 21:22:18 16366 2

原创机器学习中的分类器：感知机、逻辑回归、支持向量机

深度神经网络(Deep Neural Networks，DNN)是深度学习的基础，由于神经网路是基于感知机模型的扩展，因此多层感知机(Multi-Layer perceptron，MLP)就可以看作是深度神经网络。在深度学习中，用于分类的卷积神经网络(Convolutional Neural Networks, CNN)，一般都会在全连接层(FC)之后使用softmax分类器，softmax函数可以看作是logistic函数（Sigmoid）的一般形式。当然，也有例如目标检测的经典网络RCNN，是将感兴

2020-05-16 17:22:38 3188

迷路的咸鱼的博客