qq_43152949-CSDN博客

原创 Control Batch Size and Learning Rate

Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence1 Introduction本论文给出了一种深层神经网络训练策略的理论和经验证明：在使用SGD训练深度神经网络时，要控制批量不太大，学习速率不钛大，以使网络具有较好的泛化性能。该策略为在训练误差较小的情况下帮助神...

2019-12-31 13:07:37 398

原创 ranger 以及Optimizer相关实现

以ssd的train.py为例这一行将模型net的parameters导入优化器中，还定义了其他参数类Optimizer的__init__:其中defaultdict：即使给了错误的索引，也会返回一个默认值，不会报错将导入的parameters放入param_groups的param中这一行利用param.grad对param进行更新import mathimport tor...

2019-12-12 16:40:50 1364

原创 SSD实现

prior box生成：对ground truth的编码：nms实现：test样本的Detect：

2019-12-03 16:35:39 247

原创 DenseNet实现

关于Dropout：每个denseblock中的小block后都有一个dropout，查看源码试图搞清楚这里dropout的实现方法，但没有查询到dropout的最终实现，在_VF中。为了减少GPU显存的使用，这里将第一个bn进行了checkpoint，即不储存反向传播的输出，在有需要时重新计算，这个操作以较小的时间开销换取了大量的显存空间。kaiming初始化实现：...

2019-12-02 11:08:16 209

原创 efficientnet实现

efficient内实现：forward：resnet中实现：

2019-12-01 15:16:09 918

原创 EfficientDet

EfficientDet1. Introduction两个主要挑战：挑战1：有效的多尺度特征融合：fpn已广泛用于多尺度特征融合，由于这些不同的输入特征在不同的分辨率下，我们发现它们对融合输出的特征的贡献往往是不相等的。为了解决这一问题，我们提出了一个简单而又高效的加权双向特征金字塔网络，它在反复应用自顶向下和自下而上的多尺度特征融合的同时，引入可学习权值来学习不同输入特征的重要性。挑战2...

2019-11-30 10:57:01 1017 1

原创 M2Det

M2Det两个缺点：首先，金字塔中的特征map不具有代表性，因为它们仅仅是为对象分类任务设计的backbone的层次特征构造的。第二，金字塔中的每个特征map仅由backbone的单层构造，几乎只包含单层信息。一般情况下，较深层次的高层次特征对分类子任务具有更高的判别性，而较浅层中的低层特征对目标位置回归子任务有帮助。此外，低级特征更适合描述外观简单的对象。在时间中，具有相似大小的对象实例的外...

2019-11-29 16:51:12 195

原创 swish,mish

swish2.swish其中σ(x)是sigmoid函数，swish是光滑而且单调的，swish的导数是：swish的第一和第二导数如图2所示：无界性避免了饱和，函数饱和区域的梯度很小，训练非常缓慢，因此网络必须小心的初始化才能保持在这些函数的线性状态。此外，有下届也可能是有利的，因为强大的正则化效应。与relu和softplus不同的是，由于它的非单调性，它为小的负输入产生负输出...

2019-11-15 15:58:30 3226

原创 NASNet

NASNet1. Introduction将NAS和任何其他搜索方法直接应用于大型数据在计算上是很昂贵的，我们建议在较小的代理数据集上搜索一个良好的体系结构，然后将所学的体系结构转移到ImageNet。我们搜索空间中的所有卷积网络都是由结构相同但权重不同的卷积层组成，因此，对最佳卷积结构的搜索简化为对最佳单元结构的搜索。寻找最佳的单元结构有两个主要好处，它比搜索整个结构要快的多，而且单元本省更...

2019-11-11 10:40:12 138

原创 resnet2 resNext

resnet2我们发现恒等映射h(XL)=XL在所有的变量实验中，误差减少最快，训练损失最小，而scaling，gating，和1x1卷积的skip 连接都会导致更高的训练损失，这些实验表明，保持一条‘干净’的信息路径（灰色箭头的路径）有助于简化优化工作。为了构造f(yl) = yl，我们考虑了pre-activation。图1表示了这个结构比原始结构更容易训练和推广。上图中，a到c的变...

2019-11-09 10:42:49 244

原创 Effective Receptive Field

Effective Receptive Field1 Introduction深层CNN中的基本概念之一是网路中某一层中单元的感受野。在完全连接的网络中，每个单元的值取决于对网络的整个输入，而卷积网络中的一个单元只取决于输入的一个区域，输入中的这个区域是该单元的感受野。感受野的概念对于理解和诊断CNN工作非常重要，由于在单元感受野之外的输入图像中的任何地方都不影响该单元的值，因此必须仔细控制...

2019-11-08 13:15:28 1186

原创 Lookahead

Lookahead1 Introduction想要在神经网络中获得更好的性能，往往需要代价高昂的超参数调节。使用lookahead 可以改进内部优化器的收敛性，并经常提高泛化性能，同时对超参数变化鲁棒性很好，实验证明，lookahead对内循环优化器的变化，快速权值更新的次数和慢的权重学习速率具有很强的鲁棒性。2 Methodlookahead维护了一组slow weights φ和fa...

2019-11-07 18:51:02 2042

原创 Adam，Radma

Adam通过改变计算顺序，算法1的效率可以提高，将最后三行替换为：Radma我们主要的贡献有两方面，我们识别了自适应学习率的方差问题，并给出了warm-up的理论依据。结果表明，收敛性问题是由于模型训练初期自适应学习速率变化过大造成的。另一方面，我们提出了一种新的Adam变体，它不仅显著的修正了方差，而且理论上是健全的，而且比启发式warm-up相比也更好。我们在图2上观察到，在不进行...

2019-11-07 16:10:45 220

原创 Deformable Convolution Network

2. Deformable Convolutional Networks2.1. Deformable Convolution二维卷积由两个步骤组成，1）在输入特征映射上采用规则网格R采样，2）采样值按w加权求和，网格R定义感受野大小和dilation。对于输出feature map上的每个位置p0有，pn为R中的位置。在可变形卷积中，规则网格R用以下偏移集进行增广，其中N=|R|：...

2019-11-06 09:38:14 181

原创 EfficientNet

EfficientNet1. Introduction扩展COnvnet被广泛的应用于获得更好的精度，可以按深度或宽度扩展，另一种流行的方法是通过图像分辨率来扩大模型。但在以前的工作中，需要繁琐的手工调整，而且经常产生次精度，在本文中，我们要研究扩展Convnet的过程，是否有一种原则性的方法来扩大Convnet。我们的研究表明，平衡网络宽度/深度/分辨率是非常重要的，而且这种平衡可以简单的以...

2019-11-04 14:35:27 172

原创关于YOLOv3实现的一些细节问题

YOLOv3实现：https://blog.csdn.net/qq_34199326/article/details/84072505img[：，：，：：-1]的理解：https://blog.csdn.net/u014453898/article/details/93716118[::-1]实现翻转列表的原理：https://blog.csdn.net/qq_39521554/artic...

2019-11-01 17:21:59 221

原创 Hourglass

Hourglass3 Network Architecture3.1 Hourglass Design最后姿态的估计需要对整个身体有一个连贯的理解。人的方向、四肢的排列和相邻关节的关节是图像中最能在不同尺度上识别的许多线索之一。hourglass是一个简单的设计，它能捕获所有这些特性并将它们结合在一起输出像素级的预测。网络必须有某种机制来有效的处理和整合不同规模的特征。有些方法通过使用单独...

2019-11-01 15:21:23 1843

原创 CornerNet

CornerNet1 Introductionanchor 有两个缺点：第一，我们需要很多anchors，这在正样本anchor和负样本anchor之间造成了巨大额不平衡。第二，anchor引入了很多超参数和设计选择，合资的个数，anchor大小，纵横比等。如果与多尺度体系结构结合，则会变得更加复杂。corner pooling是一种新型的pooling layer，它可以帮助卷积网络更好...

2019-10-28 13:50:30 526

原创 Mask R-CNN

Mask R-CNN

2019-10-25 13:48:45 132

原创 Do Better ImageNet Models Transfer Better?

Do Better ImageNet Models Transfer Better?ImageNet 受到热烈追捧，基于这个数据集测量的网络体系结构推动了计算机视觉的研究在一系列广泛的问题上取得了很大的进展，包括转移到新的数据集，目标检测，图像分割和图像的感知度量。这一进展背后的一个隐含假设是，在ImageNet上性能更好的网络架构必然在其他视觉任务上的性能更好，另一个假设是更好的网络结构学习更...

2019-10-25 09:45:29 921

原创 focal loss

focal loss1. Introduction目前最先进的object detectos是基于two-stage的机制，如faster R-CNN。one-stage detectors应用于对象位置、尺度和纵横比的规则，密集抽样。如YOLO，SSD，但one-stage精度比不上two-stage。我们认为训练过程中的class imbalance 是阻碍精度的主要障碍。所以我们提出了一...

2019-10-24 21:56:22 248

原创 FPN

FPN1. Introduction特征化的 image pyramid 被大量使用，ConvNet被用来计算特征，除了能够表示更高层次的特征之外，convnet 对尺度上的变化也更有鲁棒性，很多检测挑战中都使用了对特征化图像金字塔的多尺度测试，它的主要优点是产生了一个多尺度的特征表示，其中所有级别的语义都很强，包括高分辨率级别。然而图像金字塔也有明显的额局限性，inference 时间大大...

2019-10-24 18:39:33 202

原创 Faster R CNN

Faster R CNN3 FASTER R-CNN我们的Faster R CNN 由两个模块组成，第一个模块是 proposes regions 的全卷积网络，第二个是使用 proposed regions 的 Faster R CNN 检测器。3.1 Region Proposal NetworksRPN以一个图像作为输入，并输出一组矩形object proposal 每个提案都有...

2019-10-23 21:01:47 215

原创 YOLOv_3

YOLOv_22. The Deal2.1. Bounding Box Prediction我们使用anchor boxes 来预测 bounding boxes，这些anchor box是用k-means算法据类得出的，网络预测每个 bounding box 的tx, ty, tw, th4个坐标，cx, cy 为图像左上角偏移，边框先前的宽度pw和高度ph，则预测位置对应于：我们使用...

2019-10-22 12:52:11 115

原创 YOLO v_2

YOLO v_22. BetterBatch Normalization.获得了mAP2%的提升，而且可以移除dropout。High Resolution Classifier.先用224224的输入从头开始训练网络，大概160个epoch（表示将所有训练数据循环跑160次），然后再将输入调整到448448，再训练10个epoch。这两步都是在ImageNet数据集上操作。最后再在检测...

2019-10-22 09:42:39 79

原创 YOLO v_1

YOLO v_12. Unified Detection将输入图像划分为SxS网格，如果对象的中心中心落入网格单元，则该网格单元负责检测该对象。每个网格单元预测B bounding boxes和这些框的置信度分数。这些置信度分数反映了模型对box包含一个物体的信心，也反映了它认为box所预测的准确程度，我们将置信度定义为如果该单元格中不存在对象，则置信度分数为0，否则，我们希望置信度分数...

2019-10-21 19:16:01 207

转载边框回归

边框回归边框回归是什么？对于窗口一般使用四维向量（x，y，w，h）来表示，分别表示窗口的中心点坐标和宽高。对于图2，红色的框P代表原始的Proposal，绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口边框回归怎么做？线性回归就是给定输入的特征向量X，学习一组参数W，使得经过线性回归...

2019-10-21 15:15:44 257

原创 mini-batch

mini-batch（花书p171）n个样本均值的标准差是σ / √ n ,其中σ是样本真实的标准差，其中σ是样本值真实的标准差。分母√ n表明使用更多的样本来估计梯度的方法的收益是低于线性的。例如，比价两个假象的梯度计算，一个基于100个样本，一个基于10000个样本，后者需要的计算量是前者的100倍，却只降低了10倍的均值标准差。如果能够快速的计算出梯度估计值，而不是缓慢的计算准确的梯度值...

2019-10-20 13:33:48 276

原创 GoogLeNet v4

GoogLeNet v43. Architectural Choices3.1. Pure Inception blocks从历史上看，我们对于更改体系结构的选择比较保守，我们的实验仅限于改变孤立的网络组件，同时保持网络其余部分的稳定，在inception中，我们决定放弃这个不必要的包袱，并为每个网格大小对Inception block做出统一的选择。3.2. Residual Incep...

2019-10-17 10:58:39 386

原创 GoogLeNet v3

GoogLeNet v2（Submitted on 2 Dec 2015 ）2.General Design Principles我们将描述几个设计原则，这几个原则应用于大规模的实验和各种结构和卷积网络的选择，在这一点上，以下原则的效用都是推测性的，还需要更多的实验来评估。然而，严重偏离这些原则往往会导致网络质量的恶化，在我们修正这些偏差时，总体结构会被被改进。Avoid repr...

2019-10-17 09:10:25 160

原创 Delving Deep into Rectifiers

Delving Deep into Rectifiers2. Approach2.1. Parametric RectifiersDefinitionai是控制斜率的系数，ai=0时，变成relu，ai是一个可学习的参数，公式（1）等于：如果ai是一个小且固定的值，则PReLU则成为LReLU，LReLU是为了避免零梯度，但是在实验中它对精度的影响可以忽略不计。PReLU引入的额外...

2019-10-15 21:21:13 276

原创数据结构基础知识

树的遍历：https://blog.csdn.net/qq_40772692/article/details/79343914

2019-10-08 21:18:29 78

原创 python

字典(Dictionary) fromkeys()方法语法：dict.fromkeys(seq[, value])lambda表达式学习reduce表达式学习reduce() 函数语法：reduce(function, iterable[, initializer])tuple和list的转换直接使用tuple和list函数，type()可以判断对象的类型excepth...

2019-10-08 19:15:14 114

原创 CNN

卷积神经网络https://blog.csdn.net/weixin_42451919/article/details/81381294https://blog.csdn.net/ice_actor/article/details/78648780

2019-09-16 08:57:06 151

原创深度学习知识点

Batch size对模型训练有什么影响，大小选取？mini-batch 的大小设置：通常是10到100。大小最好是2的n次方，如16,32,64,128https://blog.csdn.net/juronghui/article/details/78612653深度学习中网络训练时loss不降的解决方法https://blog.csdn.net/qq_37764129/articl...

2019-09-14 21:34:05 155

转载激活函数

激活函数的用途（为什么需要激活函数）？如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数...

2019-09-14 20:15:54 117 1

原创梯度消失和梯度爆炸

梯度消失神经网络主要的训练方法是BP算法，BP算法的基础是导数的链式法则，也就是多个导数的乘积。而sigmoid的导数最大为0.25，且大部分数值都被推向两侧饱和区域，这就导致大部分数值经过sigmoid激活函数之后，其导数都非常小，多个小于等于0.25的数值相乘，其运算结果很小。且由于数据分布一般不是正态分布，数值偏离中心，所以大部分数值都被推向两侧饱和区域，这就导致大部分数值经过sigmoi...

2019-09-14 20:11:22 101

转载 BN

BN

2019-09-14 19:27:22 989

转载机器学习（神经网络）优化方法

梯度下降法（Gradient Descent）梯度下降法根据每次求解损失函数L带入的样本数，可以分为：全量梯度下降（计算所有样本的损失），批量梯度下降（每次计算一个batch样本的损失）和随机梯度下降（每次随机选取一个样本计算损失）。PS：现在所说的SGD（随机梯度下降）多指Mini-batch-Gradient-Descent（批量梯度下降）SGD的优缺点优点：操作简单，计算量小，在损失...

2019-09-14 18:32:00 357

原创 Dropout： A Simple Way to Prevent Neural Networks from Overﬁtting

摘要在训练时随机的去掉一些神经元，这能防止神经元之间过度的共适应关系。这种方法显著的减少了过拟合，并对其他正则化方法进行了重大改进。dropout提高了神经网络在视觉、语音识别、文档分类和计算生物学等监督学习任务中的表现。IntroduceDNN的表达能力很好，能够学习到输入和输出之间很多复杂的关系，但在有限的训练数据中，很多复杂的关系会成为结果的噪声样本，因为这些噪声很可能存在于train...

2019-09-14 12:52:07 364

空空如也

空空如也