ZDA爱吃火锅-CSDN博客

原创 Fast RCNN总结

主要贡献：①规避R-CNN中冗余的特征提取操作，只对整张图像全区域进行一次特征提取（首次在SPP-Net中提出）；②用RoI pooling层取代最后一层max pooling层，同时引入建议框信息，提取相应建议框特征；③Fast R-CNN网络末尾采用并行的不同的全连接层，可同时输出分类结果和窗口回归结果，实现了end-to-end的多任务训练【建议框提取除外】，也不需要额外的特征存储空间【R-CNN中这部分特征是供SVM和Bounding-box regression进行训练的】；④采用SVD对

2022-03-17 22:23:11 1953 1

原创 SPPNet总结

背景：RCNN使用CNN作为特征提取器，首次使得目标检测跨入深度学习的阶段。但是在RCNN中，因为全连接层的神经元个数是固定的（权重矩阵的维数是固定的），所以采取对于每一个区域候选都需要首先将图片放缩到固定尺寸（227×227），然后为每个区域候选提取CNN特征的方案。这里存在两个瓶颈，第一重复为每个region proposal提取特征是及其费时的，Selective Search对于每幅图片产生2k左右个region proposal，也就是意味着一幅图片需要经过2k次完整的CNN计算得到最终的结果。

2022-03-11 07:21:43 4829

原创 RCNN总结

RCNN总结背景挑战一：不同于图像分类，检测需要在图片中定位物体。一个方法是将帧定位视作为一个回归问题；另一个方法是使用滑动窗口探测器（含有目标特征），通过这种方法使用CNNs至少有20年，通常用于特定的种类如人脸，行人等，为了保证较高的分辨率，这些CNNs通常只有两个卷积层和池化层，然而由于更深的网络，更大的输入图片和滑动步长，使得使用滑动窗口来定位的方法充满了挑战。挑战二：在检测中面临的第二个挑战时目前可用的有标签数据是远远不够来训练一个大的CNN网络的。对于这个问题，比较方便的解决办法是先使用无

2022-03-09 14:39:11 438 1

原创 EfficientNet

1905_EfficientNet_Google图：特点，优点：可以通过相似的体系结构解决这两个问题。他们提出了一种通用的CNN骨架架构和三个参数，即宽度，深度和分辨率。模型的宽度是指各层中存在的通道数，深度是指模型中的层数，分辨率是指模型的输入图像大小。他们声称，通过将所有这些参数保持较小，可以创建一种竞争性强但计算效率高的CNN模型。另一方面，仅通过增加这些参数的值，就可以创建更好的高精度模型。代码：pytorch实现：import torchfrom torch import

2021-07-17 08:08:31 361

原创 GhostNet网络

1911_GhostNet:图：网络描述：本篇论文是发表于CVPR2020的一篇轻量级网络的论文，作者是华为诺亚方舟实验室，文章的总体思路比较清晰，为了减少网络计算量，作者将传统的卷积分成两步进行，首先利用较少的计算量通过传统的卷积生成channel较小的特征图，然后在此特征图的基础上，通过cheap operation(depthwise conv)再进一步利用较少的计算量，生成新的特征图，最后将两组特征图拼接到一起，得到最终的output，最终实验效果还不错，相同计算量的情况下比MobileNe

2021-07-06 18:20:10 576 3

原创 ‘UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 0: invalid start byte‘成功解决

今天在用pandas进行读取时出现了bug出现这种情况的原因是：文件的编码不是 UTF8 编码的，而pandas读取文件时固定采用 UTF8 解码。解决方法是改为对应的解码方式。解决的方式有两种：第一种：可以查看你对应文件的编码格式，使用notepad查看文件的编码格式，如果你知道了你的文件编码格式，那么你就用对应编码格式打开，如我下面的做法。data = pd.read_table('data.txt',encoding='utf-16')第二种：如果不知道文件编码格式也没关系，可以自

2021-07-01 16:59:45 6835

原创 SKNet网路

1903_SKNet:图：网络描述：SENet是对特征图的通道注意力机制的研究， CBAM 提到了对特征图空间注意力机制的研究。这里 SKNet 针对卷积核的注意力机制研究。==SKNet是SENet的加强版，结合了SE opetator, Merge-and-Run Mappings以及attention on inception block的产物。其最终提出的也是与SE类似的一个模块，名为SK, 可以自适应调节自身的感受野。==据作者说，该模块在超分辨率任务上有很大提升，并且论文中的实验也证实

2021-07-01 01:56:20 1043 3

原创 HR-Net

1902_HR-Net:图：网络描述：在这篇论文中，我们主要研究人的姿态问题(human pose estimation problem)，着重于输出可靠的高分辨率表征(reliable highresolution representations)。现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。相反，我们提出的网络能在整个过程中都保持高分辨率的表征。我们从高分辨率子网络(high-resoluti

2021-06-29 17:45:42 404

原创 ShffleNet

1712_ShffleNet:图：图.ShuffleNet Units （a）具有深度卷积（depthwise convolution）的瓶颈单元；（b）具有分组逐点卷积（GConv）和通道重排的ShuffleNet单元；（c）具有stride=2的ShuffleNet单元。网络描述：表中展示了整个ShuffleNet架构。该网络主要由一组分为三个阶段的ShuffleNet单元组成。每个阶段的第一个构建块使用stride=2。一个阶段中的其他超参数保持不变，下一个阶段的输出通道加倍。为每个Sh

2021-06-26 21:39:19 246

转载特征缩放的效果：从词袋到 TF-IDF

特征缩放的效果：从词袋到 TF-IDF转载：github译者：@gin校对者：@HeYun字袋易于生成，但远非完美。假设我们平等的统计所有单词，有些不需要的词也会被强调。在第三章提过一个例子，Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计，两个主要角色并不突出。这是有问题的。其他的像是“magnifi

2021-06-26 20:36:24 414

转载自动化特征提取器：图像特征提取和深度学习

自动化特征提取器：图像特征提取和深度学习转载：github译者：@friedhelm739视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的，一些系统甚至在出生前就对刺激做出反应。另一方面，语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋，但是我们所有人都必须有意训练我们的大脑去理解和使用语言。有趣的是，机器学习的情况是相反的。我们已经在文本分析应用方面取得了比图像或音频更多的进展。以搜索问题为例。人们在信息检索和文本

2021-06-26 20:19:54 2072

转载简单数字的奇特技巧

转载：github二、简单数字的奇特技巧译者：@coboe校对者：@ZiseonJiao在深入研究诸如文本和图像这样的复杂数据类型之前，让我们先从最简单的数字数据开始。它们可能来自各种来源：地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面，而且符合模型的假设。因此，转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时，它们可以被应用。数值数据的第一个健全检查是大小是否重要。我

2021-06-25 10:13:46 611

转载降维：用 PCA 压缩数据集

转载：github降维：用 PCA 压缩数据集译者：@cn-Wziv校对者：@HeYun通过自动数据收集和特征生成技术，可以快速获得大量特征，但并非所有这些都有用。在第 3 章和在第 4 章中，我们讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用主成分分析（PCA）进行数据降维。本章标志着进入基于模型的特征工程技术。在这之前，大多数技术可以在不参考数据的情况下定义。对于实例中，基于频率的过滤可能会说“删除所有小于n的计数“，这个程序可以在没有进一步输入的情况下进行数

2021-06-23 19:51:36 805

原创成功解决“ValueError: Unknown metric function:sensitivity”

今天在加载模型时出现的错误：参考了别人的做法后成功解决：链接原因是因为自己在训练时定义了新的评估函数：def sensitivity(y_true,y_pred): TP=tf.reduce_sum(y_true*tf.round(y_pred)) TN=tf.reduce_sum((1-y_true)*(1-tf.round(y_pred))) FP=tf.reduce_sum((1-y_true)*tf.round(y_pred)) FN=tf.reduce_su

2021-06-23 02:09:52 590

原创 CBAM网络

18_CBAM Net:图：网络描述：CBAM表示卷积模块的注意力机制模块。是一种结合了空间（spatial）和通道（channel）的注意力机制模块，相比于senet只关注通道（channel）的注意力机制可以取得更好的效果。作者提出了一个简单但有效的注意力模块 CBAM，给定一个中间特征图，我们沿着空间和通道两个维度依次推断出注意力权重，然后与原特征图相乘来对特征进行自适应调整。由于 CBAM 是一个轻量级的通用模块，它可以无缝地集成到任何 CNN 架构中，额外开销忽略不计，并且可以与基

2021-06-22 20:44:12 2367

原创 CondenseNet总结

1711_CondenseNet图：网络描述：CondenseNet是作者在DenseNet基础上进行改进，集合了分组卷积、稠密连接、剪枝等。实验证明，CondenseNet比前沿的MobileNet和ShuffleNet性能更好。作者认为，DenseNet对特征的利用存在冗余，即每一层不必接收前面所有层的特征输出。为了降低这些冗余，作者提出了一种剪枝机制。之前的文章中，剪枝多是在网络训练之后，按照连接的权值大小或者其他连接重要性评估参数进行剪枝。==本文的剪枝采用了另外一种策略，即在训练的过程

2021-06-21 17:35:40 599

原创 keras训练模型，训练集的准确率很高，但是测试集准确率很低的原因

今天

2021-06-19 14:50:05 12276 1

原创 SE Net

1709_SE Net:图：网络描述：Squeeze-and-Excitation Networks（简称 SENet）是 Momenta 胡杰团队（WMW）提出的新的网络结构，利用SENet，一举取得最后一届 ImageNet 2017 竞赛 Image Classification 任务的冠军，在ImageNet数据集上将top-5 error降低到2.251%，原先的最好成绩是2.991%。作者在文中将SENet block插入到现有的多种分类网络中，都取得了不错的效果。作者的动机是希望显式

2021-06-18 18:40:35 520

原创 Squeeze Net

1602_Squeeze Net图：网络描述：Squeeze Net 发表于ICLR-2017，作者分别来自Berkeley和Stanford，Squeeze Net不是模型压缩技术，而是 “design strategies for CNN architectures with few parameters” 。 Squeeze Net是Han等提出的一种轻量且高效的CNN模型，它参数比AlexNet少50x，但模型性能（accuracy）与AlexNet接近。SqueezeNet的核心在于Fi

2021-06-11 12:08:36 1003 1

原创 DenseNet简单总结

2017_DenseNet_Facebook:图：trasition layer补充图网络描述：DenseNet让网络的每一层的输入变成所有前面层的叠加（concat），然后把它的特征图传递给所有接下来的网络层。transition layer,放在两个Dense Block中间,是因为每个Dense Block结束后的输出channel个数很多,需要用1*1的conv来降维。Densenet和其他网络对比与Inception系列和ResNet网络不通，Inception网络主要是从网络的

2021-06-09 13:10:39 496

原创 Xception总结

2017_Xception图：网络描述：Xception是谷歌公司继Inception后，提出的InceptionV3的一种改进模型，其改进的主要内容为采用depthwise separable convolution来替换原来Inception v3中的多尺寸卷积核特征响应操作。首先要讲一下什么是depthwise separable convolution：对于一个卷积点而言，假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32。具体为，32个3×3大小的卷积核会遍历16个通道中的每

2021-06-09 13:09:19 4298 3

原创 MobileNet V3简单总结

2017_MobileNetV3_谷歌：图： MobileNetV3-Large和MobileNetV3-Small两种不同大小的网络结构网络描述：MobileNetV3 一种轻量级网络，它的参数量还是一如既往的小第一列Input代表mobilenetV3每个特征层的shape变化；第二列Operator代表每次特征层即将经历的block结构，我们可以看到在MobileNetV3中，特征提取经过了许多的bneck结构；第三、四列分别代表了bneck内逆残差结构上升后的通道数、输入到bne.

2021-06-07 17:26:46 3679

原创 MobileNet V2简单总结

2017_MobileNetV2_谷歌：图：网络描述：MobileNet V2提出了 the inverted residual with linear bottleneck，线性瓶颈反残差结构。扩张（1x1 conv） -> 抽取特征（3x3 depthwise）-> 压缩（1x1 conv）特点，优点：（1）引入残差结构，先升维再降维，增强梯度的传播，显著减少推理期间所需的内存占用（2）去掉 Narrow layer（low dimension or depth）后的

2021-06-07 17:19:45 1510

原创 MobileNetV1

2017_MobileNetV1_谷歌：图：网络描述：depthwise convolution(卷积后通道数不改变): 对于128x128x512的特征图, 用512个3x3的卷积核分别对每个通道进行卷积，得到了通道为512的特征图pointwise convolution：用n个1x1卷积，将上述通道数为512的特征图变为通道数为n的特征图。MobileNet的基本单元是深度级可分离卷积（depthwise separable convolution），其实这种结构之前已经被使用在Inc

2021-06-07 17:16:07 159

原创 InceptionNet V4

2016_InceptionNet V4_谷歌：图：Inception-v4网络35×35网格的框架（对应图中Inception-A块）：Inception-v4网络17×17网格块的框架（对应图中Inception-B块）：Inception-v4网络的8×8网格模块的框架（对应图中Inception-C块）：35x35变为17x17模块，即Reduction-A ：17x17变为8x8模块，即Reduction-B ：网络描述：左图是基本的Inception v2/v3模块

2021-06-07 17:08:51 148

原创 InceptionNet V3整理总结

2015_InceptionNet V3_谷歌：图：网络描述：Inception-V3模型是谷歌在大型图像数据库ImageNet 上训练好了一个图像分类模型，这个模型可以对1000种类别的图片进行图像分类。 Inception V3优化了Inception Module的结构，现在Inception Module有35´35、17´17和8´8三种不同结构，如图所示。这些Inception Module只在网络的后部出现，前部还是普通的卷积层。并且Inception V3除了在Inception M

2021-06-07 17:02:14 1801

原创 InceptionNet V2整理总结

2015_InceptionNet V2_谷歌：图：网络描述：Inception V2学习了VGGNet，用两个3´3的卷积代替5´5的大卷积（用以降低参数量并减轻过拟合），还提出了著名的Batch Normalization（以下简称BN）方法。BN是一个非常有效的正则化方法，可以让大型卷积网络的训练速度加快很多倍，同时收敛后的分类准确率也可以得到大幅提高。BN在用于神经网络某层时，会对每一个mini-batch数据的内部进行标准化（normalization）处理，使输出规范化到N(0,1)的

2021-06-07 17:00:48 505

原创 Inception Net V1总结

2014_Inception Net V1_谷歌：图：网络描述：Inception模型的主要贡献是提出了inception module，图（a）是作者提出的一个基本的Inception V1网络结构，其基本思想就是，对一个特征层分别使用不同大小卷积核进行卷积操作（包括1x1、3x3、5x5卷积层，和一个3x3的最大池化层），从而获得了不同感受野大小的特征层；最后通过一个concat堆叠，就得到了Inception V1的输出特征层；图（b）是作者又提出的改进结构，改进的原因是由于Incept

2021-06-07 16:44:24 340

原创 ResNet网络总结

2015_ResNet_何凯明：**图：网络描述：ResNet的主要思想是在网络中增加了直连通道，即Highway Network的思想。此前的网络结构是性能输入做一个非线性变换，而Highway Network则允许保留之前网络层的一定比例的输出。第二幅图中这两种结构分别针对ResNet34（左图）和ResNet50/101/152（右图），一般称整个结构为一个”building block“。其中右图又称为”bottleneck design”，目的一目了然，就是为了降低参数的数目，第一

2021-06-05 18:47:09 3951

原创 VGG16经典神经网络总结

2014_VGG16_牛津**图：网络描述：VGG16总共有16层，13个卷积层和3个全连接层，第一次经过64个卷积核的两次卷积后，采用一次pooling，第二次经过两次128个卷积核卷积后，再采用pooling，再重复两次三个512个卷积核卷积后，再pooling，最后经过三次全连接。输入图像尺寸224×224×3，进行第一个卷积之后得到224×224×64的特征图，接着还有一层224×224×64，得到这样2个厚度为64的卷积层，意味着我们用64个过滤器进行了两次卷积。这里采用的都是大小为3×

2021-06-03 15:20:24 1324

python opencv实现信用卡的数字识别

空空如也