何如千泷-CSDN博客

原创 PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

在计算机视觉和自然语言处理中，在大规模数据集上预训练的系统已经很好地推广到了几个任务中。然而，在用于音频模式识别的大规模数据集上对预训练系统的研究有限。在本文中，我们提出了在大规模AudioSet数据集上训练的预训练音频神经网络（PANN）。这些PANN被转移到其他与音频相关的任务。我们研究了由各种卷积神经网络建模的PANN的性能和计算复杂性。我们提出了一种称为Wavegram-Logmel-CNN的架构，使用log-mel频谱图和波形图作为输入特征。

2023-09-10 18:29:15 501 2

原创 Vision Transformer

在计算机视觉领域中，多数算法都是保持CNN整体结构不变，在CNN中增加attention模块或者使用attention模块替换CNN中的某些部分。有研究者提出，没有必要总是依赖于CNN。因此，作者提出ViT算法，仅仅使用Transformer结构也能够在图像分类任务中表现很好。受到NLP领域中Transformer成功应用的启发，ViT算法中尝试将标准的Transformer结构直接应用于图像，并对整个图像分类流程进行最少的修改。

2022-09-05 17:26:11 4013 2

原创 DeepLab系列

DeepLab系列详细解读，并使用Pytorch实现

2022-06-17 11:33:37 925 2

原创常见的卷积模型

常见的卷积模型1. 标准卷积作用：保留空间信息局部连接权重共享2. 1×1卷积作用：实现信息的跨通道交互与整合对卷积核通道数进行降维和升维，减少参数量利用1×1 卷积后的非线性激活函数，在保持特征图尺寸不变的前提下，大幅增加非线性3. 转置卷积作用：上采样4. 空洞卷积作用：获得更大的感受野5. 分组卷积作用：减少计算量6. 深度可分离卷积作用：减少计算量...

2022-05-02 12:01:40 944

原创通配符匹配

通配符匹配1.题目描述请实现支持’?‘and’'的通配符模式匹配‘?’ 可以匹配任何单个字符。'’ 可以匹配任何字符序列（包括空序列）。输入： s = "adceb" p = "*a*b"输出： true解释：第一个'*'匹配空字符串，第二个'*'匹配"dce"2. 解决思路dp[i][j]表示字符串s的前i个字符和模式p的前j个字符是否匹配如果p[j]是小写字母，那么同时对应的s[i]也必须为小写字母并且相同。那么状态dp[i][j]从dp[i-1][j-1]转移过来

2022-04-07 10:21:20 636

原创放苹果问题

放苹果1. 问题描述把m个同样的苹果放在n个同样的盘子里，允许有的盘子空着不放，问共有多少种不同的分法？2. 解决思路令f(m,n)表示m个苹果放到n个盘子有多少种分法，按照是否有空盘子分为2种情况：假设至少有一个空盘子，则f(m,n)=f(m,n-1)没有空盘子，则每个盘子上至少有一个苹果，则问题转化为将m-n个苹果放在n个盘子有多少种分法，即求f(m-n, n)所以，f(m,n)=f(m, n-1) + f(m-n, n)边界条件：m=1时，只有一种分法，即有一个盘子为1个，其.

2022-03-25 15:46:42 2132

原创最小编辑距离

编辑距离1.问题描述编辑距离指从一个字符串到另一个字符串所需要的编辑次数，包括插入字符，删除字符及替换字符这三种操作。最小编辑距离即从一个字符串到另一个字符串所需要的最小编辑次数。利用编辑距离可以判断两个字符串的相似程度2. 最小编辑距离计算我们定义d[i][j]表示words1前i个字符和words2前j个字符的最小编辑距离。则状态转移方程为：dp[i][j]={dp[i−1][j]+1dp[i][j−1]+1dp[i−1][j−1]+{0words1[i]==words2[j]1words1

2022-03-24 22:42:50 2262 1

原创匈牙利算法

匈牙利算法1. 算法简介2. 案例分析——素数伴侣import mathdef isPrime(n): if n < 4: return n > 1 for i in range(2, int(math.sqrt(n)+1)): if n % i == 0: return False return Truedef match(odd): # 对偶数进行遍历，查看是否有匹配的 for

2022-03-22 21:07:36 162

原创最长递增子序列

最长递增子序列1. 问题描述给你一个整数数组nums，找到其中最长严格递增子序列的长度2. 问题解决dp = [1] * len(nums)for i in range(1, len(nums)): for j in range(i): if nums[i] > nums[j]: dp[i] = max(dp[i], dp[j] + 1)return dpimport bisectdp = [1] * len(nums)d = [nums[0]]for i in

2022-03-22 11:43:12 461

原创 0-1背包问题

0-1背包问题1. 问题描述有一个可装载重量为W的背包和N个物品，每个物品有重量和价值两个属性。其中第i个物品的重量为w[i]，价值为v[i]，现在用这个背包最多能装的价值是多少？2. 问题解决2.1 明确状态和选择状态：背包的容量和可选择的物品选择：对于每件物品，装进背包或者不装进背包2.2 明确dp数组的定义dp[i][j]：表示前i个物品，背包重量为j的情况下能装的最大价值2.3 根据选择确定状态转移方程dp[i][j]=max(dp[i-1][j], dp[i-1][j-w[i]

2022-03-22 11:26:43 154 2

原创 jupyter-notebook更换kernel

安装 ipykernelpip install ipykernel 将环境写入notebook的kernel中python -m ipykernel install --user --name rs --display-name 'rs'修改kernel.json文件，修改为你自己python环境路径cd /home/hlz/.local/share/jupyter/kernels/rssudo vim kernel.json效果如下：...

2022-01-20 17:35:40 1738

原创 SegNet算法详解

SegNet论文详解本文提出了一种用于语义分割的深度全卷积神经网络结构SegNet，其核心由一个编码器网络和一个对应的解码器网络以及一个像素级分类层组成。本文的创新在于：解码器使用在对应编码器的最大池化步骤中计算的池化索引来执行非线性上采样，这与反卷积相比，减少了参数量和运算量，而且消除了学习上采样的需要。1. 网络结构1.1 编码器Conv层通过卷积提取特征，其中使用的是same padding的卷积，不会改变特征图的尺寸BN层起到归一化的作用ReLU层起到激活函

2021-12-31 11:31:39 10752 7

原创 FCN网络详解

FCN论文详解1. 将全连接层替换为卷积层语义分割的目的是对图像中每一个像素点进行分类，与普通的分类任务只输出图像某个类别不同，语义分割任务输出的是与输入图像大小相同的图像，输出图像的每个像素对应输入图像每个像素的类别，这也就是论文中提到的dense prediction。FCN全卷积网络是图像分割开山之作，其核心思想非常简单，用卷积层代替分类网络中的全连接层。用于分类的神经网络由卷积层、池化层和最后连接的全连接层组成，经过最后的全连接层后，二维的图像信息被映射为具体的一维类别信息进行输出，得到分

2021-12-30 23:11:47 2789

原创 U-Net论文详解

U-Net论文详解U-Net结构由一个用于捕获上下文信息的压缩路径和一个支持精确定位的对称扩展路径构成。实验结果表明可以从很少的图像进行端到端的训练，并在ISBI挑战上优于先前最优的方法(滑动窗口卷积网络)，并获得了冠军1. 背景介绍卷积网络的典型应用是分类任务，其中图像的输出是一个单一的类标签。然而在许多视觉任务中，特别是生物医学图像处理中，期望的输出应该包含定位，即给每一个像素点分配一个类标签。于是滑动窗口卷积网络通过提供像素点周围的局部区域来预测每个像素的类别标签。但是这样的方法存在两个缺

2021-12-27 22:46:40 3191

原创 PSPNet论文详解

在本文中，我们通过金字塔池化模块提出了用于场景解析的PSPNet，该网络可以聚合不同区域的上下文信息来挖掘全局的上下文信息，我们的全局信息可以有效地在场景解析任务中产生高质量的结果。1. Introduction基于语义分割的场景解析是计算机视觉的一个基础课题，其目的是为图像中的每一个像素指定一个类别标签。最先进的场景解析分析框架主要是基于全卷积网络(FCN)，基于深度卷积神经网络的方法提高了对动态对象的理解，但由于场景的多样性和词汇的不受限制性，其仍然面临较大的挑战。比如下图中第一行展示的例子，.

2021-12-21 17:34:41 5645

原创 YOLOV4论文详解

1. Introduction本文的贡献如下：我们开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080 Ti或2080 TiGPU来训练一个超级快速和准确的目标探测器。在检测器的训练过程中，我们验证了最先进的Bag-of-Freebies和Bag-of-Specials我们修改了最先进的方法，使其更有效，更适合于单GPU训练，包括CBN、PAN、SAM等。2. Related work2.1 Object detection models我们对现有的目标检测算法进行了总结，.

2021-11-29 23:12:43 3555

原创 Manjaro 基础配置及常用软件安装

更新源、获取keyhttps://mirrors.tuna.tsinghua.edu.cn/help/archlinux/https://mirrors.tuna.tsinghua.edu.cn/help/archlinuxcn/安装常用工具：yay、git、debtab、wgetsudo pacman -S yayyay -S git debtab wget输入法# 安装输入软件及框架yay -S fcitx-qt4 kcm-fcitx fcitx-sogoupinyin..

2021-11-28 15:10:18 2429

原创图像增强之PIL库实现

from PIL import Image, ImageEnhanceimport matplotlib.pyplot as pltimport numpy as npimport randomimport math# 读入图片img = Image.open('img/bear.png')# 显示图片plt.imshow(img)<matplotlib.image.AxesImage at 0x7ffa922bac10>def show_compare(src_i

2021-11-22 23:30:02 1307

原创 YOLOV3论文详解

本文主要介绍了YOLOV3的网络结构和损失函数，其他部分几乎与YOLOV2相差无几。1. Introduction2. The Deal2.1 Bounding Box Prediction在YOLOV2后，我们的系统开始使用聚类来确定anchor的尺寸和比例。网络会为每一个bounding box预测4个坐标：tx,ty,tw,tht_x,t_y,t_w,t_htx,ty,tw,th。如果网格单元相对于图像的左上角的偏移为哦(cx,cy)(c_x,c_y)(cx,cy)，而且a.

2021-11-22 19:55:09 1734

原创 YOLOV2论文详解

本文主要介绍了YOLOV2的Better和Faster部分1. BetterYOLOV1存在如下两个缺点：定位误差大与基于region proposal的方法相比，召回率低因此，我们集中提高定位准确性和召回率，同时保证分类的准确性1.1 Batch NormalizationBN可以显著改善模型的收敛性，通过在每个卷积层的后面增加BN层，模型提高了**2%**的mAP。通过BN，我们可以在保证模型不会过拟合的情况下，丢弃dropout层1.2 High Resolution Clas.

2021-11-21 17:35:57 3469

原创 YOLOV1论文详解

YOLOV11. IntroductionYOLO非常简单：对于一张完整的图像，通过一个单一的卷积网络可以同时预测多个bounding boxes的回归参数和这些boxes的类别概率，并直接优化检测性能。这种统一的模式相对于传统的目标检测有以下几个好处：检测特别快。与滑动窗口和基于region proposal的技术不同，YOLO在训练和测试期间可以看到整个图像，因此它能隐式地编码类别以及它们的外观的上下文信息YOLO学习地是目标的通用表示法，具有高度的通用性但是，在准确性上，YOLO仍然

2021-11-20 20:55:31 3095

原创 SSD论文详解

The Single Shot Detector1 Model模型架构精简版模型架构细节版1.1 Multi-scale feature maps for detection我们在基础网络（VGG）的后面增加了不同大小的卷积层，使得特征图经过这些卷积层的大小逐渐减少，从而使得网络能够在不同尺度进行检测。具体来说：VGG网络Conv5_3之间称为基础网络，用来提取图像特征将VGG网络中MaxPool5的大小从2x2-s2改为3x3-s1将VGG网络中的FC6和FC7分别改为卷积层Co

2021-11-15 11:23:33 3977

原创 Faster RCNN论文详解

Faster RCNN建议先阅读之前的RCNN和Fast RCNN后再来阅读此文Faster RCNN提出了Region Proposal Network解决了Fast RCNN中selective search算法提取候选框速度太慢的问题。1. Faster RCNN初识conv layers：通过CNNCNNCNN提取image的feature maps。此feature maps被共享用于后续的层Region Proposal Networl：用于生成region proposals

2021-11-05 15:39:15 4293

原创 Fast RCNN论文详解

Fast RCNN1. Introduction1.1 R-CNNR-CNN存在以下几个问题：Training is a multi-stage pipeline：训练分多步，每次训练需要fine tuning一个预训练网络，然后region proposals要通过selective search算法获取，还有针对每一个类别都训练一个SVM分类器，最后还要用regressor对bounding box进行回归Training is expensive in space and time: 时

2021-11-04 21:14:46 1012

原创 RCNN论文详解

RCNN1. 目标检测目标检测是分类任务（bounding box中物体的类别）和回归任务（bounding box的大小及位置）的组合。2. RCNN的贡献根据Selective Search算法提取Region proposal候选区域将每个Region proposal缩放到统一大小后，通过CNNCNNCNN提取固定大小的特征将提取出的特征通过SVMSVMSVM进行分类训练一个回归器，对bounding box边界框进行调整，使其接近ground truth真实边界框3. Regi

2021-11-04 17:52:49 1107

原创 HBase之集群搭建与快速入门

HBase快速入门1. HBase安装部署Zookeeper 正常部署[codecat@hadoop102 zookeeper-3.5.9]$ bin/zkServer.sh start[codecat@hadoop103 zookeeper-3.5.9]$ bin/zkServer.sh start[codecat@hadoop104 zookeeper-3.5.9]$ bin/zkServer.sh startHadoop 正常部署[codecat@hadoop102 hadoo

2021-11-02 16:56:33 1859

原创 HBase之概述

HBase简介1. HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库2. HBase数据类型逻辑上，HBase的数据模型同关系性数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像一个multi-dimensional map。2.1 HBase逻辑结构2.2 HBase物理存储结构2.3 数据模型2.3.1 Name Space命名空间，类似于关系型数据库的 DatabBase 概念，每个命名空间下

2021-11-02 15:49:55 96

原创 GhostNet详解及代码实现

Ghost Net1. Introduction上图是由ResNet-50中的第一个残差块生成的某些中间特征图的可视化。从图中我们可以看出，这里面有很多特征图是具有高度相似性的（在图中分别用不同的颜色示意），换句话说，就是存在许多的冗余特征图。所以从另一个角度想，我们是不是可以利用一系列的线性变化，以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图呢？这个便是整篇文章的核心思想。2. ApproachGhost module：先通过conv生成一些特征图然后对生成的特征图进行ch

2021-10-31 15:44:42 14608

原创 Shuffle Net系列【V1—V2】

1. ShuffleNet V11.1 Abstract我们提出了一个极其效率的CNN架构——ShuffleNet，其专为计算能力非常有限的移动设备设计。这个新的架构利用了两个新的操作：pointwise group conv和channel shuffle，并大大降低计算成本，同时确保准确性。1.2 Approach1.2.1 Channel Shuffle for Group Convolutions在微型网络结构中，由于 1×1 卷积计算代价很高，在计算资源有限的情况下特征图的通道数就会受

2021-10-31 15:19:07 957 4

原创 Mobile Net 系列【V1—V3】

1. MobileNet V11.1 Abstract我们提出了一类用于移动和嵌入式视觉应用程序的高效模——MobileNet，此模型使用深度可分离卷积来构建轻量级深度神经网络。我们还介绍了两个超参数：用于控制模型的延迟（模型运行时间）和准确率1.2 Introduction在计算机视觉中，目前存在的一般趋势是制造更深更复杂的网络以实现更高的准确性。但是，在现实世界中的应用程序中，需要在有限的平台上以低延迟的方式实现识别任务。最近出现的许多方法只是关注模型的大小，而没有考虑速度，主要通过压缩预训练

2021-10-30 17:03:10 2693

原创统计学习方法之聚类算法

五大常见的聚类算法1. K-Means2. Mean Shift3. DBSCAN4. 层次聚类5. 谱聚类五大常见的聚类算法比较

2021-10-28 11:34:08 113

原创聚类算法之谱聚类

谱聚类1. 基本原理它的主要思想：把所有数据看成空间中的点，这些点之间可以用变连接起来，距离较远的两个点之间的边权重较低，而距离较近的两个点之间的权重较高，通过对所有数据点组成的图进行切图，让切图后的不同的子图间边权重和尽可能小（即距离远），而子图内的边权重和尽可能高（即距离近）。难点：如何构建图？如何切分图？2. 谱聚类基础2.1 无向权重图对于一个图GGG，我们一般用点集合V={v1,v2,....,vn}V=\{v_1,v_2,....,v_n\}V={v1,v2,....,.

2021-10-28 11:24:29 3683 1

原创聚类算法之层次聚类

层次聚类1. 基本介绍层次聚类有聚合（自下而上）和分裂（自上而下）两种方式。聚合聚类开始将每个样本各自分到个类:之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足停止条件分裂聚类开始将所有样本分到一个类之后将己有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件2. 聚合聚类对于给定的样本集合，开始将每个样本分到一个类，然后按照一定规则，例如类间距离最小，将最满足规则条件的两个类进行合并如此反复进行，每次减少一个类，直到满足停止条件聚合聚类需要预先确定下面三个要素:

2021-10-27 16:20:49 17646 1

原创聚类算法之DBSCAN

DBSCAN聚类算法1. DBSCAN算法基本概念DBSCAN是一种典型的基于密度的聚类算法，基于一组邻域(ϵ,MinPts)(\epsilon, MinPts)(ϵ,MinPts)来描述样本集的紧密程度。其中ϵ\epsilonϵ描述了某一样本的邻域距离阈值，MinPtsMinPtsMinPts描述了某一样本的距离为ϵ\epsilonϵ的邻域中样本个数的阈值。在DBSCAN算法中将数据点分为以下三类：核心点：若样本xix_ixi的ϵ\epsilonϵ邻域内至少包含MinPtsMinPtsMinP

2021-10-26 23:30:36 8822 1

原创聚类算法之Mean Shift

Mean Shift聚类算法1. 基本原理对于Mean Shift算法，是一个迭代得步骤，即每次迭代的时候，都是找到圆里面点的平均位置作为新的圆心位置。说的简单一点，使得圆心一直往数据密集度最大的方向移动。2. 基本的Mean Shift向量形式对于给定的ddd维空间RdR^dRd中的nnn个样本点xi,i=1,2,...,nx_i, i=1,2,...,nxi,i=1,2,...,n，对于空间中的任意点xxx的mean shift向量的基本形式可以表示为：Mh(x)=1k∑xi∈Sh(xi−

2021-10-26 19:51:44 1142

原创聚类算法之K-Means

1. K-Means1.1 K-Means原理K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本划分为KKK个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。假设簇划分为(C1,C2,...,CK)(C_1,C_2,...,C_K)(C1,C2,...,CK)，则我们的目标是最小化平方误差：E=∑i=1K∑x∈Ci∣∣x−μi∣∣22E=\sum_{i=1}^K\sum_{x \in C_i}||x-\mu_i||_2^2E=i=1∑Kx∈Ci∑∣

2021-10-26 11:33:45 492

原创统计学习方法之隐马尔可夫模型

隐马尔可夫模型1. 基本概念1.1 定义隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐马尔科夫链生成的状态序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可看作为一个时刻。隐马尔可夫模型的形式定义如下：设QQQ是所有可能的状态的集合，VVV是所有可能的观测的集合：Q={q1,q2,...,qN},V={v1,v2,...,vM}Q=\{q_1

2021-10-25 15:57:25 245

原创统计学习方法之EM算法

EM算法一般地，用YYY表示观测随机变量的数据，ZZZ表示隐随机变的数据。YYY和ZZZ连在一起称为完全数据。假设给定观测数据YYY，其概率分布是P(Y∣θ)P(Y|\theta)P(Y∣θ)，其中θ\thetaθ是需要估计地模型参数。EM算法通过迭代求L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)L(θ)=logP(Y∣θ)的极大似然估计。每次迭代包含两步：EEE步，求期望；MMM步，求极大化。1. 算法流程输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z∣θ)

2021-10-24 16:47:08 2357

原创统计学习方法之Adaboost提升方法

AdaBoost算法AdaBoost算法通过提高那些被前一轮弱分类器错误分类样本的权重，而降低那些被正确分类样本的权重，使得被错误分类样本受到后一轮的弱分类器的更大关注。算法流程输入：训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}，其中xi∈Rn，yi∈{−1,+1}；；弱学习算法输入：训练数据集T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，其中x_i \in R^n，y_i \in \{-1, +1\}；；弱学习算法输入：训练数据集T={(

2021-10-23 16:02:51 98

原创统计学习方法之支持向量机

文章目录函数间隔和几何间隔1.函数间隔2.几何间隔支持向量机SVMSVM模型的建立1.硬间隔模型2.软间隔模型（松弛变量&惩罚因子）松弛变量惩罚因子模型的求解1.拉格朗日对偶性2.序列最小最优化算法SMO2.1 问题转化2.2 转化为一个二元函数2.3 转化为一个一元函数2.4 对一元函数求极值点2.5 解的约束条件2.6 求解另一个变量2.7 如何选择两个变2.8 阈值b的更新与计算SV...

2021-10-23 11:41:09 321

vagrant_2.0.3_x86_64.msi

空空如也