AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images

由于以下因素，从航拍图像中检测物体面临着重大挑战：1）航拍图像通常具有非常大的尺寸，通常有数百万甚至数亿像素，而计算资源有限。2）物体尺寸较小导致有效信息不足，无法进行有效检测。3）物体分布不均匀导致计算资源浪费。为了解决这些问题，我们提出YOLC（You Only Look Clusters），一种基于无锚点目标检测器CenterNet的高效且有效的框架。为了克服大规模图像和非均匀物体分布带来的挑战，我们引入了一个局部尺度模块（LSM），该模块自适应地搜索聚类区域以进行缩放以进行准确检测。

2024-04-16 20:45:00 1242

原创组合数学考试题

答:C(6,2) * 5!=15 * 120=1800 , 共有 1800 种放法。

2024-04-15 12:28:06 579

原创 LightM-UNet：Mamba 辅助的轻量级 UNet 用于医学图像分割

UNet [16]，作为医学图像分割领域一个广为人知的算法，在涉及医学器官和病灶的各种分割任务中得到了广泛应用，涵盖了多种医学图像模态。其对称的U形编解码器架构与整体的跳跃连接为分割模型奠定了基础，催生了一系列基于U形结构的研究工作 [8,15,18]。然而，作为基于卷积神经网络（CNN）的模型，UNet受限于卷积操作的固有局部性，这限制了其理解显式全局和长距离语义信息交互的能力 [2]。一些研究尝试通过采用空洞卷积层 [5]、自注意力机制 [19] 和图像金字塔 [25] 来缓解这一问题。

2024-04-11 18:18:50 1081 1

原创如何加载尺寸不匹配的权重？

加载预训练权重，或者别人训练的权重的时候，更改了类别的个数，导致尺寸不匹配。这种情况非常常见，那么如何解决呢？

2024-04-05 17:27:46 1097 1

原创 ELA：深度卷积神经网络的高效局部注意力机制

注意力机制由于其能够有效提升深度神经网络性能的能力，在计算机视觉领域获得了广泛认可。然而，现有方法往往难以有效利用空间信息，或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性，本文提出了一种高效的局部注意力（ELA）方法，该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性，我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战，我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。

2024-04-05 07:48:08 1095 1

原创 EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务（二）

训练部分。

2024-04-02 06:28:43 1308 2

原创 EfficientVMamba实战：使用EfficientVMamba实现图像分类任务（一）

论文：https://arxiv.org/pdf/2401.09417v1.pdf作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。

2024-04-02 06:03:33 1213

原创云原生技术赋能AI绘图：Stable Diffusion在腾讯云的部署与应用新篇章

该案例展示了Stable Diffusion模型在互联网行业的应用，并详细描述了如何利用腾讯云原生产品进行高可用部署的工程化实践。在生产环境中，推理服务需要考虑服务的可用性、扩展性、多模型文件管理的便利性以及业务架构的灵活性。同时，由于Stable Diffusion推理过程耗时且GPU部署成本较高，提高推理速度和合理设计限流熔断机制至关重要。腾讯云云原生能力能够满足这些需求，实现前后端解耦，提高架构吞吐能力，并通过弹性能力降低资源部署成本。这些实践经验对于当前工作和未来职业发展都具有重要意义。

2024-04-01 19:30:00 1694

原创 SBCFormer：能够在单板计算机上以每秒1帧的速度进行全尺寸ImageNet分类的轻量级网络

计算机视觉在解决包括智能农业、渔业和畜牧业管理等不同领域的实际问题中变得越来越普遍。这些应用可能不需要每秒处理许多图像帧，因此从业者倾向于使用单板计算机（SBCs）。尽管已经为“移动边缘”设备开发了许多轻量级网络，但它们主要针对具有更强大处理器的智能手机，而不是具有低端CPU的SBCs。本文介绍了一种名为SBCFormer的CNN-ViT混合网络，该网络在低端CPU上实现了高准确性和快速计算。这些CPU的硬件限制使得Transformer的注意力机制比卷积更可取。

2024-04-01 19:30:00 352

原创 GCNet: 非局部网络与挤压-激励网络的融合与超越

捕捉长距离依赖关系，旨在提取对视觉场景的全局理解，已被证明对广泛的识别任务有益，如图像/视频分类、目标检测和分割[31, 12, 38, 14]。在卷积神经网络中，由于卷积层在局部邻域内构建像素关系，长距离依赖关系主要通过深层堆叠卷积层来建模。然而，直接重复卷积层计算效率低下且难以优化[31]。这会导致长距离依赖关系建模不够有效，部分原因在于远距离位置之间信息传递的困难。为了解决这个问题，提出了非局部网络[31]，通过自注意力机制[28]使用一层来建模长距离依赖关系。

2024-03-31 07:52:27 363

原创 python中raise_for_status方法的作用

如果响应的状态码表示请求未成功（即状态码不是 2xx），则该方法会抛出一个。通过这种方式，你可以确保在继续处理响应数据之前，请求已经成功完成。如果请求失败，你可以根据异常类型执行适当的错误处理逻辑。在上面的代码中，我们首先发送一个 POST 请求到指定的 URL，并带上 JSON 格式的数据和请求头。这允许你以一种更结构化的方式来处理请求失败的情况，而不是手动检查状态码。这样，你就可以根据异常类型来执行不同的错误处理逻辑。发送请求时，即使请求失败（例如，服务器返回了。会抛出一个异常，该异常随后被。

2024-03-29 21:45:00 536

原创 python中的deque详解

deque（双端队列）是Python标准库模块中的一个类，它支持从两端快速添加和删除元素。deque为固定大小或者可变大小的队列提供了线程安全的实现，并且它比使用列表（list）来实现相同的功能更为高效。dequedequedequemaxlendequedeque下面是deque。

2024-03-29 13:08:21 589

原创 EfficientVMamba：轻量级视觉Mamba的空洞选择性扫描

https://arxiv.org/pdf/2403.09977.pdf摘要。先前的轻量级模型开发努力主要集中在基于CNN和Transformer的设计上，但仍面临持续的挑战。CNN擅长局部特征提取，但会牺牲分辨率，而Transformer提供了全局范围，但会加剧计算需求O(N2)\mathcal{O}(N^{2})O(N2)。这种持续存在的准确性和效率之间的权衡仍然是一个重大障碍。最近，状态空间模型（SSM），如Mamba，已在语言建模和计算机视觉等各种任务中显示出出色的性能和竞争力，同时将全局信息提取

2024-03-28 18:29:51 949 2

原创 ECA-Net：用于深度卷积神经网络的高效通道注意力

最近，通道注意机制已被证明在改善深度卷积神经网络（CNN）的性能方面具有巨大潜力。然而，大多数现有方法致力于开发更复杂的注意模块以实现更好的性能，这不可避免地会增加模型的复杂性。为了克服性能和复杂性折衷之间的矛盾，本文提出了一种有效的信道注意（ECA）模块，该模块仅包含少量参数，同时带来明显的性能提升。通过剖析SENet中的通道注意模块，我们从经验上表明避免降维对于学习通道注意很重要，并且适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。

2024-03-24 10:22:04 158 3

原创 Poly Kernel Inception Network在遥感检测中的应用

遥感图像（RSI）中的目标检测近年来引起了广泛关注[11, 56, 64]。这项任务致力于在RSI中识别特定目标的存在，并随后确定它们的类别和精确位置。与通常产生水平边界框的通用目标检测不同，遥感目标检测旨在生成与目标方向准确对齐的边界框。因此，先前的许多努力都致力于开发各种有向边界框（OBB）检测器[10, 20, 31, 65, 67, 71]，并改进OBB的角度预测精度[68,70,72-74]。然而，在改善用于目标检测的特征提取方面，RSI的独特特性仍相对缺乏深入研究。

2024-03-19 07:10:45 723 4

原创使用timm库的一些知识点

timm（Torch Image Models）是一个在PyTorch上构建的图像模型库，它提供了一系列预训练的深度学习模型，使得研究人员和开发者可以方便地进行图像分类、目标检测等任务。

2024-03-14 21:00:00 803 1

原创焦点调制网络

我们提出了焦点调制网络（简称FocalNets），其中自注意力（SA）被焦点调制模块完全取代，用于在视觉中建模令牌交互。焦点调制包含三个组件：（i）焦点上下文化，通过堆叠深度卷积层实现，以从短到长范围编码视觉上下文；（ii）门控聚合，用于选择性地收集上下文信息到每个查询令牌的调制器中；（iii）元素级仿射变换，将调制器注入查询中。

2024-03-12 21:12:01 472

原创 Yolo-World实战应用

可以创建一个YOLO-World 模型版本，专门用于您的特定用例。此过程将您的自定义类定义直接嵌入模型文件，使模型无需进一步调整即可与您指定的类一起使用。保存后，custom_yolov8s.pt 模型的行为与其他预训练的YOLOv8 模型无异，但有一个关键区别：它现在经过优化，只能检测您定义的类别。针对您的特定应用场景，这种定制可以大大提高检测性能和效率。效率：通过关注相关对象、减少计算开销和加快推理速度，简化检测过程。灵活性：可使模型轻松适应新的或特殊的检测任务，而无需进行大量的再培训或数据收集。

2024-03-12 18:32:02 1600 6

原创 TransNeXt：ViT的鲁棒Foveal视觉感知

论文：https://arxiv.org/pdf/2311.17132.pdf由于残差连接中的深度退化效应，许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成充分的信息混合，导致不自然的视觉感知。为了解决这个问题，本文提出了聚合注意力（Aggregated Attention），这是一种基于仿生设计的令牌混合器，它模拟了生物的中心凹视觉和连续的眼球运动，同时使特征图上的每个令牌都能具有全局感知能力。

2024-03-08 19:16:14 151

原创 YOLO-World：实时开放词汇目标检测

Open Vocabulary：开放词汇论文链接：https://arxiv.org/pdf/2401.17270.pdfYou Only Look Once (YOLO) 系列检测器已经确立了自己作为高效和实用工具的地位。然而，它们对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个问题，我们引入了 YOLO-World，这是一种创新的方法，通过视觉语言建模和在大规模数据集上的预训练，为 YOLO 增添了开放词汇检测能力。

2024-03-06 21:30:00 1619 6

原创 MAE实战：使用MAE提高主干网络的精度(二)

看完第一篇，大家应该对MAE的训练流程有所了解了。链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/136022910?这篇再讲述一篇案例，我们一起实现吧！

2024-03-04 22:00:00 1252 3

原创 AttributeError: ‘list‘ object has no attribute ‘view‘

训练yolov9的时候遇到了下面的问题。

2024-03-01 21:00:00 538

原创 YOLOv9：使用可编程梯度信息学习您想学习的内容

基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了比过去的人工智能系统更好的性能。近年来，深度学习领域的研究人员主要关注如何开发更强大的系统架构和学习方法，如卷积神经网络（CNNs）[21-23, 42, 55, 71, 72]、Transformers[8, 9, 40, 41, 60, 69, 70]、Perceivers[26, 26, 32, 52, 56, 81, 81]和Mambas[17, 38, 80]。

2024-03-01 19:50:25 385

原创使用RingAttention处理百万长度视频和语言的世界模型

目前对世界的建模方法大多局限于短语言序列或短图像和片段序列 [BMR+ 20, TLI+ 23, TMS+ 23, Ope23, TAB+ 23]。这导致模型缺乏对难以用文本或短片段表示的世界部分的理解，并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了有用的信息，这些信息在语言中缺失或在静态图像和短片段中不那么明显。长语言序列编码了短序列无法编码的信息，这对于各种应用（如长文档检索或编码）至关重要。

2024-02-22 20:04:30 953

原创 Sora：视频生成模型作为世界模拟器

我们探索了视频数据上生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用了一个在视频和图像潜在码的时空块上操作的变压器架构。我们规模最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩大视频生成模型的规模，是建立通用物理世界模拟器的一条有前景的途径。本技术报告重点介绍（1）我们将各类视觉数据转化为统一表示的方法，使生成模型能够进行大规模训练，以及（2）对 Sora 的能力和局限性的定性评估。本报告未包含模型和实现的详细信息。

2024-02-21 22:07:12 1186

原创 WSL安装Ubuntu22.04，以及深度学习环境的搭建

安装 WSL 2 之前，必须启用“虚拟机平台”可选功能。计算机需要虚拟化功能才能使用此功能。下载 Linux 内核更新包:l链接：下载完成后更新。打开 Microsoft Store，搜索WSL，选择你偏好的 Linux版本。我选择的是Ubuntu22.04版本。点进去就可以看到下载链接下载即可。下载完成后，启动系统，配置用户名和密码。输入nvidia-smi。

2024-02-19 05:57:41 1366

原创 Linux查看日志的几种方法总结

摘要Linux系统中查看日志的命令确实多种多样，每个命令都有其特定的用途和优势。常用的命令有：tail、cat、tac、head、echo，grep、less、awk、sed。tail命令主要用于查看文件的末尾内容，特别适用于实时查看日志文件的更新内容。通过-f选项，可以实时监控日志文件的最新内容。例如，会实时显示系统日志的最新条目。另外，-n选项可以用来指定显示的行数，如会显示日志文件的最后100行。cat命令用于显示整个文件的内容。

2024-02-14 21:12:32 2309

原创 Mamba-UNet：用于医学图像分割的类似UNet的纯视觉Mamba网络

所提出的Mamba-UNet的架构如图2所示，其灵感来源于UNet [24] 和 Swin-UNet [3]。首先将大小为 H × W × 1 的2D灰度图像分割成类似于ViT和VMamba的块 [5,16]，然后转换为维度为 H/4 × W/4 × 16 的1D序列。一个初始的线性嵌入层将特征维度调整为任意大小C。这些块令牌随后通过多个VSS块和块合并层进行处理，以创建分层特征。块合并层负责下采样和维度增加，而VSS块则专注于学习特征表示。

2024-02-14 12:53:25 2237 3

原创 MogaNet实战：使用 MogaNet实现图像分类任务（二）

训练部分。

2024-02-13 09:01:25 1688 5

原创 MogaNet实战：使用MogaNet实现图像分类任务（一）

论文：https://arxiv.org/pdf/2211.03295.pdf作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。

2024-02-12 17:44:02 1136

原创 Tied Block Convolution: 具有共享较薄滤波器的更简洁、更出色的CNN

我们提出了Tied Block Convolution（TBC），它在等量的通道块上共享相同的较薄滤波器，并使用单个滤波器产生多个响应。TBC的概念还可以扩展到组卷积和全连接层，并可以应用于各种基础网络和注意力模块，同时基线性能得到一致的提升。基于TBC的TiedResNet也超过了基线，具有更高的参数使用效率和更好的检测严重遮挡物体的能力。

2024-02-12 08:52:01 1818 2

原创 Swin-UMamba：结合基于ImageNet的预训练和基于Mamba的UNet模型

准确的医学图像分割需要整合从局部特征到全局依赖的多尺度信息。然而，现有方法在建模长距离全局信息方面面临挑战，其中卷积神经网络（CNNs）受限于其局部感受野，而视觉转换器（ViTs）则受到其注意力机制高二次复杂度的困扰。最近，基于Mamba的模型因其在长序列建模中的出色能力而备受关注。多项研究表明，这些模型在各种任务中可以超越流行的视觉模型，提供更高的准确性、更低的内存消耗和更少的计算负担。

2024-02-06 19:55:48 2098 2

原创 MogaNet：高效的多阶门控聚合网络

自深度神经网络（DNNs）复兴以来，卷积神经网络（ConvNets）已成为计算机视觉领域的首选方法。通过在池化和非线性操作之间交替使用层次化的卷积层，ConvNets能够利用内置的平移等变约束来编码观察图像的底层语义模式，并进一步成为当今计算机视觉系统中的基础设施。然而，ConvNets所学习的表示对局部纹理有很强的偏见，这导致全局信息的严重损失。因此，研究者们一直在努力改进宏观层次架构和上下文聚合模块。

2024-02-06 08:45:22 1105

原创如何解决部分图片读取转化异常的问题

接触到一个数据集，有个别图片在读取转化的时候出现了异常，由于图片之间有关联，导致后续图片无法时候。

2024-02-04 21:45:00 387 2

原创 MAE实战：使用MAE提高主干网络的精度(一)

MAE已经出来有几年了，很多人还不知道怎么去使用，本文通过两个例子说明一下。分两部分，一部分介绍一个简单的例子，让大家了解MAE训练的流程。一部分是一个新的模型，让大家了解如何将自己的模型加入MAE。论文标题： Masked Autoencoders Are Scalable Vision Learners论文地址：https://arxiv.org/abs/2111.06377代码地址：https://github.com/facebookresearch/maeMAE的两个核心设计：参考文章：https

2024-02-04 20:00:00 1649

原创讯飞星火V3.5发布，一场大模型的奇幻之旅（深度体验讯飞星火V3.5）

通过，常用的几个方式对讯飞星火3.5进行测评，均有不俗的表现。其他的功能，还在做尝试！

2024-01-31 21:42:13 1493 4

原创 Focaler-IoU：更聚焦的IoU损失

目标检测是计算机视觉的基本任务之一，其目的是在图像中定位和识别目标。根据是否生成锚点，可以将它们分为基于锚点和无锚点的方法。基于锚点的算法包括Faster R-CNN [1]、YOLO（You Only Look Once）系列 [2]、SSD（Single Shot MultiBox Detector） [3]和RetinaNet [4]。

2024-01-30 22:00:00 1262

原创 Vim实战：使用 Vim实现图像分类任务（二）

训练部分。

2024-01-30 07:08:25 1308

原创 Vim实战：使用Vim实现图像分类任务（一）

论文：https://arxiv.org/pdf/2401.09417v1.pdf翻译：近年来，随着深度学习的发展，视觉模型在许多任务中取得了显著的成功。然而，随着模型规模和复杂度的增加，计算和内存的消耗也急剧增长。这限制了模型在资源有限的环境中的使用，尤其是在处理高分辨率图像时。为了解决这个问题，一种新的视觉模型架构——Vim（Vision with Mamba）被提出。Vim是一种基于状态空间模型（SSM）的视觉模型，利用了Mamba这种高效的硬件设计。

2024-01-29 21:21:10 1555 2

原创 huggingface打不开，解决方法

【代码】huggingface打不开，解决方法。

2024-01-29 17:06:27 694

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

MobileViG实战：使用MobileViG实现图像分类任务

2023-07-17

FasterViT实战：使用FasterViT实现图像分类任务

2023-07-10

pytorch-CNN网络汇总.zip

pytorch_CNN网络汇总

2023-07-04

InceptionNext实战：使用InceptionNext实现图像分类任务

论文翻译：https://wanghao.blog.csdn.net/article/details/131347001?spm=1001.2014.3001.5502 官方源码：https://github.com/sail-sg/inceptionnext 这是一篇来自颜水成团队的论文。作者提出InceptionNext，将大核深度卷积分解为沿通道维度的四个平行分支，即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积，构建了一系列网络，不仅享有高吞吐量，而且保持有竞争力的性能。例如，InceptionNeXt-T实现了比convnext - t高1.6倍的训练吞吐量，并在ImageNet- 1K上实现了0.2%的top-1精度提高。 https://wanghao.blog.csdn.net/article/details/131387184?spm=1001.2014.3001.5502

2023-06-26

CloFormer实战：使用CloFormer实现图像分类任务

2023-06-13

VanillaNet实战：使用VanillaNet实现图像分类

VanillaNet实战：使用VanillaNet实现图像分类论文翻译：https://blog.csdn.net/m0_47867638/article/details/131057152 官方源码：https://github.com/huawei-noah/VanillaNet VanillaNet是华为在2023年发布的一种极简风格的CNN网络，采用了最普通的CNN网络，却达到了很好的效果。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/68817ad3e0f544b59d6b517834dcb672.png) 这篇文章使用VanillaNet完成植物分类任务，模型采用VanillaNet10向大家展示如何使用VanillaNet。由于没有预训练模型，VanillaNet10在这个数据集上实现了87%的ACC。 https://blog.csdn.net/m0_47867638/article/details/131216849?spm=1001.2014.3001.5502

2023-06-13

BiFormer实战：使用BiFormer实现图像分类任务

2023-05-03

SeaFormer实战：使用SeaFormer实现图像分类任务

SeaFormer是一个轻量级的Transformers模型，最小的SeaFormer_T只有6M大小。设计了一种具有压缩轴向和细节增强的注意力模块，使其能够更好的在移动端应用。通过这篇文章能让你学到：如何使用数据增强，包括transforms的增强、CutOut、MixUp、CutMix等增强手段？如何实现SeaFormer模型实现训练？如何使用pytorch自带混合精度？如何使用梯度裁剪防止梯度爆炸？如何使用DP多显卡训练？如何绘制loss和acc曲线？如何生成val的测评报告？如何编写测试脚本测试测试集？如何使用余弦退火策略调整学习率？如何使用AverageMeter类统计ACC和loss等自定义变量？如何理解和统计ACC1和ACC5？如何使用EMA？如果使用Grad-CAM 实现热力图可视化？原文链接：https://blog.csdn.net/m0_47867638/article/details/130440291?spm=1001.2014.3001.5501

2023-04-29

InternImageNet实战：使用InternImageNet实现图像分类任务

2023-04-03

FasterNet实战：使用FasterNet实现图像分类任务

FasterNet全新的神经网络家族，在多个处理平台上运行速度更快，精度更高，优于MobileVit等网络，基于新提出新的Partial卷积(PConv)，大型网络FasterNet-L达到了83.5%的top-1精度，与Swin-B相当，同时在GPU上具有更高推断吞吐量，以及在CPU上节省42%的计算时间。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/129723967

2023-03-24

转market1501数据集代码

2023-03-15

ConvNeXt V2实战：使用ConvNeXt V2实现图像分类任务（一）

这篇文章主要讲解如何使用ConvNeXt V2完成图像分类任务，接下来我们一起完成项目的实战。本例选用的模型是convnextv2_base,在植物幼苗数据集上实现了96%的准确率。

2023-03-02

PoolFormer实战：使用PoolFormer实现图像分类任务.zip

MetaFormer是颜水成大佬的一篇Transformer的论文，该篇论文的贡献主要有两点：第一、将Transformer抽象为一个通用架构的MetaFormer，并通过经验证明MetaFormer架构在Transformer/ mlp类模型取得了极大的成功。第二、通过仅采用简单的非参数算子pooling作为MetaFormer的极弱token混合器，构建了一个名为PoolFormer。文章链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128494941

2023-01-01

DeiT外部蒸馏实现.zip

DeiT外部蒸馏实现。按照论文做的，Teacher使用regnetx_160，Student使用deit_tiny_distilled_patch16_224，经过蒸馏ACC提高了1%左右

2022-12-20

DEiT实战：使用DEiT实现图像分类任务.zip

DEiT是FaceBook在2020年提出的一篇Transformer模型。该模型解决了Transformer难以训练的问题，三天内使用4块GPU，完成了ImageNet的训练，并且没有使用外部数据，达到了SOTA水平。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128332992?spm=1001.2014.3001.5501

2022-12-15

MobileOne实战：使用MobileOne实现图像分类任务.zip

随着YoloV6和YoloV7的使用，这种方式越来越流行，MobileOne，也是这种方式。MobileOne(≈MobileNetV1+RepVGG+训练Trick)是由Apple公司提出的一种基于iPhone12优化的超轻量型架构，在ImageNet数据集上以<1ms的速度取得了75.9%的Top1精度。文章链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128106644

2022-11-30

RepGhost-Demo.zip

特征重用一直是轻量级卷积神经网络设计的关键技术。RepGhostNet在移动设备上比GhostNet和MobileNetV3更有效。在ImageNet数据集上，RepGhostNet和GhostNet 0.5X在相同的延时下，参数更少，成绩更高，Top-1精度相比GhostNet 0.5X模型提高了2.5%。详见文章： https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128100230?spm=1001.2014.3001.5501

2022-11-29

G-Ghost-RegNet实战.zip

作者等人利用观察到的阶段性特征冗余，设计G-Ghost模块并应用于GPU等设备，实现了一个在GPU上具有SOTA性能的轻量级CNN。G-Ghost中g_ghost_regnetx_160模型在ImageNet上取的了79.9%的成绩。我这篇文章主要讲解如何使用G-Ghost完成图像分类任务，接下来我们一起完成项目的实战。经过测试,G-Ghost在植物幼苗数据集上实现了97+%的准确率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128086517

2022-11-29

Ghost-Demo.zip

GhostNet实战：使用GhostNet实现图像分类任务用到的数据集和python文件。文章链接： https://wanghao.blog.csdn.net/article/details/127993081

2022-11-24

知识蒸馏NST算法实战：使用CoatNet蒸馏ResNet18.zip

NST蒸馏是对模型里面的的Block最后一层Feature做蒸馏，所以需要最后一层block的值。所以我们对模型要做修改来适应NST算法，并且为了使Teacher和Student的网络层之间的参数一致，我们这次选用CoatNet作为Teacher模型，选择ResNet18作为Student。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127975441?spm=1001.2014.3001.5501

2022-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人