- 博客(1173)
- 资源 (216)
- 收藏
- 关注
原创 YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images
由于以下因素,从航拍图像中检测物体面临着重大挑战:1)航拍图像通常具有非常大的尺寸,通常有数百万甚至数亿像素,而计算资源有限。2)物体尺寸较小导致有效信息不足,无法进行有效检测。3)物体分布不均匀导致计算资源浪费。为了解决这些问题,我们提出YOLC(You Only Look Clusters),一种基于无锚点目标检测器CenterNet的高效且有效的框架。为了克服大规模图像和非均匀物体分布带来的挑战,我们引入了一个局部尺度模块(LSM),该模块自适应地搜索聚类区域以进行缩放以进行准确检测。
2024-04-16 20:45:00 1242
原创 LightM-UNet:Mamba 辅助的轻量级 UNet 用于医学图像分割
UNet [16],作为医学图像分割领域一个广为人知的算法,在涉及医学器官和病灶的各种分割任务中得到了广泛应用,涵盖了多种医学图像模态。其对称的U形编解码器架构与整体的跳跃连接为分割模型奠定了基础,催生了一系列基于U形结构的研究工作 [8,15,18]。然而,作为基于卷积神经网络(CNN)的模型,UNet受限于卷积操作的固有局部性,这限制了其理解显式全局和长距离语义信息交互的能力 [2]。一些研究尝试通过采用空洞卷积层 [5]、自注意力机制 [19] 和图像金字塔 [25] 来缓解这一问题。
2024-04-11 18:18:50 1081 1
原创 ELA:深度卷积神经网络的高效局部注意力机制
注意力机制由于其能够有效提升深度神经网络性能的能力,在计算机视觉领域获得了广泛认可。然而,现有方法往往难以有效利用空间信息,或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性,本文提出了一种高效的局部注意力(ELA)方法,该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性,我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战,我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。
2024-04-05 07:48:08 1095 1
原创 EfficientVMamba实战:使用EfficientVMamba实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf作者研究了轻量级模型设计的新方法,通过引入视觉状态空间模型(SSM)以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体,结合选择性扫描和有效跳跃采样,同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果,并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用,并指出现有轻量级模型在保持全局表示能力方面的挑战。
2024-04-02 06:03:33 1213
原创 云原生技术赋能AI绘图:Stable Diffusion在腾讯云的部署与应用新篇章
该案例展示了Stable Diffusion模型在互联网行业的应用,并详细描述了如何利用腾讯云原生产品进行高可用部署的工程化实践。在生产环境中,推理服务需要考虑服务的可用性、扩展性、多模型文件管理的便利性以及业务架构的灵活性。同时,由于Stable Diffusion推理过程耗时且GPU部署成本较高,提高推理速度和合理设计限流熔断机制至关重要。腾讯云云原生能力能够满足这些需求,实现前后端解耦,提高架构吞吐能力,并通过弹性能力降低资源部署成本。这些实践经验对于当前工作和未来职业发展都具有重要意义。
2024-04-01 19:30:00 1694
原创 SBCFormer:能够在单板计算机上以每秒1帧的速度进行全尺寸ImageNet分类的轻量级网络
计算机视觉在解决包括智能农业、渔业和畜牧业管理等不同领域的实际问题中变得越来越普遍。这些应用可能不需要每秒处理许多图像帧,因此从业者倾向于使用单板计算机(SBCs)。尽管已经为“移动边缘”设备开发了许多轻量级网络,但它们主要针对具有更强大处理器的智能手机,而不是具有低端CPU的SBCs。本文介绍了一种名为SBCFormer的CNN-ViT混合网络,该网络在低端CPU上实现了高准确性和快速计算。这些CPU的硬件限制使得Transformer的注意力机制比卷积更可取。
2024-04-01 19:30:00 352
原创 GCNet: 非局部网络与挤压-激励网络的融合与超越
捕捉长距离依赖关系,旨在提取对视觉场景的全局理解,已被证明对广泛的识别任务有益,如图像/视频分类、目标检测和分割[31, 12, 38, 14]。在卷积神经网络中,由于卷积层在局部邻域内构建像素关系,长距离依赖关系主要通过深层堆叠卷积层来建模。然而,直接重复卷积层计算效率低下且难以优化[31]。这会导致长距离依赖关系建模不够有效,部分原因在于远距离位置之间信息传递的困难。为了解决这个问题,提出了非局部网络[31],通过自注意力机制[28]使用一层来建模长距离依赖关系。
2024-03-31 07:52:27 363
原创 python中raise_for_status方法的作用
如果响应的状态码表示请求未成功(即状态码不是 2xx),则该方法会抛出一个。通过这种方式,你可以确保在继续处理响应数据之前,请求已经成功完成。如果请求失败,你可以根据异常类型执行适当的错误处理逻辑。在上面的代码中,我们首先发送一个 POST 请求到指定的 URL,并带上 JSON 格式的数据和请求头。这允许你以一种更结构化的方式来处理请求失败的情况,而不是手动检查状态码。这样,你就可以根据异常类型来执行不同的错误处理逻辑。发送请求时,即使请求失败(例如,服务器返回了。会抛出一个异常,该异常随后被。
2024-03-29 21:45:00 536
原创 python中的deque详解
deque(双端队列)是Python标准库模块中的一个类,它支持从两端快速添加和删除元素。deque为固定大小或者可变大小的队列提供了线程安全的实现,并且它比使用列表(list)来实现相同的功能更为高效。dequedequedequemaxlendequedeque下面是deque。
2024-03-29 13:08:21 589
原创 EfficientVMamba:轻量级视觉Mamba的空洞选择性扫描
https://arxiv.org/pdf/2403.09977.pdf摘要。先前的轻量级模型开发努力主要集中在基于CNN和Transformer的设计上,但仍面临持续的挑战。CNN擅长局部特征提取,但会牺牲分辨率,而Transformer提供了全局范围,但会加剧计算需求O(N2)\mathcal{O}(N^{2})O(N2)。这种持续存在的准确性和效率之间的权衡仍然是一个重大障碍。最近,状态空间模型(SSM),如Mamba,已在语言建模和计算机视觉等各种任务中显示出出色的性能和竞争力,同时将全局信息提取
2024-03-28 18:29:51 949 2
原创 ECA-Net:用于深度卷积神经网络的高效通道注意力
最近,通道注意机制已被证明在改善深度卷积神经网络(CNN)的性能方面具有巨大潜力。然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性。为了克服性能和复杂性折衷之间的矛盾,本文提出了一种有效的信道注意(ECA)模块,该模块仅包含少量参数,同时带来明显的性能提升。通过剖析SENet中的通道注意模块,我们从经验上表明避免降维对于学习通道注意很重要,并且适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。
2024-03-24 10:22:04 158 3
原创 Poly Kernel Inception Network在遥感检测中的应用
遥感图像(RSI)中的目标检测近年来引起了广泛关注[11, 56, 64]。这项任务致力于在RSI中识别特定目标的存在,并随后确定它们的类别和精确位置。与通常产生水平边界框的通用目标检测不同,遥感目标检测旨在生成与目标方向准确对齐的边界框。因此,先前的许多努力都致力于开发各种有向边界框(OBB)检测器[10, 20, 31, 65, 67, 71],并改进OBB的角度预测精度[68,70,72-74]。然而,在改善用于目标检测的特征提取方面,RSI的独特特性仍相对缺乏深入研究。
2024-03-19 07:10:45 723 4
原创 使用timm库的一些知识点
timm(Torch Image Models)是一个在PyTorch上构建的图像模型库,它提供了一系列预训练的深度学习模型,使得研究人员和开发者可以方便地进行图像分类、目标检测等任务。
2024-03-14 21:00:00 803 1
原创 焦点调制网络
我们提出了焦点调制网络(简称FocalNets),其中自注意力(SA)被焦点调制模块完全取代,用于在视觉中建模令牌交互。焦点调制包含三个组件:(i)焦点上下文化,通过堆叠深度卷积层实现,以从短到长范围编码视觉上下文;(ii)门控聚合,用于选择性地收集上下文信息到每个查询令牌的调制器中;(iii)元素级仿射变换,将调制器注入查询中。
2024-03-12 21:12:01 472
原创 Yolo-World实战应用
可以创建一个YOLO-World 模型版本,专门用于您的特定用例。此过程将您的自定义类定义直接嵌入模型文件,使模型无需进一步调整即可与您指定的类一起使用。保存后,custom_yolov8s.pt 模型的行为与其他预训练的YOLOv8 模型无异,但有一个关键区别:它现在经过优化,只能检测您定义的类别。针对您的特定应用场景,这种定制可以大大提高检测性能和效率。效率:通过关注相关对象、减少计算开销和加快推理速度,简化检测过程。灵活性:可使模型轻松适应新的或特殊的检测任务,而无需进行大量的再培训或数据收集。
2024-03-12 18:32:02 1600 6
原创 TransNeXt:ViT的鲁棒Foveal视觉感知
论文:https://arxiv.org/pdf/2311.17132.pdf由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成充分的信息混合,导致不自然的视觉感知。为了解决这个问题,本文提出了聚合注意力(Aggregated Attention),这是一种基于仿生设计的令牌混合器,它模拟了生物的中心凹视觉和连续的眼球运动,同时使特征图上的每个令牌都能具有全局感知能力。
2024-03-08 19:16:14 151
原创 YOLO-World:实时开放词汇目标检测
Open Vocabulary:开放词汇论文链接:https://arxiv.org/pdf/2401.17270.pdfYou Only Look Once (YOLO) 系列检测器已经确立了自己作为高效和实用工具的地位。然而,它们对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个问题,我们引入了 YOLO-World,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,为 YOLO 增添了开放词汇检测能力。
2024-03-06 21:30:00 1619 6
原创 MAE实战:使用MAE提高主干网络的精度(二)
看完第一篇,大家应该对MAE的训练流程有所了解了。链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/136022910?这篇再讲述一篇案例,我们一起实现吧!
2024-03-04 22:00:00 1252 3
原创 AttributeError: ‘list‘ object has no attribute ‘view‘
训练yolov9的时候遇到了下面的问题。
2024-03-01 21:00:00 538
原创 YOLOv9:使用可编程梯度信息学习您想学习的内容
基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了比过去的人工智能系统更好的性能。近年来,深度学习领域的研究人员主要关注如何开发更强大的系统架构和学习方法,如卷积神经网络(CNNs)[21-23, 42, 55, 71, 72]、Transformers[8, 9, 40, 41, 60, 69, 70]、Perceivers[26, 26, 32, 52, 56, 81, 81]和Mambas[17, 38, 80]。
2024-03-01 19:50:25 385
原创 使用RingAttention处理百万长度视频和语言的世界模型
目前对世界的建模方法大多局限于短语言序列或短图像和片段序列 [BMR+ 20, TLI+ 23, TMS+ 23, Ope23, TAB+ 23]。这导致模型缺乏对难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了有用的信息,这些信息在语言中缺失或在静态图像和短片段中不那么明显。长语言序列编码了短序列无法编码的信息,这对于各种应用(如长文档检索或编码)至关重要。
2024-02-22 20:04:30 953
原创 Sora:视频生成模型作为世界模拟器
我们探索了视频数据上生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用了一个在视频和图像潜在码的时空块上操作的变压器架构。我们规模最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模,是建立通用物理世界模拟器的一条有前景的途径。本技术报告重点介绍(1)我们将各类视觉数据转化为统一表示的方法,使生成模型能够进行大规模训练,以及(2)对 Sora 的能力和局限性的定性评估。本报告未包含模型和实现的详细信息。
2024-02-21 22:07:12 1186
原创 WSL安装Ubuntu22.04,以及深度学习环境的搭建
安装 WSL 2 之前,必须启用“虚拟机平台”可选功能。计算机需要虚拟化功能才能使用此功能。下载 Linux 内核更新包:l链接:下载完成后更新。打开 Microsoft Store,搜索WSL,选择你偏好的 Linux版本。我选择的是Ubuntu22.04版本。点进去就可以看到下载链接下载即可。下载完成后,启动系统,配置用户名和密码。输入nvidia-smi。
2024-02-19 05:57:41 1366
原创 Linux查看日志的几种方法总结
摘要Linux系统中查看日志的命令确实多种多样,每个命令都有其特定的用途和优势。常用的命令有:tail、cat、tac、head、echo,grep、less、awk、sed。tail命令主要用于查看文件的末尾内容,特别适用于实时查看日志文件的更新内容。通过-f选项,可以实时监控日志文件的最新内容。例如,会实时显示系统日志的最新条目。另外,-n选项可以用来指定显示的行数,如会显示日志文件的最后100行。cat命令用于显示整个文件的内容。
2024-02-14 21:12:32 2309
原创 Mamba-UNet:用于医学图像分割的类似UNet的纯视觉Mamba网络
所提出的Mamba-UNet的架构如图2所示,其灵感来源于UNet [24] 和 Swin-UNet [3]。首先将大小为 H × W × 1 的2D灰度图像分割成类似于ViT和VMamba的块 [5,16],然后转换为维度为 H/4 × W/4 × 16 的1D序列。一个初始的线性嵌入层将特征维度调整为任意大小C。这些块令牌随后通过多个VSS块和块合并层进行处理,以创建分层特征。块合并层负责下采样和维度增加,而VSS块则专注于学习特征表示。
2024-02-14 12:53:25 2237 3
原创 MogaNet实战:使用MogaNet实现图像分类任务(一)
论文:https://arxiv.org/pdf/2211.03295.pdf作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族,称为MogaNet。MogaNet具有出色的可扩展性,在ImageNet和其他多种典型视觉基准测试中,与最先进的模型相比,其参数使用更高效,且具有竞争力的性能。
2024-02-12 17:44:02 1136
原创 Tied Block Convolution: 具有共享较薄滤波器的更简洁、更出色的CNN
我们提出了Tied Block Convolution(TBC),它在等量的通道块上共享相同的较薄滤波器,并使用单个滤波器产生多个响应。TBC的概念还可以扩展到组卷积和全连接层,并可以应用于各种基础网络和注意力模块,同时基线性能得到一致的提升。基于TBC的TiedResNet也超过了基线,具有更高的参数使用效率和更好的检测严重遮挡物体的能力。
2024-02-12 08:52:01 1818 2
原创 Swin-UMamba:结合基于ImageNet的预训练和基于Mamba的UNet模型
准确的医学图像分割需要整合从局部特征到全局依赖的多尺度信息。然而,现有方法在建模长距离全局信息方面面临挑战,其中卷积神经网络(CNNs)受限于其局部感受野,而视觉转换器(ViTs)则受到其注意力机制高二次复杂度的困扰。最近,基于Mamba的模型因其在长序列建模中的出色能力而备受关注。多项研究表明,这些模型在各种任务中可以超越流行的视觉模型,提供更高的准确性、更低的内存消耗和更少的计算负担。
2024-02-06 19:55:48 2098 2
原创 MogaNet:高效的多阶门控聚合网络
自深度神经网络(DNNs)复兴以来,卷积神经网络(ConvNets)已成为计算机视觉领域的首选方法。通过在池化和非线性操作之间交替使用层次化的卷积层,ConvNets能够利用内置的平移等变约束来编码观察图像的底层语义模式,并进一步成为当今计算机视觉系统中的基础设施。然而,ConvNets所学习的表示对局部纹理有很强的偏见,这导致全局信息的严重损失。因此,研究者们一直在努力改进宏观层次架构和上下文聚合模块。
2024-02-06 08:45:22 1105
原创 MAE实战:使用MAE提高主干网络的精度(一)
MAE已经出来有几年了,很多人还不知道怎么去使用,本文通过两个例子说明一下。分两部分,一部分介绍一个简单的例子,让大家了解MAE训练的流程。一部分是一个新的模型,让大家了解如何将自己的模型加入MAE。论文标题: Masked Autoencoders Are Scalable Vision Learners论文地址:https://arxiv.org/abs/2111.06377代码地址:https://github.com/facebookresearch/maeMAE的两个核心设计:参考文章:https
2024-02-04 20:00:00 1649
原创 讯飞星火V3.5发布,一场大模型的奇幻之旅(深度体验讯飞星火V3.5)
通过,常用的几个方式对讯飞星火3.5进行测评,均有不俗的表现。其他的功能,还在做尝试!
2024-01-31 21:42:13 1493 4
原创 Focaler-IoU:更聚焦的IoU损失
目标检测是计算机视觉的基本任务之一,其目的是在图像中定位和识别目标。根据是否生成锚点,可以将它们分为基于锚点和无锚点的方法。基于锚点的算法包括Faster R-CNN [1]、YOLO(You Only Look Once)系列 [2]、SSD(Single Shot MultiBox Detector) [3]和RetinaNet [4]。
2024-01-30 22:00:00 1262
原创 Vim实战:使用Vim实现图像分类任务(一)
论文:https://arxiv.org/pdf/2401.09417v1.pdf翻译:近年来,随着深度学习的发展,视觉模型在许多任务中取得了显著的成功。然而,随着模型规模和复杂度的增加,计算和内存的消耗也急剧增长。这限制了模型在资源有限的环境中的使用,尤其是在处理高分辨率图像时。为了解决这个问题,一种新的视觉模型架构——Vim(Vision with Mamba)被提出。Vim是一种基于状态空间模型(SSM)的视觉模型,利用了Mamba这种高效的硬件设计。
2024-01-29 21:21:10 1555 2
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
Hiera-MAE-Demo.zip
2024-03-05
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
Vim实战:使用Vim实现图像分类任务
2024-01-30
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
InceptionNext实战:使用InceptionNext实现图像分类任务
2023-06-26
VanillaNet实战:使用VanillaNet实现图像分类
2023-06-13
SeaFormer实战:使用SeaFormer实现图像分类任务
2023-04-29
FasterNet实战:使用FasterNet实现图像分类任务
2023-03-24
ConvNeXt V2实战:使用ConvNeXt V2实现图像分类任务(一)
2023-03-02
PoolFormer实战:使用PoolFormer实现图像分类任务.zip
2023-01-01
DeiT外部蒸馏实现.zip
2022-12-20
DEiT实战:使用DEiT实现图像分类任务.zip
2022-12-15
MobileOne实战:使用MobileOne实现图像分类任务.zip
2022-11-30
RepGhost-Demo.zip
2022-11-29
G-Ghost-RegNet实战.zip
2022-11-29
Ghost-Demo.zip
2022-11-24
知识蒸馏NST算法实战:使用CoatNet蒸馏ResNet18.zip
2022-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人