- 博客(62)
- 资源 (6)
- 收藏
- 关注
原创 CV论文--2024.3.29
在稠密设置中,辐射场可以很好地捕捉高频外观和几何细节,但在稀疏的摄像机视图下进行纯监督时,辐射场的表现不佳,因为它会过度拟合稀疏视图输入。为了评估方法在不同情况下的表现,收集了一个新的数据集,WildDynaCap,其中包含在密集的摄像机圆顶和野外稀疏摄像机设备中捕捉的主体,并在公共数据集和WildDynaCap数据集上展示了优于最近的最先进方法的结果。我们进一步构建了一个高质量的数据集,促进了精确的图像理解和基于推理的生成,扩大了当前VLMs的操作范围。为了解决这个问题,我们提出了引导式监督;
2024-03-29 09:33:11 218
原创 CV论文--2024.3.28
为此,我们提出了一种名为MAVOS的基于Transformer的方法,它引入了一种优化的和动态的长期调制交叉注意(MCA)内存,以模拟时间平滑性,而无需频繁扩展内存。与现有最佳的基于Transformer的方法相比,我们的MAVOS方法将速度提高了7.6倍,同时将GPU内存需求显著降低了87%,并在短视频和长视频数据集上展现了可比的分割性能。通过我们提出的新方法,我们能够以高效而稳健的方式跟踪视频中的任意时间的任何像素,并在训练速度、稳健性和准确性方面取得了显著的进展。
2024-03-28 09:35:44 381
原创 CV论文--2024.3.27
这篇文章介绍了一种名为无伪影超分辨率(SR)技术的方法,其旨在将低分辨率图像转换为高分辨率图像,并保持原始内容的完整性,消除任何失真或合成细节。这些伪影可能从微小的噪点到不真实的纹理,都会偏离源图像的真实结构,因此对超分辨率过程的完整性构成挑战。为了解决缺乏全面路缘石数据集和3D注释的问题,作者创建了包含7,100帧的3D-Curb数据集,这是目前最大、最多样化的路缘石点云集合。因此,在这项研究中,我们考虑了一种极端情况,即只有一个新领域样本的情况,称之为单次DIL。中文标题:一次性域增量学习。
2024-03-27 09:31:15 626
原创 CV论文--2024.3.26
基于这一发现,我们提出了一种创新的自适应视觉令牌减少方法,名为PruMerge,它可以显著减少视觉令牌的数量,同时保持可比较的模型性能。通过广泛的定量和定性实验,我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射,并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的方法具有两个关键点:首先,我们构建了可扩展的架构;在这些任务中,每个训练样本仅标记了任务的一个子集,因此在训练过程中存在任务标签的缺失,这导致预测质量下降且存在噪声,这一点在最先进的方法中也可观察到。
2024-03-26 09:44:28 715
原创 CV论文--2024.3.25
与最新的最先进方法pixelSplat相比,我们的模型使用的参数少了10倍,推理速度提高了2倍以上,同时提供了更高的外观和几何质量,以及更好的跨数据集泛化性能。为了推广到不同场景中的各种对象,我们创建了一个大规模的逼真数据集,其中包含来自Objaverse数据集的多样化的12K个3D物体模型。同时,我们报告了与最先进的障碍物跟踪模型相当的准确性,而仅需要它们计算成本的一小部分,通常是十倍到二十倍的差距。:我们提出了一种名为MVSplat的有效前馈3D高斯喷溅模型,该模型是从稀疏的多视图图像中学习得到的。
2024-03-25 14:36:48 327
原创 CV论文--2024.3.22
我们的主要贡献包括三个方面。其次,我们开发了一种新颖的修剪技术,减少总点数同时保持高质量,实现更小、更紧凑的场景表示,并具有更快的推理速度。我们还引入了一个名为“ImageNet概念编辑基准(ICEB)”的全面基准,用于评估T2I模型的大规模概念编辑能力,包括自由形式提示、大规模概念类别和广泛的评估指标两个子任务。通过在我们提出的基准和之前的基准上进行广泛实验,结果表明EMCID具有出色的可扩展性,能够编辑高达1,000个概念,为快速调整和重新部署T2I扩散模型提供了实用的方法。
2024-03-22 09:38:52 289
原创 CV论文--2024.3.21
通过将Chain-of-Spot与指令跟随模型LLaVA-1.5集成,我们的方法在多个多模态数据集和基准测试中始终提高了图像推理性能,而无需复杂的改动,并获得了新的最先进结果。在Fouriscale的指导下,我们的方法成功地平衡了生成图像的结构完整性和保真度,实现了任意尺寸、高分辨率和高质量的图像生成能力。我们在15个数据集上进行了广泛的实验,结果验证了所提出的DualAdapter在少样本学习和领域泛化任务上优于现有的最先进方法,并且具备竞争性的计算效率。
2024-03-21 09:07:02 638
原创 CV论文--2024.3.20
此外,我们将多模态输入表示统一为2D图像格式,以实现多模态异常检测和推理。为了实现这一目标,提出了名为Zippo的统一框架,通过将颜色和透明度分布融合到单个扩散模型中,将扩散潜在变量扩展为RGB图像和Alpha遮罩的联合表示。通过交替选择一种模态作为条件,然后将扩散过程应用于相应的模态,Zippo能够从Alpha遮罩生成RGB图像,并从输入图像预测透明度。除了单模态预测外,他们还提出了一种模态感知噪声重新分配策略,以进一步赋予Zippo在文本指导下同时生成RGB图像及其对应的Alpha遮罩的能力。
2024-03-20 09:18:13 253
原创 CV论文--2024.3.19
此外,我们还评估和配置了网络结构和损失函数的不同选项。多模态基础模型如CLIP通过在互联网上收集数百万样本进行预训练,产生了具有竞争力的零样本结果,通常能够达到完全监督方法的水平,而无需进行任务特定的训练。在本研究中,我们对少样本图像分类进行了广泛的实验研究,探索在冻结特征空间中应用数据增强的方法,我们将其称为"FroFA"(冻结特征增强),总共涵盖了二十种增强方式。:在许多少样本任务中,通过在预训练的视觉模型输出上训练线性分类器或轻量级模型,即所谓的"冻结特征",可以实现令人印象深刻的性能。
2024-03-19 10:55:52 353
原创 论文解析:V3D: Video Diffusion Models are Effective 3DGenerators
自动三维生成最近引起了广泛关注。最近的方法大大加快了生成速度,但由于模型容量有限或三维数据,生成的物体通常不够精细。在视频扩散模型最新进展的推动下,我们引入了 V3D,利用预训练视频扩散模型的世界模拟能力来促进三维生成。为了充分发挥视频扩散感知三维世界的潜力,我们进一步引入了几何一致性先验,并将视频扩散模型扩展为多视角一致性三维生成器。得益于此,最先进的视频扩散模型可以进行微调,从而在给定单个图像的情况下生成围绕物体的 360° 轨道帧。
2024-03-18 10:38:32 1119
原创 C论文--2024.3.18
通过冻结Foundation Tracker并仅调整一些额外的可训练参数,Prompt Tracker抑制了Foundation Tracker的强定位能力,并在下游的RGB+X跟踪任务上实现了高效的参数微调。分割分组将点云划分为语义上有意义的区域,增强了语义的连贯性,并为后续的对比表示学习提供了语义指导。为了评估我们的通用框架OneTracker(由Foundation Tracker和Prompt Tracker组成)的有效性,我们对6个流行的跟踪任务在11个基准测试上进行了广泛的实验。
2024-03-18 09:19:53 824
原创 CV论文--2024.3.15
一组具有兼容边的3D对应关系形成了对应关系图,这在最先进的3D点云配准方法中扮演着重要角色,如基于最大团的方法(MAC)。尽管如此,对这一图的特性尚未完全理解。然而,现有方法存在挑战,因为它们依赖于复杂的级联框架,信息相对有限,仅依赖于整个网络输出的监督,单帧输入和小型骨干。3DFIRES的设计目标是在仅有一个视角的情况下,重建未曾见过的场景的完整几何形状,包括隐藏的表面。研究结果表明,即使只有一个输入,我们的方法在效果上与单视角重建方法相当,并且在稀疏视角三维重建的定量和定性测量方面超过了现有技术。
2024-03-15 09:07:28 417
原创 CV论文--2024.3.14
因此,更广泛的研究目标将是探讨如何将任意两个不相关的语言和生成视觉模型集成到文本生成图像中。在这项研究中,我们探索了这一目标,并提出了LaVi-Bridge,这是一个管道,可以将不同的预训练语言模型和生成视觉模型集成到文本生成图像中。在这个框架内,我们证明了将更先进的模块,如更先进的语言模型或生成视觉模型,纳入其中,可以显著提高文本对齐或图像质量等能力。:我们介绍了一项名为StyleGaussian的创新技术,它是一种3D风格转移技术,能够以每秒10帧的速度将任何图像的风格即时转移到3D场景中。
2024-03-14 09:11:12 773
原创 CV论文--2024.3.13
通过基于GPT-4V的评估框架,我们的研究结果显示,与流行基准线相比,我们的方法在性能上有显著改进,尤其是在增加LoRA组合数量时效果更加显著。通过从 3D 重建的角度出发,利用构建的 3D 模型满足的几何约束的逼真程度作为代理,来评估生成的视频符合真实世界物理规则的程度。:3D高斯点云绘制(3D-GS)是计算机图形学领域的重要进展,它可以提供清晰的场景表示和创新的视图合成,而无需依赖神经网络,如神经辐射场(NeRF)。由于3D高斯点云绘制技术的普及和研究范围的扩大,本文对过去一年相关论文进行了全面调查。
2024-03-13 13:54:45 382
转载 手把手教你实现RAG
这样切分出来的文档片段就是一个一个的差不多相同长度的文档片段了。不过在切分的时候要注意,片段与片段之间最好要有一些重叠的内容,这样才能保证检索的时候能够检索到相关的文档片段。LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。基类,这样我们再用其他的模型的时候,只需要继承这个基类,然后在此基础上进行修改即可,方便代码扩展。一样的,我们还是先实现一个基类,这样我们在遇到其他的自己感兴趣的模型就可以快速的扩展了。
2024-03-13 13:53:23 83
原创 CV论文--2024.3.12
我们的方法是由语言指导驱动的,令人惊讶的是,它非常简单易懂,但在具有挑战性的数据集(如GeoNet和DomainNet)上明显优于所有先前的方法,验证了其极高的有效性。为了进一步扩展我们研究的范围,超越图像,我们引入了一个新的基准来研究视频中的自我-外部转移,并发现我们的语言辅助LaGTran在这种高度具有挑战性和非常规的转移设置中产生了显著的收益。:我们提出了LaGTran,这是一个新颖的框架,利用现成或容易获取的文本描述来指导从标记源数据到存在领域转移的未标记目标数据的强大的区分性知识的转移。
2024-03-12 09:31:14 395
原创 CV论文--2024.3.11
我们对基于视觉的演绎推理进行了深入研究,这是一个相对较复杂但较少被探索的领域,并发现了当前最先进的VLMs中存在的盲点。结果显示,尽管LLMs在基于文本的推理方面表现出令人印象深刻的能力,但在视觉演绎推理方面,我们的水平远未达到可比较的熟练程度。我们提出的策略可以整合到许多现有的跟踪系统中,并且经过广泛的实验证明了我们的方法在减少长尾分布对多目标跟踪性能的影响方面的有效性。因此,我们建议将胶囊网络置于遮蔽图像建模框架中进行训练,并采用新的胶囊解码器,以提高胶囊网络在现实大小图像上的性能。
2024-03-11 11:49:44 774
原创 CV论文--2024.3.8
这篇文章研究了在语义分割中应用无监督域自适应(UDA)的情况,即在已标记的源数据集上训练模型,然后将其适应到未标记的目标数据集上。由于在UDA中,某些类别通常与不可靠的预测相关联,因此在不偏向某些类别的情况下减少这些伪标签的影响是非常困难的。我们创建了一个名为AlgoPuzzleVQA的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图方面的能力。数据集是通过人类编写的代码自动生成的,所有拼图都有确切的解决方案,可以从算法中找到,无需繁琐的人工计算。
2024-03-08 10:01:47 806
原创 CV论文--2024.3.7
然而,直接使用神经网络预测姿态的方法在处理重叠区域有限的图像时更为鲁棒,并且可以推断出绝对平移尺度,尽管牺牲了一定的精度。经过全面分析,我们的设计选择得到了支持,并且证明我们的方法能够灵活适应不同特征提取器和对应估计器,在Matterport3D、InteriorNet、StreetLearn和Map-free Relocalization等数据集上展现出最先进的6DoF姿态估计性能。我们的端到端训练模型结合了基于自我注意力的场景感知对象编码器和原始的多键锚点技术,从而提高了对象识别准确性和空间关系理解。
2024-03-07 10:21:13 386
原创 CV论文--2024.3.6
我们通过在Realistic Synthetic 360、Real Forward-Facing、Replica数据集和用户捕获数据集等严格的真实场景基准测试中,与几种基于NeRF的方法进行对比分析,证明了NeRF-VPT显著提高了基线性能,并能够更有效地生成高质量的新视角图像。通过广泛的实验评估,我们的DNA模型在移动卷积网络和小视觉变换器上的ImageNet数据集上取得了78.9%和83.6%的最高准确率,达到了最先进的水平。我们的研究还提供了深入的经验分析和神经架构评估的见解。
2024-03-06 09:43:03 811
原创 解读:DUSt3R: Geometric 3D Vision Made Easy
野外多视角立体重建(MVS)需要首先估算相机参数,例如内在和外在参数。这些参数的获取通常既繁琐又麻烦,但却是在三维空间中对相应像素进行三角测量的必要条件,而三角测量正是所有性能最佳的 MVS 算法的核心。在这项工作中,我们采取了相反的立场,并引入了 DUSt3R,这是一种用于任意图像集合的高密度、无约束立体三维重建的全新范式,即在没有摄像机校准或视点姿势等先验信息的情况下进行操作。我们把成对重建问题看作是点阵图的回归,放宽了通常投影相机模型的硬约束。我们展示了这种表述方式顺利地统一了单目和双目重建情况。
2024-03-05 11:50:25 863
原创 SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration
最近的实时视图合成技术在保真度和速度方面取得了迅速的进步,现代方法能够以交互式帧速率渲染近乎逼真的场景。与此同时,在适合光栅化的显式场景表示和基于光线行进的神经场之间出现了紧张关系,后者的先进实例在质量上超过了前者,而对于实时应用程序来说却非常昂贵。我们引入了 SMERF,这是一种视图合成方法,可在占地面积达 300 m 的大型场景中实现实时方法中最先进的精度,体积分辨率为 3.5 mm。
2024-03-05 10:34:02 1015
原创 CV论文--2024.3.5
最近,神经渲染在训练和渲染速度方面取得了巨大的进展。我们的方法使得能够以60FPS的速度实现最先进的渲染质量,同时合成新的姿势和视角,而训练速度比先前的工作快了约100倍。广泛的实验表明,我们的方法在标准基准测试中比当前实时新视图合成技术提高了0.78 dB,在大型场景中提高了1.78 dB,渲染速度比最先进的辐射场模型快了三个数量级,并能在包括智能手机在内的各种普通设备上实现实时性能。通过在不同规模的模型架构和多样化的数据之间进行训练,我们提供了经验证据,证明我们的模型具备有效的可扩展性。
2024-03-05 09:11:49 330
原创 CV论文--2024.3.4
在接近零的训练误差之后,DNN的泛化会在较长时间后才发生。先前的研究已经报道了在特定的控制环境下出现延迟泛化的情况,例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。我们首次提供了证据表明,在分类问题中,线性区域在训练过程中会发生相变,之后它们会远离训练样本(使DNN在那里的映射更平滑),并朝着决策边界移动(使DNN在那里的映射不那么平滑)。接下来,我们在一个小的子集上微调检索模型,手动选择每个视频的最佳标题,然后将该模型应用于整个数据集,以选择最佳标题作为注释。
2024-03-04 09:20:38 834
原创 CV论文--2024.3.1
首先,通过适应CLIP的视觉表示,我们的CLIP图像适配器缓解了三维渲染图像和自然图像之间的域差异,适用于合成的图像-文本对。通过结合这些技术,我们开发了一个名为UniMODE的统一检测器,在具有挑战性的Omni3D数据集上取得了显著进展,比之前最先进技术提高了4.9%AP_3D,成功将BEV检测器扩展到统一的3D物体检测领域。我们的方法通过对比传统LVLM和图像偏置LVLM的预测,来得出下一个标记的概率分布,从而突显与图像内容高度相关的正确信息,同时减少因文本依赖过多而引起的幻觉误差。
2024-03-01 09:30:43 930
原创 CV论文--2024.2.29
作者在公开可用的CAD数据集上进行了广泛实验,展示了他们的方法在两个设置中的有效性:完整设计历史还原和基于点云的条件自动完成。:这篇文章介绍了一种创新的视觉参考提示(VRP)编码器,它使得分割任何物体模型(SAM)能够利用注释的参考图像来作为分割的指导,从而形成了VRP-SAM模型。通过将ReCon ++ 作为LLM的3D点云输入编码器进行训练,ShapeLLM 在构建的指令跟随数据上进行训练,并在新的人工策划的评估基准3D MM-Vet 上进行测试。
2024-02-29 09:08:01 368
原创 Neural Network Diffusion论文解读
扩散模型在图像和视频生成方面取得了显著的成功。在这项工作中,我们证明了扩散模型也可以生成高性能的神经网络参数。我们的方法很简单,利用自动编码器和标准潜在扩散模型。自动编码器提取经过训练的网络参数子集的潜在表示。然后训练扩散模型,从随机噪声中合成这些潜在参数表示。然后,它生成通过自动编码器解码器传递的新表示形式,其输出可用作网络参数的新子集。在各种架构和数据集中,我们的扩散过程始终如一地生成与经过训练的网络具有可比或改进性能的模型,同时将额外成本降至最低。
2024-02-28 10:19:48 998
原创 CV论文--2024.2.28
1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation中文标题:StreamDiffusion: 一个用于实时交互生成的管道级解决方案简介:我们介绍了StreamDiffusion,这是专为实时交互式图像生成而设计的实时扩散管道。传统的扩散模型擅长从文本或图像提示中生成图像,但在实时交互方面表现不佳。特别是在需要连续输入的场景下,如Metaverse、实时视频流和广播,高吞吐量至关重要。为
2024-02-28 09:25:26 922
原创 CV论文--2024.2.27
为了解决这些问题,我们引入了Gen4Gen,这是一个半自动的数据集创建管道,利用生成模型将个性化概念组合成复杂的构图,并附上文本描述。我们的方法类似于经典的专家混合层次模型,具有两个组成部分,专门用于协同监督:(i)我们逐步交替进行学生训练和教师分配,利用强学生的增长来识别可行的监督;以前的研究提出了建立环境场景图的方法,但通常假设环境是静态的,忽略了需要主动交互的区域。:本文提出了一种新的方法来解决在互联网规模数据预训练的强模型中,由于能力有限的监督者稀缺,导致其行为难以控制的问题。
2024-02-27 09:21:04 912
原创 CV论文--2024.2.26
这使我们首次能够高效地训练一个具有数十亿个参数的文本到视频模型,在许多基准测试中取得了最先进的结果,并生成了更高质量、时间一致性和运动复杂性的视频。与现有的自上而下预测全局相机外参的方法不同,我们提出了一种分布式表示相机位姿的方法,将相机视为一束光线。我们观察到,这种表示方法自然适用于集合级别的变换器,并开发了一种基于回归的方法,将图像块映射到相应的光线上。我们提出的基于回归和扩散的方法在CO3D相机位姿估计任务上展示了最先进的性能,同时也在未见过的物体类别和野外捕捉方面进行了推广。
2024-02-26 09:37:52 353
原创 Stable Diffusion 3重磅发布
提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「Stable Diffusion 3」字样,犹如夜空中最璀璨的星辰。提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。
2024-02-23 15:18:50 1539
原创 CV论文--2024.2.23
因此,我们提出了一种新的图像字幕模型训练策略,以不同的方式利用GT字幕。首先,我们使用GT字幕来训练一个简单的MLP鉴别器,作为正则化项,用于防止奖励欺骗并确保所生成的字幕的流畅性。:使用教师强制训练图像字幕模型会导致生成非常通用的样本,但在检索应用或为可访问性生成描述图像的替代文本方面,更具特色的字幕会非常有用。:我们引入了几何信息神经网络(GINN)的概念,它包括以下要素:(i)在几何约束下进行学习,(ii)使用神经场作为适当的表示形式,以及(iii)在处理常见的欠定系统时生成多样化的解决方案。
2024-02-23 09:21:16 361
原创 3D高斯泼溅(Gaussian Splatting)通俗解释
原理:输入一组静态图片,由sfm得到稀疏点云,从稀疏点云初始化成3D高斯函数集合,由于3D到2D投影的模糊性,几何体可能会被错误地放置,因此需要训练优化得到更准确的3D高斯函数,最后使用GPU快速的光栅化器渲染结果。功能:拍摄一段视频或多张图片,可以重建3维场景并能实时渲染。缺点:占用存储和显存大。优点:质量高、速度快。
2024-02-22 17:39:21 457
原创 CV论文--2024.2.22
我们使用基于物理基础的图像生成模型GLIGEN进行简单的数据增强,生成微调数据,并在我们新设计的Flickr30k-Positions基准测试中实现了显著的性能提升。我们特别关注了两个尚未充分开发的关键问题:物理基础推理(计数和位置理解)的忽视以及利用高能力的文本和图像生成模型进行语义反事实微调的潜力。利用分解的低秩张量的分解属性,我们的方法实现了与暴力3D卷积相当的效果,但只产生了很小的计算开销。通过广泛的定量和定性评估,我们的提出的框架在新视角合成和优化的快速收敛方面展现出卓越的性能。
2024-02-22 09:11:07 1081
原创 CV论文--2024.2.21
我们的模型生成了紧凑的网格,可以在移动设备上实时渲染。这种新的视角使得FiT能够采用灵活的训练策略,在训练和推理阶段轻松适应不同的长宽比,从而促进分辨率的泛化,并消除由图像裁剪引起的偏差。为了克服这一限制,我们引入了Open3DSG,这是一种替代方法,可以在开放世界中学习3D场景图预测,而无需标记场景图数据。FiT通过精心调整的网络结构和集成的无需训练的外推技术得到增强,展现了在分辨率外推生成方面出色的灵活性。全面的实验展示了FiT在广泛的分辨率范围内的卓越性能,并证明了它在训练分辨率分布内外的有效性。
2024-02-21 09:20:55 816
原创 CV论文--2024.2.20
在给定语言指令的情况下,它构建了视觉场景的3D表示,并在此基础上进行条件迭代,以减少3D旋转和机器人末端执行器的平移误差。在每个迭代中,我们的模型将末端执行器的姿态估计表示为3D场景令牌,并使用3D相对关注其他3D视觉和语言令牌来特征化它们,从而预测每个令牌的3D平移和旋转误差。我们还探究了模型的架构设计选择,例如3D场景特征化和3D相对关注,并证明它们对于泛化能力的提升起到了积极的作用。值得注意的是,我们的方法在比最先进的大型视觉-语言模型少30~70%的参数下实现了这些进步,标志着显著的效率提高。
2024-02-20 16:23:40 622
原创 CV论文--2024.2.19
结果表明,GES能够更准确地表示具有尖锐边缘的信号,而这对于高斯函数来说是具有挑战性的,因为高斯函数具有固有的低通特性。通过频率调制损失的辅助,GES在新视角合成基准测试中表现出了竞争性能,同时内存占用仅为高斯喷洒的一半,并且渲染速度提高了高达39%。在本文中,我们介绍了一种名为自我对弈微调扩散模型(SPIN-Diffusion)的创新技术,其中扩散模型与其早期版本进行竞争,促进迭代的自我改进过程。然而,传统的提示学习方法在训练分布上过度拟合,失去了对测试分布的泛化能力。
2024-02-19 14:37:28 773
原创 CV论文--2024.2.2
在精度方面,我们的方法与INDOOR-6数据集上最先进的基于结构的方法相当,但运行速度显著更快,使用的存储空间更少。:当根据文本描述生成图像时,扩散模型能够产生引人注目的图像,并且这些模型的扩展使用户能够在相对粗糙的尺度上进行图像编辑。运动引导利用现有光流网络的梯度来引导扩散采样过程,具体而言,我们设计了一个引导损失,以鼓励样本具有所需的运动,同时与源图像在视觉上相似。:我们介绍了UniTouch,这是一个统一的触觉模型,适用于连接多种模态(包括视觉、语言和声音)的基于视觉的触觉传感器。
2024-02-02 09:22:19 358
原创 CV论文--2024.2.1
我们提出了一种新的尺度蒸馏方法来训练我们的SR模型。我们并非直接在感兴趣的尺度因子上训练SR模型,而是先在较小的放大比例上训练一个教师模型,从而使教师的SR问题更简单。我们尺度蒸馏的理念是,教师通过提供适应当前噪声水平的目标,而不是使用来自所有噪声水平的相同的真实数据的目标,来帮助学生扩散模型训练,并提供一个准确的目标,因为教师有一个更简单的任务要解决。为了解决这个限制,我们引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,增强了YOLO在开放词汇检测方面的能力。
2024-02-01 09:26:11 409
原创 CV论文--2024.1.31
InternLM-XComposer2提出了一种部分LoRA(PLoRA)方法,将额外的LoRA参数专门应用于图像标记,以保持预训练语言知识的完整性,实现准确的视觉理解和具备文学才能的文本构成之间的平衡。该模型不仅超越了传统的视觉语言理解,还能够从各种输入中灵活地生成交错的文本-图像内容,包括轮廓、详细的文本规范和参考图像,从而实现高度可定制的内容创作。综述从VAD的背景和通用概念定义的简要概述开始,然后从样本数量、数据模态和异常层次的角度对最新的VAD进展进行了分类、强调和讨论。
2024-01-31 09:16:29 334
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人