AI生成未来-CSDN博客

原创一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)

Transformer，由Vaswani等人引入，以其强大的数据建模能力、可伸缩性以及出色的捕捉长距离依赖性的能力，彻底改变了机器学习。起源于自然语言处理（NLP）领域，取得了机器翻译和文本摘要等方面的成功，Transformer现在将其实用性扩展到计算机视觉任务，如图像分类和目标检测。最近，它们的能力已经在多模态情感分析领域得到了利用，其中它们整合和解释多样的数据流——文字、视觉和声音——以评估情感反应。

2024-04-23 09:09:53 892

原创为Stable Diffusion模型瘦身并达到SOTA！LAPTOP-Diff：剪枝蒸馏新高度（OPPO）

文章链接：https://arxiv.org/pdf/2404.11098在AIGC时代，对低成本甚至设备端应用扩散模型的需求日益增加。在压缩Stable Diffusion模型（SDM）方面，提出了几种方法，其中大多数利用手工设计的层移除方法来获得更小的U-Net，同时利用知识蒸馏来恢复网络性能。然而，这种手工设计的层移除方式效率低下，缺乏可扩展性和泛化性，并且在重新训练阶段使用的特征蒸馏面临着不平衡问题，即一些数值显著的特征损失项在整个重新训练过程中占主导地位。

2024-04-23 09:06:16 775

原创图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

大规模生成diffusion model 现在能够根据文本prompt词描述生成高质量的图像。这些模型通常在包含多种风格和内容的标注RGB图像的大型数据集上进行训练。虽然这些技术已经极大地推动了文本引导图像生成领域的发展，但图像外观和构成（例如局部图像属性、可计数性）的精确可控性仍然是一个挑战。Prompt指令经常缺乏精确性或被误解（例如计数错误、空间位置错误、概念混淆、未能添加或删除实例），因此需要复杂的prompt工程来获得期望的结果。

2024-04-15 08:58:17 618

原创完美提升Stable Diffusion生成质量和效率！UniFL:统一反馈学习框架（字节&中山）

扩散模型的出现将文本到图像（T2I）领域推向了前所未有的进步领域，其突出贡献如DALLE-3、Imagen、Midjourney等。特别是，开源图像生成模型的引入，如Stable Diffusion，开启了一个变革性的文本到图像时代，产生了许多下游应用，如T2I个性化、可控生成和文本生成视频（T2V）。尽管迄今为止取得了显著进展，但当前基于Stable Diffusion的图像生成模型仍存在一定的局限性。低质量：生成的图像通常质量较差，缺乏真实性。

2024-04-15 08:51:41 914

原创 CVPR`24 | FRESCO：高质量、连贯的Zero-shot视频转换新方案（北大&南洋理工）

在当今数字时代，短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展，视频处理仍然存在独特的挑战，特别是在确保自然运动和时间一致性方面。通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动，然而这既不经济也不方便普通用户。

2024-03-28 09:01:45 769

原创腾讯放大招了！AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

从音频和静态图像中创建逼真而富有表现力的肖像动画具有各种应用，从虚拟现实和游戏到数字媒体都有涉及。然而，制作视觉上引人入胜且保持时间一致性的高质量动画是一个重大挑战。这种复杂性源于需要精细协调嘴唇运动面部表情和头部位置，以营造出视觉上引人入胜的效果。现有方法通常未能克服这一挑战，主要是因为它们依赖于用于视觉内容创建的容量有限的生成器，如GANs、NeRF或基于运动的解码器。这些网络展现出有限的泛化能力，并且在生成高质量内容方面经常缺乏稳定性。最近，扩散模型的出现促进了高质量图像的生成。

2024-03-28 08:59:25 968

原创只需一步！One-Step图像转换来了！亲测效果惊艳！（卡内基梅隆&Adobe）

条件扩散模型使用户能够基于空间条件和文本提示生成图像，从而实现了对场景布局、用户草图和人体姿势等进行精确控制的各种图像合成应用。尽管这些模型取得了巨大成功，但它们面临两个主要挑战。首先，扩散模型的迭代性质使推理速度变慢，限制了实时应用，例如交互式 Sketch2Photo。其次，模型训练通常需要筛选大规模的配对数据集，对许多应用造成了重大成本，而对其他应用来说则不可行。本项工作介绍了一种适用于配对和无配对设置的one-step图像到图像翻译方法。

2024-03-25 20:00:34 1052

原创 FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

单视图三维重建旨在从单个RGB图像中恢复对象的三维几何和外观。这项任务具有极其重要的意义，因为它使机器能够理解和与真实的三维世界进行交互，从而实现虚拟现实（VR）、增强现实（AR）和机器人技术等各种应用。在三维重建中面临的主要挑战之一是确保具有高质量和高效率的表示。显式表示（例如点云、体素和网格）由于其直观且形变友好的特性而被广泛使用，但往往难以表示真实的外观。近年来，隐式表示（例如神经辐射场（NeRF））由于这些方法的连续性有助于优化而取得了巨大成功。然而，渲染所需的随机采样耗时且可能产生噪声。

2024-03-25 19:58:07 1022

原创 CVPR`24 | 无需微调，超越SPAE！V2L-Tokenizer：图像描述/重建/去噪多项SOTA!

在自然语言处理（NLP）领域，通过部署大语言模型（LLMs），如GPT、PaLM和LLaMA，已经取得了显著的进步。为了解决需要结合文本和视觉理解的复杂挑战，学者们正在扩展现成LLMs的能力。这种增强涉及整合额外的视觉处理组件，以促进对视觉内容的理解或从文本生成图像。随后，这些改进的模型会使用各种多模态数据集进行额外的再训练或微调，以使视觉潜在空间与语言潜在空间对齐。然而，这种精炼过程通常需要大量的训练资源。如上图1所示，我们的目标是为大语言模型赋予理解视觉信号的内在能力，重要的是，无需微调。

2024-03-20 09:20:53 834

原创除了SD Web UI 或comfyUI，还有更简单的运行SDXL的方法吗？

想要从你的机器上生成令人惊叹的 AI 图像吗？你可能知道SD WebUI 或者 comfyUI，如果不想安装这些终端软件，又想快速体验，最快的方式是什么？本次以Stable Diffusion XL为例，它是当前最优秀的本地图像生成器之一，一起快速生成图片吧！：你需要一张良好的显卡。至少需要 4G 的 VRAM；如果有 8G 或更多则效果会更好。这里将在Linux系统上使用。如果你使用 WSL，那么在 Mac 或 Windows 上的操作步骤相同。

2024-03-18 08:46:42 728

原创 CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

最近，由于其惊人的性能，扩散模型在文本到图像生成领域引发了广泛的研究。由于扩散模型缺乏增强的可控性，如何稳定可靠地引导它们遵循由参考图像定义的预定风格变得棘手起来。综合考虑效果和效率，一种流行的风格转移方法是围绕额外编码器的方法。基于编码器的方法通常训练一个编码器，将参考图像编码为信息特征，然后将这些特征注入到扩散模型中作为其引导条件。需要注意的是，与需要多次迭代学习的基于优化的方法相比，基于编码器的方法非常高效，因为它只需要一次计算。

2024-03-18 08:44:52 691

原创提升77%，推理时间降一半 | CogView3:最新SOTA文生图方案（清华&智谱AI）

扩散模型已经成为当今文本到图像生成系统的主流框架。与自回归模型和生成对抗网络的范式相比，扩散模型将图像合成任务概念化为一个多步去噪过程，从各向同性高斯噪声开始。随着训练数据量和神经网络计算成本的激增，扩散模型的框架在视觉生成领域已经取得了有效性，能够遵循用户指令并生成具有令人赞赏细节的图像。当前最先进的文本到图像扩散模型大多在单一阶段操作，在高分辨率图像上进行扩散过程，如1024×1024。对高分辨率图像进行直接建模会加剧推理成本，因为每个去噪步骤都是在高分辨率空间上执行的。

2024-03-14 09:03:26 915

原创 LLM和自动驾驶强强联合 | DriveDreamer-2：自动驾驶定制视频生成世界模型!

近年来，自动驾驶的世界模型引起了行业和学术界的广泛关注。由于其出色的预测能力，自动驾驶世界模型有助于生成各种各样的驾驶视频，甚至包括长尾场景。生成的驾驶视频可以用于增强各种驾驶感知方法的训练，对自动驾驶的实际应用非常有益。自动驾驶中的世界建模面临着巨大的挑战，这是由于其固有的复杂性和大量的采样空间所致。早期的方法通过将世界建模纳入鸟瞰图(BEV)语义分割空间中来缓解这些问题。然而，这些方法主要是在模拟自动驾驶环境中探索世界模型。在自动驾驶技术的最新发展中，世界模型的发展取得了重大进展。

2024-03-14 09:02:36 794

原创超越DragGAN和DragDiffusion！StableDrag:基于点的图像编辑新框架(南大&腾讯) 原创 Yutao Cui等 AI生成未来

在过去的几年里，使用生成模型进行可控图像编辑已经取得了显著的成就，可以根据进一步的精细化目的定制生成结果。最近，开创性的DragGAN已经大大推动了准确的图像编辑，通过交互式基于点的操作，即根据用户输入的控制点驱动语义对象朝向相应的目标点。DragGAN提出了一种新颖的拖拽技术，主要包含运动监督和点跟踪，其中前者监督着控制点周围的局部补丁逐步朝向目标点移动，而后者负责在每个步骤中定位更新的控制点。尽管DragGAN取得了巨大的成功，但其编辑能力仍受制于生成对抗网络的固有模型容量和泛化性。

2024-03-11 09:03:14 950

原创超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

最近,高质量文本到图像（T2I）模型的出现深刻影响了人工智能生成内容（AIGC）社区。这包括专有模型，如DALL·E 3 、Midjourney ，以及开源模型，如Stable Diffusion 和PixArt-α。然而，开发顶级的T2I模型需要相当大的资源；例如，从头开始训练SD1.5需要约6000个A100 GPU 天，这给资源有限的个人研究人员造成了重大障碍，并阻碍了AIGC社区的创新。随着时间的推移，AIGC社区将获得持续更新、质量更高的数据集和更先进的算法。

2024-03-10 12:43:36 1238

原创百家争鸣！AI艺术生成器的进化: 深入AI生成艺术世界

人工智能（AI）已经彻底改变了艺术界，AI艺术生成器现在能够创作出独特而迷人的作品。然而，关于AI生成艺术与人类创作艺术的艺术价值的争论仍然在引起争议。社区对AI生成图像的原创性和所有权提出了关注，导致了法律纠纷和对版权侵权的质疑。尽管存在法律上的不确定性，但许多公司已经开发了自己的AI图像生成器，以避免此类问题。从基本的AI视频生成器到更先进的系统，AI生成艺术的领域是广阔而多样的。本文探讨了AI艺术生成器的演变，分析了它们的能力和局限性。

2024-03-10 12:38:28 849

原创视觉和GPT再碰火花！CVPR`24 | RegionGPT:面向复杂区域理解的VLM(港大&英伟达)

视觉语言模型（VLMs）在人工智能领域中标志着视觉和语言领域的显著融合。随着多模态大语言模型（MLLMs）的出现，该领域的能力得到了显著增强，可以解释图像并简化人类与VLMs之间的交互。然而，尽管这些模型在理解整个图像方面非常有效，但它们仍然在详细分析特定区域方面遇到困难。另一方面，对于先进的视觉任务，包括分析目标属性和解释目标间关系，精细的理解至关重要。在VLMs中解决区域级复杂理解问题需要空间信息和语义的对齐。

2024-03-08 08:46:54 800

原创 CVPR 2024 | CAMixerSR：2K/8K/轻量级/全景图像超分又快又强！（字节&南开）

近年来，神经网络的研究显著提高了图像超分辨率（SR）的质量。然而，现有方法在生成视觉上令人愉悦的高分辨率（HR）图像的同时，在现实世界的应用中遭遇了密集的计算负担，特别是对于2K-8K分辨率的输入。为了减轻这种开销，许多加速框架和轻量级网络被引入用于实际的超分辨率应用。然而，这些方法是完全独立的，缺乏协作。第一个策略，加速框架，基于这样一个观察：不同的图像区域需要不同的网络复杂性，这从变化的模型内容感知路线的角度解决了问题。

2024-03-07 09:01:54 1160

原创开源之光 Stable Diffusion 3 技术论文全解：公式占一半，实验很充分！

扩散模型通过噪声创建数据。它们被训练来反转数据向随机噪声的正向路径，因此，结合神经网络的近似和泛化性质，可以用来生成不在训练数据中但遵循训练数据分布的新数据点。这种生成建模技术已被证明在建模高维感知数据，如图像方面非常有效。近年来，扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实标准方法，具有令人印象深刻的泛化能力。由于它们的迭代性质及相关的计算成本，以及推理期间的长时间采样，对这些模型进行更有效的训练和/或更快速的采样的研究已经增加。

2024-03-07 08:58:18 555

原创入门必读！多模态大语言模型的演变全回顾！（视觉定位、图像生成、编辑、理解）

注意力算子和Transformer架构的引入使得我们可以创建大规模的，能够处理各种模态的模型。这一进步主要归因于算子的多功能性和架构的适应性。最初，它们主要应用于语言模型，但很快就扩展到支持视觉处理骨干，并最终用于集成多种模态的模型。随着复杂的大语言模型的激增，尤其是它们在上下文学习方面的能力的进步，鼓励研究人员将这些模型的范围扩大到多种模态，既作为输入又作为输出。这种扩展促使了像GPT-4V和Gemini这样的尖端模型的开发，并展现了相当先进的能力。

2024-03-05 09:12:47 717

原创效果炸裂、刷爆各大视频网站的EMO到底是怎么做到的？

近年来，图像生成领域取得了显著进展，这在很大程度上归功于扩散模型的出现和成功。这些模型以它们生成高质量图像的能力而受到赞誉，这要归功于对大规模图像数据集的广泛训练和渐进式生成方法。这种创新方法使得创造具有无与伦比的细节和逼真度的图像成为可能，为生成模型领域设立了新的标杆。扩散模型的应用不仅仅局限于静态图像。对视频生成的兴趣日益增长，导致了探索这些模型在塑造动态和引人入胜的视觉叙事方面的潜力。这些开创性的努力强调了扩散模型在视频生成领域的巨大潜力。

2024-03-04 09:16:27 931

原创图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

自从通过ImageNet取得更好的图像建模性能以来，基于扩散的生成模型已经取得了巨大进展，与先前主导的生成对抗网络（GAN）框架相比，性能有所提高。开源模型如SDXL在潜在扩散模型（LDM）的基础上进行了扩展，通过扩大文本到图像的预训练数据集和潜在UNet架构来实现。另一方面，PixArt-alpha探索了扩散Transformer（DiT）作为潜在骨干，表现出更好的训练效率和图像质量。Playground v2是最近开发的一个开源模型，专注于训练配方和美学质量，与SDXL相比，实现了2.5倍的用户偏好。

2024-03-01 08:58:29 1157

原创 Gen4Gen：数据驱动多概念个性化图像生成新方法（马毅教授团队新作）

从逼真的肖像到幻想生物的绘画，过去一年见证了文本到图像扩散模型能力的显著飞跃。一些最近的工作集中在这些生成模型的“个性化”上，即通过向预训练的文本到图像扩散模型增加一组最小的用户提供的概念图像（例如，他们的宠物或最近购买的盆栽），以生成新的场景，这些场景包含这些个人概念（例如，他们的宠物在时代广场的夜景中，如下图1所示）。该领域的重要工作 [1, 17, 19, 24, 35] 是重要的里程碑，因为它们增加了用户对生成过程的控制，带来了各种定制应用。

2024-02-29 09:18:04 589

原创一文详解3D内容生成算法（朴素/2D先验/混合型）

生成模型在自然语言处理（NLP）和图像生成领域取得了巨大的成功。最近的发展，如ChatGPT和Midjourney，已经彻底改变了许多学术和工业领域。例如，AI写作和设计助手显著缩短了论文写作和图像设计的时间。在3D领域，随着3D数据量的增加以及其他领域生成技术的成功，3D生成技术也取得了重大进步。由于其广泛的应用，3D内容生成的研究越来越受到关注。游戏和娱乐设计。比如角色和物品，需要多视角概念设计、3D模型创建和3D模型优化。这个过程劳动密集且耗时。3D内容生成技术将大大减少时间和人力成本。建筑领域。

2024-02-28 13:23:09 1300

原创文本生成图像新SOTA！RealCompo：逼真和构图的动态平衡（清北最新）

最近，扩散模型取得了令人振奋的发展和显著进步。在各种生成任务中，文本到图像（T2I）生成在社区内引起了相当大的兴趣。由于在大规模图像-文本配对数据集上进行了广泛的训练，T2I模型（例如，Stable Diffusion）展现出强大的语义理解能力，使它们能够基于语义信息生成高度逼真的对象。然而，当输入文本涉及多个对象或复杂关系时，T2I模型生成的图像有时不会与文本提示指定的对象的组合性对齐。下图2展示了来自不同方面的Stable Diffusion的评估结果，未能生成正确数量的对象，缺乏良好的组合性。

2024-02-27 08:02:05 465

原创 Stable Video 在线平台重磅发布，先睹为快！

Stable Video Diffusion是一个强大的工具，专为媒体、娱乐、教育和营销等各种视频应用而设计。它可以将文本和图像输入转换成生动的场景，将想法转化为电影式的体验。Stable Video Diffusion以两种图像到视频模型的形式发布，可以生成14帧和25帧，帧速率可在3到30帧每秒之间自定义。它的功能包括：视频时长：2到5秒帧率：最高可达30帧每秒处理时间：2分钟或更短总的来说，很高兴看到另一个AI视频生成器在本周宣布推出。过去一年中机器学习的进步速度令人惊叹。

2024-02-26 08:20:25 975

原创深入探讨基于大语言模型的数据标注

在复杂的机器学习和自然语言处理领域中，数据标注凸显出作为一个关键但具有挑战性的步骤，超越了简单的标签本身，涵盖了丰富的辅助预测信息。这个详细的过程通常涉及以下几个方面：❶ 对原始数据进行分类，使用类别或任务标签进行基本分类；❷ 添加中间标签以增加上下文深度；❸ 分配置信度分数以衡量标注的可靠性；❹ 应用对齐或偏好标签来将输出定制到特定标准或用户需求；❺ 标注实体关系以了解数据集中实体之间的相互作用；❻ 标记语义角色以定义实体在句子中扮演的基本角色；❼ 标记时间序列以捕获事件或动作的顺序；

2024-02-26 08:11:29 1187

原创 Control Color：图像着色新SOTA！南洋理工大学最新

图像着色旨在给灰度图像上色，从而增强了各个领域中的视觉吸引力，例如历史影像。手动着色是一种耗时的过程，严重依赖于着色师的偏好、经验、想象力和辛勤努力。尽管已经开发了许多自动着色方法，但它们仍然存在一定的缺点。这些包括色彩丰富度有限、色彩溢出、色彩扭曲以及某些区域着色不完整。此外，依赖用户提供条件的方法缺乏灵活性和精度。例如，这类方法不允许对特定区域进行选择性着色，也不允许使用笔划将颜色应用于特定目标。

2024-02-23 08:58:38 678 1

原创遥遥领先的大语言模型GPT-4的图像合成能力如何？

由GPT-4代表的多模态大语言模型（LLMs）展示了通过文本提示生成相应合成图像的强大功能。它们可以解释用户提供的文本描述，并将其转换为视觉表示。其强大的生成能力和易于操作性使其广泛应用于许多领域，包括但不限于绘画创作、产品设计、人机交互、医学分析等。然而，其强大的生成能力仍然存在许多缺陷，往往容易在不同程度上丢失、扭曲和伪造纹理特征。虽然有几项研究调查了人工智能生成的图像与自然或人工创建的图像之间的差异，但大多数研究主要集中在特定的图像生成模型如Stable Diffusion。

2024-02-22 09:04:41 681

原创王者归来！Stability-AI又放大招 | Stable Cascade:更快更强的图像生成模型！

Stable Cascade由三个模型组成：Stage A, Stage B和Stage C,，代表了用于生成图像的阶段，因此得名“Stable Cascade”。Stage A 和 B 用于压缩图像，类似于Stable Diffusion中 VAE 的工作。然而，正如前面提到的，通过这种设置可以实现对图像的更高压缩。此外，Stage C 负责在给定文本提示的情况下生成小尺寸的 24 x 24 的潜在特征。以下图片以可视化方式展示了这一点。

2024-02-21 09:06:14 873

原创 2024年，如何使用Midjourney创作AI艺术？

MidJourney是生成式人工智能的一个优秀范例，它根据文本提示创建图像。它已经成为创建AI艺术的最流行工具之一，与Dall-E和Stable Diffusion一起。与竞争对手不同，MidJourney是闭源的，因此不清楚其内部具体情况。我们知道它严重依赖于诸如大语言和扩散模型等机器学习技术。其结果有时令人震惊，总是令人印象深刻，并且具有非常逼真的特质。与其他AI艺术生成器不同，它没有免费试用版。它变得如此受欢迎，以至于在使用之前必须订阅。话虽如此，他们的最低套餐价格为每月10美元，价格是合理的。

2024-02-20 23:32:10 652

空空如也

空空如也