EDPJ-CSDN博客

原创（2024，时控交叉注意力（T-GATE），缓存和复用交叉注意力图）交叉注意力使文本到图像扩散模型的推理变得麻烦

T-GATE 发现推断过程可分为依赖交叉注意力来使用文本引导的语义生成阶段和增强保真度阶段。在后一阶段忽略文本，可在保持模型性能的同时降低计算复杂度。基于此，T-GATE 在交叉注意力输出收敛后将其缓存，并在剩余的推理步骤中保持不变。

2024-04-20 14:00:53 461

原创（2024，扩展Transformer和数据，SDXL，SD2，DiT与 UNet）基于扩散的文本到图像生成的可扩展性

本文对去噪骨干和训练集进行消融实验，发现增加 Transformer 块对于改善文本-图像对齐比增加通道数量更具高效。在数据扩展方面，训练集的质量和多样性比数据集大小更重要。增加标题密度和多样性可提高文本-图像对齐和学习效率

2024-04-19 17:58:36 308 1

原创（2024，IXC2-4KHD，LVLM，动态图像分割，高分辨率图像处理）InternLM-XComposer2-4KHD

IXC2-4KHD 将 LVLM 分辨率能力提升到4K HD甚至更高。它提出动态图像分割，在保留了训练图像宽高比的同时，根据预训练的 ViT 自动变化补丁数量并配置布局，从而实现了从 336 像素到 4K 标准的动态训练分辨率。

2024-04-14 17:42:12 840 1

原创（2024，自回归，下一尺度预测，VQGAN）视觉自回归建模：通过下一尺度预测的可扩展的图像生成

视觉自回归建模是一种重新定义图像自回归学习的新范式。它通过将生成策略从传统图像生成的 “下一个 token 预测” 转变为粗到细的 “下一尺度预测”，来重新构想对图像上的自回归建模。

2024-04-14 12:36:38 825 1

原创（2024，Infini-T，Infini-A，压缩记忆，长期记忆）使用无限注意力的高效无限上下文 Transformer

无限注意力将一个压缩式记忆引入注意力机制中。并在单个 Transformer 块中构建了掩蔽的局部注意力和长期线性注意力机制。此外，它通过复用点积注意力计算中的 query、key 和 value 状态（Q、K 和 V），来实现记忆压缩

2024-04-13 10:45:30 1088

原创（2024，FLOPs 动态分配，MoD，MoDE，top-k 路由，块丢弃）在基于 Transformer 的语言模型中动态分配计算

Transformers 可以学习动态地分配计算给序列中的特定位置。该方法通过路由器为不同的 token 计算权重，从而决定哪些 token 要参与块的计算（自注意力和 MLP），哪些 token 要绕过块，以此来限制总计算预算。

2024-04-12 08:22:53 1001

原创（2024，Attention-Mamba，MoE 替换 MLP）Jamba：混合 Transformer-Mamba 语言模型

Jamba 是一个基于T-M和MoE 的LLM。它交错使用T和M层的块，并添加 MoE 来增加模型容量。在大规模构建的情况下，与普通T相比，Jamba有高吞吐量和小内存占用，并且在标准语言模型基准测试和长上下文评估方面达到了最先进的性能

2024-04-08 02:37:17 1089

原创（2024，CLIP 文本嵌入，属性解耦与控制，编辑迁移，SDXL）通过识别语义方向在 T2I 模型中进连续目标特定的属性控制

本文发现扩散模型能够以语义上有意义的方式解释逐 token CLIP 文本嵌入空间中的局部偏差，而不仅仅是作为单词嵌入的离散空间。基于此，通过识别与特定属性相对应的语义方向，可将粗糙的提示增强为对特定目标的属性表达进行细粒度、连续控制。

2024-04-07 18:37:49 1023

原创（2024，手部生成，关键点热图，修复和外画，SD）Giving a Hand to DM：改进条件人类图像生成的两阶段方法

本文提出一种姿势条件的人类图像生成方法。它分为两个阶段：首先在多任务设置中训练手部生成器，基于关键点热图产生手部图像及其相应的分割掩模；然后，在第二阶段使用调整后的 ControlNet 模型来在生成的手部周围绘制身体。

2024-04-06 06:39:22 1038

原创（2024，手部生成，SMPL，MANO，SD，手部参数）HanDiffuser：具有逼真手部外观的文本到图像生成

HanDiffuser是基于扩散的关注手部生成的架构。它由两个组件组成：一个用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数的T2H扩散模型，，以及一个以先前组件生成的提示和手部参数上为条件合成图像的T-H2I扩散模型。

2024-04-06 04:00:32 729

原创（2024，超分辨率，膨胀卷积和低通滤波，SD）FouriScale：免训练高分辨率图像合成的频率视角

通过结合膨胀和低通滤波来替换预训练扩散模型中原始的卷积层，FS实现跨分辨率生成的结构一致性和尺度一致性，从而可以利用在低分辨率图像上预训练的模型来实现任意尺寸、高分辨率和高质量生成。

2024-04-06 02:10:09 667

原创（2024，LDM，InstructPix2Pix，光流，基于运动的变形模块）Pix2Gif：用于 GIF 生成的运动引导的扩散

Pix2Gif是一种基于图像到图像翻译范式的、由文本和运动幅度提示引导的图像到 GIF（视频）生成模型。它向 IP2P 引入一个包含光流网络的运动引导的变形模块，学习将源图像特征空间扭曲到目标图像特征空间，同时通过感知损失保持视觉一致性

2024-04-02 18:42:13 817

原创（2024，大 dropout 微调，线性近似，线性微调，分布外性能）使用非常大的丢弃率进行微调

涉及多个数据分布的情景最好使用丰富的表示，本文调查使用非常高的丢弃率来获得这样丰富表示。在微调场景中，该方法优于集成和权重平均方法的分布外性能。微调可由一阶近似描述，此时，微调仅利用现有表示无需创建新表示，且可在微调中使用高 dropout

2024-03-30 18:22:17 588

原创（2024，嵌套标记化，区域编码器，上下文编码器，Transformer-XL，Mamba）xT：大图像中更大上下文的嵌套标记化

xT，一个简单的视觉 Transformer 框架，它有效地聚合了全局上下文（上下文编码器）和局部细节（区域编码器），并且可以在当今的 GPU 上端到端地建模大尺度图像（使用嵌套标记器进行预处理）。

2024-03-29 19:02:48 1009

原创（2023，SSM，门控 MLP，选择性输入，上下文压缩）Mamba：具有选择性状态空间的线性时间序列建模

本文提出 Mamba，与 S4 的区别在于：通过组合 H3 与门控 MLP，使参数成为输入的函数，允许模型根据当前输入有选择地沿序列长度维度传播或遗忘信息。它使模型已从时不变变为时变，从而提升了效率。

2024-03-29 16:27:34 956

原创（2024，条件注意力，外观保持，潜在随机混合）StreamingT2V：从文本进行一致、动态且可扩展的长视频生成

本文提出 StreamingT2V，一种生成平滑过渡的长视频的自回归方法，包括：一个短期记忆块，CAM，实现一致的块过渡；一个长期记忆块，APM，防止模型忘记初始场景；以及一个随机混合潜在的方法，避免增强视频时出现块之间的不一致。

2024-03-27 18:44:50 917

原创（2024，SDXL-Turbo，CycleGAN-Turbo，pix2pix-Turbo）使用文本到图像模型的一步图像翻译

本文介绍了一种适用于配对（pix2pix-Turbo）和未配对（CycleGAN-Turbo）设置的一步图像到图像翻译方法。关键思想是通过对抗将预训练的文本条件一步扩散模型，如 SDXL-Turbo，适应到新的领域和任务中。

2024-03-26 20:21:30 602

原创（2023，SDXL-Turbo，少步生成，对抗损失，分数蒸馏损失）对抗扩散蒸馏

本文介绍对抗扩散蒸馏，它使用分数蒸馏来利用现成的大规模图像扩散模型作为教师信号，并结合对抗损失来确保即使只有一到两个采样步骤，图像的保真度也很高。

2024-03-26 19:53:56 793

原创（2024，近似最优输运，Hungarian 算法，噪声-图像匹配，扩散）通过近似最优输运改进基于扩散的生成模型

本文提出 AOT，通过近似和整合最优输运到扩散模型的训练中，来提高模型准确估计去噪器输出的能力。AOT 不依赖于随机采样的噪声，而是利用 Hungarian 算法选择与目标图像更接近的高斯噪声。

2024-03-24 21:00:35 800

原创（2023，图像放大与超分辨率，扩散，缩放堆叠表示，多分辨率混合，多尺度联合抽样）Ten 的生成能力

本文通过联合多尺度扩散抽样，以一种缩放一致的方式，使用预训练T2I扩散模型联合生成对应于一个场景的整个缩放图像集。该方法在每个生成的尺度上都由不同的文本提示引导。

2024-03-23 17:27:45 987

原创（2024，Mamba，DiT，之字扫描与空间连续性）ZigMa：之字形 Mamba 扩散模型

本文提出 ZigMa，通过将 DiT 中的多头自注意力块替换为 Zigzag Mamba 块，在将二次复杂性变为线性复杂性的同时，考虑了空间连续性。

2024-03-22 18:39:31 740

原创（2024，YOSO，自协同学习，扩散 GAN，单步生成）您只需采样一次：通过自协同扩散 GAN 驯服一步文本到图像合成

扩散 GAN 的少量步生成不够高效，本文提出 YOSO，一个单步扩散 GAN 模型。受到协同学习的启发，它构建了一个自协同学习目标。它还使用预训练的T2I扩散模型进行自协同扩散 GAN 的初始化，从而避免昂贵的从头训练。

2024-03-21 05:19:35 775

原创（2022|ICLR，扩散 GAN，少量步扩散，对抗散度，非饱和 GAN）用去噪扩散 GAN 解决生成学习难题

由于少量步去噪无法保证去噪分布的高斯假设成立，本文建议使用多模态分布来建模去噪分布。在训练时，使用对抗损失匹配基于条件 GAN 的真实去噪分布和参数化去噪分布，该对抗损失通过最小化每个去噪步的对抗散度来定义。

2024-03-21 04:48:30 916

原创（2024，EBGAN，扩散，变分近似）通过扩散过程改进基于能量的对抗模型

受扩散模型的启发，本文将 EBM 嵌入到每个去噪步骤中。扩散模型使用马尔可夫链，对于每一步，学习一个条件分布。本文使用变分近似来避免昂贵的蒙特卡洛采样。

2024-03-19 17:24:49 1029

原创（2024，PixArt-Σ，DiT，KV 压缩，超分辨率）用于 4K 文本到图像生成的 DiT 的弱到强训练

本文介绍 PixArt-Σ，一个改进的 DiT，能够直接生成 4K 分辨率的图像。它通过整合高质量数据，从低分辨率模型发展到高分辨率模型。它在 DiT 框架内使用 KV 压缩提高效率。

2024-03-15 14:14:28 836

原创（2024，CogView3，级联架构，中继扩散，超分辨率，线性模糊，蒸馏）通过中继扩散进行更精细、更快的文本到图像生成

本文提出了 CogView3，这是一个使用中继的级联扩散框架：首先在基础阶段创建低分辨率图像，然后从基础阶段生成的结果开始扩散，通过中继进行超分辨率。

2024-03-14 15:49:38 915

原创（2024，SD3，整流流，定制的采样器，DiT）扩展整流流 transformer 以实现高分辨率图像合成

本文改进现有的噪音采样技术，用于训练整流流模型，使其偏向感知上相关的尺度。还提出了一种基于 DiT 的 T2I 结构，它为两种模态使用独立权重，并实现了图像和文本 token 之间的双向信息流。

2024-03-06 17:21:57 690

原创（2024，LayerDiffusion，图层生成与混合，SD，LoRA）使用潜在透明度的透明图像层扩散

本文提出 LayerDiffusion，它学习潜在透明度，将 alpha 通道透明度编码到 SD 的潜在流形中。通过将添加的透明度调节为潜在偏移，最小限度地改变 SD 的原始潜在分布，从而保留生成质量。

2024-03-05 16:38:20 919

原创（2024，sViT，语义分割，SAM，可解释性）具有自然语言语义的 ViT

本文提出 sViT，它利用分割模型 SAM，有效地利用语义信息，创建了类似于 CNN 的归纳偏差，同时捕获了图像中的全局依赖性和上下文信息。

2024-03-05 14:50:57 922

原创（2024，视觉-音频生成，多模态对齐器，ImageBind）视觉和听觉：使用扩散潜在对齐器的开放域视音频生成

本文提出基于优化的框架，用于视觉-音频生成。它在已有的强大模型之间建立共享潜在表示空间，而不是从头开始训练。它使用与预训练的 ImageBind 模型共享相似核心的多模态潜在对齐器，对齐器与分类器引导类似，在推断时指导扩散去噪过程。

2024-03-04 16:43:33 676

原创（2024，随机交叉注意力，冻结预训练模型的 K 和 V）StochCA：一种利用交叉注意力开发预训练模型的新方法

本文引入 StochCA，它修改了 Transformer 的自注意机制，在每个块中，不是进行自注意，而是根据预定义的概率随机执行交叉注意力，其中 key 和 value 从预训练模型的相应块中提取。

2024-03-04 15:26:48 931

原创（2024，LoRA-the-Explorer，并行 LoRA，合并延迟）使用并行 LoRA 从头开始训练神经网络

本文探讨将 LoRA 扩展到模型预训练，引入 LoRA-the-Explorer（LTE），这是一种双层优化算法，旨在实现在计算节点上并行训练多个低秩头，从而减少频繁同步的需求。

2024-03-01 16:59:04 693

原创（2024，动态 LoRA，LoRA Switch，LoRA Composite，组合图像生成）用于图像生成的多 LoRA 组合

现有方法在组合多个 LoRA 时面临挑战。为此，本文提出了两种无需训练的方法：LoRA Switch，它在每个去噪步骤中在不同的 LoRA 之间交替，以及 LoRA Composite，它同时整合所有 LoRA 以引导更一致的图像合成。

2024-03-01 14:57:54 810

原创（2024，MixLoRA，任务干扰，独立因子选择，条件因子选择）使用 LoRA 的条件混合进行多模态指令调优

在多模态指令调优中应用 LoRA 面临任务干扰的挑战，导致性能下降。为此，本文提出 MixLoRA，通过动态构建适应于每个输入实例独特需求的低秩适应矩阵，来减轻任务干扰。

2024-03-01 14:00:30 815

原创（2024，时空 trasnformer，时空视频分词器，自回归动力学模型，潜在行动模型）Genie：生成式交互环境

本文介绍 Genie，首个通过无监督从未标记互联网视频中训练的生成式交互环境。它拥有 11B 参数，包括时空视频分词器、自回归动力学模型，以及潜在行动模型。

2024-02-29 17:21:57 1021

原创（2024，Sora 逆向工程，DiT，LVM 技术综述）Sora：大视觉模型的背景、技术、局限性和机遇回顾

本文根据 Sora 公开的技术报告和逆向工程，全面回顾了该模型的背景、相关技术、应用、尚存的挑战以及文本到视频人工智能模型未来的发展方向。

2024-02-28 17:35:15 685

原创（2023，FreeU，扩散 U-Net，动态缩放因子）扩散 U-Net 中的免费午餐

U-Net 主干有助于去噪，而跳跃连接将高频特征引入解码器模块，导致网络忽视主干语义。基于此，本文提出 FreeU，使用的动态缩放因子缩放特征图，从而提高生成质量，而无需额外的训练或微调。

2024-02-20 15:42:55 712

原创（2024，自级联扩散，关键点引导的噪声重新调度，时间感知特征上采样器）进行廉价的扩展：用于更高分辨率适应的自级联扩散模型

本文提出自级联扩散模型，利用训练好的低分辨率模型，通过集成一系列多尺度上采样模块，自级联扩散模型可以高效适应更高分辨率。它使用基于关键点引导的噪声重新调度，加速推理过程并改善局部结构细节。

2024-02-19 18:11:14 727

原创（2024，CtrlColor，多模态提示，局部颜色操作）控制颜色：基于多模态扩散的交互式图像着色

本文提出 CtrlColor，进行无条件和有条件（文本提示，笔画，示例）图像上色，并在统一框架内解决颜色溢出和不正确的颜色。它有效地编码用户笔画，以实现精确的局部颜色操作，并约束颜色分布，类似于示例。

2024-02-19 16:49:39 651

原创（2024，提示优化，监督微调，强化学习，近端策略优化）用于安全生成文本到图像的通用提示优化器

本文提出用于安全 T2I 生成的通用提示优化器。首先构建一个包含有毒-清洁提示对的数据集来微调 LM。然后设计了一个奖励函数，用于衡量生成图像的毒性和文本对齐度，并通过近端策略优化进行训练。

2024-02-19 15:39:21 1108

空空如也

空空如也