自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

二度

知乎:二度

  • 博客(6)
  • 收藏
  • 关注

原创 腾讯音频+图片=肖像生成 AniPortrait 论文核心

腾讯开源项目AniPortait!音频+图片+肖像视频

2024-04-01 17:33:32 351

原创 EMO论文解读 阿里最新头像视频生成

阿里EMO视频生成

2024-03-01 21:01:31 1199

原创 SDXL-Lightning:字节SDXL加速方案,一步生成1024高清大图,击败SDXL-Turbo,LCM-LoRa

对于渐进式蒸馏的基本方式,是计算teacher-student之间的MSE损失,teacher是使用多个step达到的结果,作为蒸馏的模型,蒸馏到更少步数的students中,一旦学生模型收敛,它就被用作教师模型,并重复蒸馏过程。建立对抗性判别器,计算来自teacher在输入xt和条件c下产生的x(t-ns)的概率,使用非饱和的对抗损失,交替训练判别器和学生模型,鼓励students模型的预测结果x’(t-ns)更接近于teacher模型的预测结果x(t-ns)。使用 MSE时,它表现出模糊的结果。

2024-02-27 10:43:12 1158

原创 关于FLOPS/FLOPs/MACs/MAdds的计算

计算量

2024-02-26 09:12:21 913

原创 DIT: Scalable Diffusion Models with Transformers--Sora/SD3相关DIT技术论文阅读

探索了一种基于transformer架构的新型扩散模型。训练了图像的潜在扩散模型,将常用的 U-Net 骨干替换为在潜在补丁上操作的transformer。通过基于前向传播复杂度的 Gflops 测量来分析扩散transformer(DiTs)的可扩展性。具有更高 Gflops 的 DiTs — 通过增加transformer的深度/宽度或增加输入token的数量会具有较低的 FID。

2024-02-25 17:47:13 1560

原创 多模态音乐生成M2UGen论文解读

M2UGen 模型是一种音乐理解和生成模型,能够进行音乐问答,还可以从文本、图像、视频和音频生成音乐,以及音乐编辑。该模型利用 MERT 等编码器进行音乐理解、ViT 进行图像理解和 ViViT 进行视频理解,并使用 MusicGen/AudioLDM2 模型作为音乐生成模型(音乐解码器),再加上适配器和 LLaMA 2 模型,使该模型能够多种能力。

2024-01-25 19:41:21 854

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除