David___yu-CSDN博客

原创数字人动作生成方法

为了获得图像空间中的姿态相似性，对于每一帧m，根据已知的相机参数将拟合的3D SMPL人体网格投影到图像空间中，并将投影后在图像上可见的网格表面标记为Sm，对于每一对帧(m,n)，图像空间不相似性通过它们的共同可见表面积之间的相交结合来估计：d_img(m,n) = 1 – (Sm ∩ Sn)/(Sm ∪ Sn).相似度约低，IoU越高，两个曲面重合区域越大，表征渲染图像之间有更高的姿态相似性。作者分析参考视频的语音，并检测音频起始峰以及一组来自其文本的关键字，作为添加到视频运动图上相应节点的音频特征。

2024-04-23 10:34:07 330

原创 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

IP-Adapter的工作是非常有意义的，它引入了一个轻量的Adapter网络，仅仅需要额外训练多一倍的交叉注意力层，就可以实现很好的图像提示，而且这一添加还可以在前向时关闭，同时具备泛化能力，对于后续InstantID等工作都有很好的指导作用，也让我们思考可以使用添加额外交叉注意力层的形式来进行更多模态的加入，非常有意义。图像特征通过调制模块中的解耦交叉注意力层加入到预训练文生图模型的UNet中，在原始的SD模型中文本特征是经由CLIP文本编码器，再通过交叉注意力层加入到UNet中的：给定一个查询向量。

2024-04-12 15:51:51 523

原创 T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

作为早期对文生图模型进行控制生成的工作，T2I Adapter的工作确实是很有价值的，在后续的IP-Adapter、ControlNet以及一些基于参考图像、控制信号进行视频生成的工作中都可以看到该研究的影子，学习一下对于更好理解现在一些基于SD的文生图、图生图、视频生成等研究工作有很好的指导意义。为了增强Adapter的训练，作者采用了非均匀采样以增加t在采样前期下降的概率，作者采用三次函数作为t的分布，作者将所设计的非均匀与均匀采样进行了比较，从图中可以看到非均匀采样弥补了均匀采样控制力弱的问题。

2024-04-08 19:45:41 656

原创 AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

该框架包含两个阶段：Audio2Lmk和Lmk2Video，第一阶段从给定的音频输入提取得到一系列表征人脸表情和嘴部运动的landmark序列，第二阶段使用这一landmark序列来生成高质量、时序稳定的人物视频。所有的图片都被resize到512x512的大小，采用4张A100 GPU用于模型训练，两步训练都分别用了两天，训练中使用AdamW优化器，以及一个恒定的学习率，1e-5。特别指出的，是该工作在网络中重新设计了姿态引导模块，这一设计既保持了轻量化的设计，而且在产生唇部运动时也展示出更高的精度。

2024-04-02 11:08:00 632 2

原创 VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

但是从项目的主页来看似乎效果也有很多问题，可能第一个对于MENTOR这么大的数据集，音画同步的检查作者并没有提，这可能是影响最终质量的非常关键因素，另外在包含上半身的情况下基础模型的分辨率仅仅只有128x128，未免显得太小，使得模型对于面部尤其是口型的生成区域占比过小，生成效果变差。相较于之前的工作，该工作不再需要对每个人物进行特定的训练，不再依赖于脸部检测和裁剪，而是直接能生成完整的图像（而不仅仅是面部和嘴唇），同时考虑了广泛的场景（包含可见的身体或者多样的。模型通常难以生成一致的人类图像，比如眼睛。

2024-03-25 14:01:06 921

原创 EMO: Emote Portrait Alive

然后是去噪阶段，一个预训练好的音频编码器处理得到音频嵌入，表征人脸区域的mask与多帧噪声信号一起来控制人脸区域的生成，这一阶段中使用Backbone Network主干网络来进行去噪。这一阶段故意忽略了音频层，原因是表情、嘴部运动、头部运动频率主要受音频的影响，这些元素之间存在关联性，如果不忽略音频层，模型可能错误的学习到使用运动信号来控制这些运动，实验结果也证实了这一猜测。对于最初的视频片段的生成，使用。考虑头部旋转速度wf。的启发使用了帧维度上的自注意力机制，结合任务性质，又做了修改，将之前生成的。

2024-02-29 14:48:18 1849

David___yu的博客

原创数字人动作生成方法

原创 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

原创 T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

原创 AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

原创 VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

原创 EMO: Emote Portrait Alive

原创手动添加开机启动项

原创数据结构专题——二叉树的遍历（先序遍历、中序遍历、后序遍历、层序遍历）

原创数据结构专题——二叉树的存储结构与基本操作

原创冒泡排序的简单实现

转载 C/C++中传递数组参数的问题

空空如也

空空如也