- 博客(743)
- 资源 (54)
- 收藏
- 关注
原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】
手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析
2021-07-28 11:58:34 4472 51
原创 个人博客汇总【持续更新】
算法系列最后我大致分成五类汇总,可能分的不是特别全,之前写过的“牛客OJ”、“PAT系列”等就停更了。换过好几个OJ,最后还是觉得LeetCode平台更合适一些,其他几个OJ的刷题笔记就停更了。Qt/PyQt整个写了快一百篇,虽然暂时不会更新,但是以后说不定会捡起来?毕竟是搞EE出身的,虽然90%的知识现在用不上了,但是那段时间还是很享受……剑指offer上面有很多题很有启发,上面的题还没有全部弄透,会持续更新的。之前整理的基础系列,由于分类总结的效果不太理想,非永久性停更。还有一些数据库相关的笔记。
2020-05-27 11:24:13 1137 12
原创 经典必刷LeetCode汇总
LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...
2020-04-12 15:04:05 3702 2
原创 手把手写深度学习(24):用SAM通过文本提示分割mask图片
在生成任务中,通过对mask区域进行生成可以有更好的可控性,是AIGCer必备的技能之一。这篇博客手把手带读者基于SAM完成一个通过文本提示词的分割图片,打上mask,方便后续用diffusion models重建。
2024-03-26 15:15:21 592 2
原创 详细解读开源版Sora视频生成模型Latte
OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。
2024-03-24 07:45:00 822 2
原创 CVPR 2024中有哪些值得关注的视频生成和视频编辑方向的论文?
轰轰烈烈的CVPR 2024所有accept paper已经全部公开,随着Sora的爆火,视频生成和视频编辑是目前计算机视觉最火热的方向,受到了很多人的关注。这篇博客就整理盘点一下有哪些值得关注的视频生成和视频编辑方向的论文?值得做这个方向的小伙伴收藏学习。
2024-03-21 10:28:20 900 8
原创 深度解读:如何解决Image-to-Video模型视频生成模糊的问题?
目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成模糊的问题。
2024-03-18 11:20:21 977 22
原创 手把手写深度学习(23):视频扩散模型之Video DataLoader
训练自己的视频扩散模型的第一步就是准备数据集,而且这个数据集是text-video或者image-video的多模态数据集,这篇博客手把手教读者如何写一个这样扩散模型的的Video DataLoader。
2024-03-13 11:10:34 885 6
原创 解读电影级视频生成模型 MovieFactory
MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》
2024-03-07 14:06:57 970 6
原创 解读电影级视频生成模型 MovieFactory
MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》
2024-03-07 10:35:02 213 4
原创 Diffusion Models/Score-based Generative Models背后的深度学习原理(6):噪声对比估计
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然、噪声对比估计等方面,总结一些经典的知识点,供读者参考。
2024-03-04 08:30:00 990 4
原创 Diffusion Models/Score-based Generative Models背后的深度学习原理(5):伪似然和蒙特卡洛近似配分函数
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然等方面,总结一些经典的知识点,供读者参考。
2024-03-01 10:41:09 814 6
原创 Diffusion Models/Score-based Generative Models背后的深度学习原理(4):随机最大似然和对比散度
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然等方面,总结一些经典的知识点,供读者参考。
2024-02-27 16:35:07 822 8
原创 手把手写深度学习(22):视频数据集清洗之过滤静态/运动程度低的数据
当我们训练自己的视频生成模型时,现在大部分基于扩散模型架构都差不多,关键点在数据上!视频数据的预处理远远比图像数据复杂,其中有一点是如果静态数据、运动程度低的数据加入到数据集中,会对模型的效果产生极大的破坏!这篇博客手把手教读者如何清洗掉这些不合格的数据。
2024-02-24 16:36:51 838 2
原创 解读2023年最火的视频生成模型:AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models
2023年已经悄然过完,是时候盖棺定论了。这一年视频生成取得了长足的发展,特别是下半年进入了成果井喷的阶段,谷歌、Meta、阿里等很多大厂都发布了自己的研究成果。但是AnimateDiff作为在SD WebUI中最火的视频生成插件,收到了最多的关注,当之无愧是2023年最火的视频生成模型,这篇博客就想洗解读一下《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》这篇论文。
2024-02-21 16:38:56 445 8
原创 解读OpenAI视频生成模型Sora背后的原理:Diffusion Transformer
OpenAI最近推出的视频生成模型Sora效果上实现了真正的遥遥领先,很多博主都介绍过Sora的效果,但是深入解读背后原理的博客却非常少。Sora的原理最主要的是核心模型主干《Scalable Diffusion Models with Transformers》和训练不同尺寸视频方法《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》。这篇博客详细解读Diffusion Transformer结构,
2024-02-18 11:46:37 2395 6
原创 代码解读:Stable Video Diffusion 中对运动程度的控制
在SVD中,对运动的控制可以分成对镜头运动的控制和对内容运动的控制,这篇博客详细通过代码讲解如何对内容运动的控制。
2024-02-15 11:26:19 532 2
原创 为什么说 2023 年是 AI 视频生成的突破年?2024 年的 AI 视频生成有哪些值得期待的地方?
2023年是AI 视频生成的突破年,AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?
2024-02-12 10:40:26 996 10
原创 详细解读上海人工智能实验室视频生成代表作PIA:Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image
今天是除夕夜,先祝读者们除夕快乐!上海人工智能实验室open-mmlab在开源AIGC领域推出过很多良心开源项目,在视频生成时代,open-mmlab推出了自己的代表作《PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models》,能够实现Text+Image-to-Video,并且能够支持很多个性化风格的生成。这篇博客就详细解读一下PIA背后的原理和实现代码。
2024-02-09 11:20:08 1337 15
原创 解读谷歌视频生成模型代表作:Lumiere A Space-Time Diffusion Model for Video Generation
前段时间谷歌发布了基于LLMs的视频生成模型VideoPoet,这种信仰Transformers的做法就很Google。大家都以为2024年视频生成会是LLMs和SD两条路线之争,但是谷歌很快就发布了基于SD的视频生成模型Lumiere,这波直接偷家了?这篇博客详细解读Lumiere的改进点和带给我们的启示。
2024-02-05 10:21:23 513 10
原创 解读2023年最火的视频生成模型 AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models without
2023年已经悄然过完,是时候盖棺定论了。这一年视频生成取得了长足的发展,特别是下半年进入了成果井喷的阶段,谷歌、Meta、阿里等很多大厂都发布了自己的研究成果。但是AnimateDiff作为在SD WebUI中最火的视频生成插件,收到了最多的关注,当之无愧是2023年最火的视频生成模型,这篇博客就想洗解读一下《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》这篇论文。
2024-02-01 11:22:21 122 14
原创 详细解读腾讯视频生成代表作:VideoCrafter2 Overcoming Data Limitations for High-Quality Video Diffusion Models
现在国内各个互联网大厂在视频生成领域的竞争相当激烈,腾讯的代表作当属VideoCrafter系列了。从2022年的Make-A-Video开始,学术界对视频生成的共识是T2I模型提供内容生成能力,时间模块提供运动能力,视频生成的难点在于运动能力的学习。这一观点在AnimateDiff中达到顶峰。然而在VideoCrafter2在论文中通过大量的对比实验,证明了微调空间层的优越性。这篇博客详细介绍这篇腾讯视频生成的代表作。
2024-01-28 18:01:47 521 2
原创 【ICLR 2024】解读MotionDirector:双路径LoRAs架构解耦外观和运动
在stable video diffusion论文中提起过Motion LoRA控制镜头的移动,其实这个Idea在ICLR 2024的论文《MotionDirector: Motion Customization of Text-to-Video Diffusion Models》当中就有被提出。这篇博客就和读者一起解读这篇论文。
2024-01-25 10:51:35 90 2
原创 手把手写深度学习(1):WebVid-10M数据清洗之文字/水印检测清洗-复现Stable Video Diffusion论文
WebVid-10M是做Diffusion Models视频生成必不可少的数据集。这个数据集明显的特点是有水印,还有少量文字,这些都需要在数据清洗的过程中处理了。这篇博客将从实战出发,手把手教大家如何清洗WebVid-10M中的水印和文字。
2024-01-22 15:13:28 447 2
原创 视频生成的路线之争:基于LLMs 和 基于SD 的技术路线孰优孰劣?
在 AI 领域,近年来各个子领域都逐渐向 transformer 架构靠拢,只有视觉生成领域一直以 diffusion 结构作为主流方向,但是近年来谷歌、Meta、华为等大厂都在尝试使用基于LLMs的结构完成视觉生成任务。相比于趋于成熟的图像生成任务,视频生成任务是当下最火爆最具探索意义的方向。那么视频生成的最终路线还会由SD统治吗?基于LLMs的技术路线是否能颠覆基于SD的技术方案?这两种技术方案各自有哪些优点和缺点?
2024-01-19 10:57:03 672 2
原创 如何对Diffusion Models进行模型量化?
模型量化作为常用的模型小型化技术,在大语言模型、搜广推模型上取得了巨大的成功,但是在Diffusion Models为代表的视觉生成模型上尚处于探索阶段。在CVPR2023、ICLR 2023、ICML 2023、ICCV 2023上新上架了不少关于量化Diffusion Models的论文,这篇博客就一并总结相关的技术,希望能对读者们有所启发。
2024-01-16 10:45:26 1091 3
原创 代码解读:如何微调Stable Video Diffusion?
Stable Video Diffusion是目前已开源的视频生成模型中效果最好的,微调Stable Diffusion图像模型的教程非常多,但是微调Stable Diffusion视频模型的教程几乎没有。这篇博客给出微调视频扩散模型的代码教程,希望能对读者们有所启发。
2024-01-13 14:46:44 727 4
原创 2024年AIGC趋势展望:视频生成的“百模大战”
可控视频生成的应用场景将远远多于可控图片生成,直观上感觉受到冲击最大的是短视频公司,比如最近爆火的生成小姐姐跳舞视频(通义千问-全民舞王),效果距离真人实拍差距已经不大了。2023年工业场景下落地最多应该是可控图像生成了,不少大厂专门成立了专门的智能创作部门,比较成功的有电商图创作、海报创作、家装图生成、用户发帖辅助创作、证件照生成、图片美化等,背后的技术大部分是lora/dreambooth/controlnet等,最核心护城河还是用于finetune的高质量数据。
2024-01-10 16:58:32 1697 8
原创 2024年Diffusion Models还有哪些方向值得研究(好发论文)?
笔者follow扩散模型的科研进展已经将近3年了,见证了diffusion从无人问津到炙手可热的过程。当下扩散模型还有哪些缺点?还有哪些需要改进的方向?还有哪些方向值得研究?还有哪些方向好发论文?不知不觉时间已经来到了2024年,一年前写的博客《2023年Diffusion Models还有哪些方向值得研究(好发论文)?》有些内容已经过时了,这篇博客大胆展望一下2024年扩散模型的发展方向。
2024-01-07 12:24:10 1598 11
原创 Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet
视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业界带来特别有影响力的工作。最近谷歌出手了,拿出了Decoder-Only结构视频生成模型,堪称王炸!华为曾经出过Decoder-Only的模型(还被群嘲过),但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成token
2023-12-27 07:45:00 1912 19
原创 解决gradio中Button.click长时间没有返回的问题
其他部分的代码不重要,重要的是我在trainer.run函数当中执行了我的模型训练逻辑,然后……就一直卡在返回的地方……我猜测是launch姿势不正确,造成了阻塞,导致事件的信号一直等待结束,没有返回。如果把模型训练的逻辑注释掉,能正常返回!
2023-12-24 23:59:57 523 2
原创 解读vid2vid-zero:Zero-shot 视频编辑
论文《Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models》中首次提出了Zero-shot 视频编辑任务,开辟了一个新的领域。现在有越来越多的Zero-shot 视频编辑论文,乱花渐欲迷人眼,这篇博客先解读一下这篇开山论文。
2023-12-21 16:09:19 753 8
原创 【CVPR 2023】解读LFDM:Conditional Image-to-Video Generation with Latent Flow Diffusion Models
LFDM通过流预测器分解latent和mask映射到flow域,大幅度降低了视频合成的成本,并且是为数不多的image-to-video的工作,很多做法非常值得借鉴,这篇博客重点讲解一下这篇文章《Conditional Image-to-Video Generation with Latent Flow Diffusion Models》。
2023-12-15 10:22:50 623 6
原创 【CVPR 2022】解读 Controllable Animation of Fluid Elements in Still Images:光流法视频生成
用户输入箭头,就能让图像动起来,这是经典的Animating任务。CVPR 2022中的一篇经典论文《Controllable Animation of Fluid Elements in Still Images》使用光流法做这种image-to-video任务,很多做法值得借鉴,这篇博客详细这篇论文。
2023-12-12 10:34:02 701 4
2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip
2020-01-08
2019年西安电子科技大学《自动控制原理》期末试卷
2020-01-08
2019年全国大学生电子设计大赛B题所有源代码
2019-08-12
电子信息/通信/计算机专业 保研资料汇总
2021-05-28
中国大学生计算机设计大赛·国家级一等奖作品·资料汇总
2021-05-19
ShapeNet数据集
2021-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人