自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 收藏
  • 关注

原创 LLaVA(NeurIPS 2023, Oral)-图文聊天模型论文解读

LLaVA,NeurIPS 2023,微软研究院出品,展示一种创建语言-图像指令跟随数据集流程,基于此训练LLaVA,在ScienceQA数据集经过finetune后达到SOTA。

2023-12-27 17:33:26 1299

原创 InstructDiffusion-多种视觉任务统一框架

InstructDiffusion,MSRA出品,InstructDiffusion可处理各种视觉任务,包括理解任务(分割、关键点检测)、生成类任务(编辑和增强)

2023-11-29 15:28:37 1322

原创 TopNet-(CVPR2023)前背景图像合成

TopNet,CVPR2023,通过transformer结合目标特征及局部背景特征,预测目标尺度及放置位置,超越现有SOTA方法,并且在真实图片具有泛化性。

2023-11-24 10:50:00 1131

原创 KOSMOS-G-图像文本结合控制生成

KOSMOS-G,微软出品,通过文本及图像结合生成图片

2023-11-14 15:08:14 236

原创 Prompt-To-Prompt——仅通过文本进行图像编辑

Prompt-to-Prompt,google research出品,仅通过prompt,无需mask即可控制进行图像编辑。

2023-09-18 16:01:50 955

原创 InstructPix2Pix(CVPR2023)-图像编辑论文解读

InstructPix2Pix,CVPR2023,加利福尼亚大学,伯克利分校出品,通过引导语即可完成图像编辑

2023-09-06 11:22:37 911

原创 DIFFEDIT-图像编辑论文解读

DIFFEDIT,2022 Meta出品,利用文本进行图像编辑,性能超越SDEdit。

2023-08-24 22:34:56 497

原创 SDXL-Stable Diffusion改进版

Stability AI新作,SDXL,与之前Stable Diffusion相比,生成图像质量大幅提升。

2023-08-07 21:38:20 1550

原创 AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

AnimateDiff,上海AI实验室出品,可将大多数个性化文生图模型进行视频生成,基于简单设计的运动建模模块,在大量视频数据学习运动先验,插入个性化文生图模型用于生成自然合理的目标域动图。

2023-07-30 22:20:04 6699 2

原创 ONE-PEACE论文解读

达摩出品,ONE-PEACE作为一种易扩展的跨模态泛化表征模型,可对齐和集成视觉、语音、语言模态表征,实验结果表明,在多个任务达到前沿效果:图像分类、语义分割、音频-文本检索、音频问答、图文检索、visual grounding。同时具有一定zero-shot检索能力,即使训练集数据模态非成对,也能够对齐模态。

2023-07-22 23:04:38 468

原创 gen1-视频生成论文阅读

gen1,Runway出品,作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次ts控制结构保留度。

2023-07-03 21:16:47 1260

原创 sed文本操作

sed常见文本处理操作

2023-06-27 21:17:27 160

原创 DreamBooth论文解读

DreamBooth,Google Research出品。仅需要3-5张目标图片,通过prompt引导就可生成该目标变体。

2023-06-19 22:55:36 1929

原创 DragGAN论文阅读

作者提出DragGAN,一种交互式基于点的图像编辑方法,可以依据用户输入操纵图像。这归因于两点:a. 隐向量优化模块,将处理点移动至目标点;b. 点跟踪模块准确跟踪处理点轨迹。DragGAN超越现有基于GAN的图像操纵方法,同时开拓新方向,利用生成先验进行图像操纵。

2023-06-13 22:23:22 642

原创 BLIP使用教程

BLIP hugface API调用demo

2023-06-04 22:56:59 2724 1

原创 万物分割SAM使用教程

万物分割SAM使用教程,支持框、点、文本输入

2023-05-30 22:46:40 934 1

原创 CLIP使用教程

本地调用Hugging Face中CLIP API教程

2023-05-23 22:58:47 3310

原创 多条件引导图像生成-ControlNet安装使用

分割、pose等条件+文本引导图像生成,ControlNet使用教程

2023-05-16 23:18:25 479 2

原创 利用文本描述替换万物(Inpaint-Anything-Description)

Inpaint-Anything-Description,通过文本描述替换目标

2023-05-05 21:59:22 826 1

原创 SAM(2023)-分割万物

Meta新作,SAM通过point、box、text提示进行万物分割

2023-04-26 20:09:14 2937

原创 Grounding DINO-开集目标检测论文解读

Grounding DINO在COCO数据集上零样本检测达到52.5AP,在COCO数据集finetune后达到63AP。

2023-04-15 13:56:18 9841 9

原创 Latent Diffusion(CVPR2022 oral)-论文阅读

LDM,CVPR22022 oral。作者提出的LDM在不降低质量情况下,大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域,不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。

2023-04-08 09:04:39 1750 3

原创 SadTalker(CVPR2023)-音频驱动视频生成

SadTalker CVPR2023,作者利用3DMM运动系数作为中间表征,学习其与视频之间关系。

2023-03-19 21:19:47 2376

原创 ControlNet-有条件图文生成论文阅读

ControlNet 可以控制大的预训练扩散模型支持额外输入条件,ControlNet端到端的方式学习特定任务条件,即使训练集小(

2023-03-08 21:14:02 3359

原创 BLIP2-图像文本预训练论文解读

BLIP-2,基于现有的图像编码器预训练模型,大规模语言模型进行预训练视觉语言模型;BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap,第一阶段从冻结图像编码器学习视觉语言表征,第二阶段基于冻结语言模型,进行视觉到语言生成学习;BLIP-2在各种视觉-语言模型达到SOTA。比如在zero-shot VQAv2上超越Flamingo80B 8.7%,也证明该模型可以根据自然语言指引进行zero-shot图像到文本生成;

2023-02-26 11:25:52 10427 11

原创 YOLOv6-3.0-目标检测论文解读

YOLOv6-v3.0,YOLOv6进一步改进,在实时目标检测领域达到SOTA;

2023-02-21 21:30:21 2515 1

原创 YOLOv6-目标检测论文解读

YOLOv6在实时目标检测领域取得SOTA性能,超越YOLOX、PP-YOLOE、YOLOv5

2023-02-19 11:05:54 2755

原创 BERT(NAACL 2019)-NLP预训练大模型论文解读

BERT NAACL 2019 NLP预训练大模型

2023-02-11 16:13:55 595 3

原创 HumanNeRF(CVPR2022 oral)-人体重建论文阅读

CVPR2022 HumanNeRF给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体;

2023-02-05 13:46:20 2258 3

原创 AIParsing(TIP2022)-人体解析论文阅读

TIP2022 人体解析SOTA AIParsing

2023-01-17 19:11:46 710 1

原创 DALLE2-文本图像生成

DALLE2,文本引导图像生成,OpenAI出品

2023-01-03 22:29:01 1827

原创 NAFNet(ECCV 2022)-图像修复论文解读

图像修复新结构NAFNet,非线性激活函数非必须

2022-11-15 09:52:03 7120 4

原创 Parsing R-CNN(CVPR2019)-人体实例分析论文解读

本文提出Parsing R-CNN可进行实例级人体分析,在CIHP、MHP v2.0、DensePose-COCO数据集取得SOTA,获得COCO2018挑战赛冠军;

2022-09-12 23:06:41 833 7

原创 wFlow(CVPR2022)-虚拟试衣论文解读

CVPR2022,字节&中山大学,提出wFlow,引入3D信息,达到SOTA效果,尤其在自然场景

2022-08-26 15:06:13 2590 5

原创 PHORHUM(CVPR2022)-3D重建论文解读

CVPR2022 Google Research成果,通过一张RGB图片完成人体三维重建,并且带有颜色信息

2022-08-17 23:10:45 1067

原创 SCHP(CVPR2019)-人体解析论文阅读

SCHP自纠正人体解析算法,CVPR2019 LIP挑战赛第一名

2022-08-09 22:59:56 1718 1

原创 人体解析(Human Parse)开源数据集整理

Human Parse开源数据集整理

2022-08-07 09:54:48 3933 2

原创 CLIP论文解读

CLIP利用自然语言监督视觉进行预训练,迁移至下游任务取得不错效果,实现文本图像至今跨模态;

2022-07-31 23:00:44 1733

原创 TPS Motion(CVPR2022)视频生成论文解读

本文提出无监督TPS Motion取得SOTA,1、提出thin-plate spline(TPS)运动估计,以生成更灵活光流,将源图特征迁移至目标图特征;2、为了补全缺失区域,使用多分辨率遮挡mask进行有效特征融合。3、额外辅助损失函数用于确保网络各模块分工,使得生成高质量图片;...

2022-07-24 13:12:18 3011

原创 Few-shot Video-to-Video(NeurIPS 2019)视频生成论文解读

few-shot vid2vid,通过基于样例图片的动态生成权重机制,提升视频生成泛化能力。

2022-07-17 13:55:15 626

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除