自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 EMNLP2021 | DeepBlueAI团队少量数据关系抽取论文被录用

近日,EMNLP 2021在官网提前公布了今年的论文审稿结果,DeepBlueAI团队的论文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被录用。该论文提出了在低资源关系提取任务中融合同类别样本间句子相关性信息和关系标签语义两个方面的信息的方法,并在多个关系提取类任务的公开数据集的实验中得到了SOTA结果。EMNLP(全称Conference on Empirical Metho

2021-11-09 17:42:25 2357

原创 目标检测 - 主流算法介绍 - 从RCNN到DETR

目标检测是计算机视觉的一个非常重要的核心方向,它的主要任务目标定位和目标分类。在深度学习介入该领域之前,传统的目标检测思路包括区域选择、手动特征提取、分类器分类。由于手动提取特征的方法往往很难满足目标的多样化特征,传统方法始终没能很好的解决目标检测问题。深度学习兴起之后,神经网络可以从大量数据中自动学出强大的特征提取和拟合能力,因而涌现出很多性能优良的目标检测算法。基于深度学习的目标检测方法大致可分为三类——双阶段目标检测、单阶段目标检测、基于transformer的目标检测,本文将分别介绍这三

2022-03-18 17:33:29 6915

原创 【CVPR2022】MPViT :用于密集预测的多路径视觉变换器

论文链接:https://arxiv.org/abs/2112.11010代码链接:https: //git.io/MPViTIntroduction 在这项工作中,作者以不同于现有Transformer的视角,探索多尺度path embedding与multi-path结构,提出了Multi-path Vision Transformer(MPViT)。 通过使用 overlapping convolutional patch embedding,MPViT同时嵌入相同大小的p

2022-03-11 17:12:49 4039

原创 分享 | M4C多模态transformer对TextVQA进行迭代式答案预测

最近的工作探索了TextVQA任务,该任务需要阅读和理解图像中的文字来回答问题。然而,现有的TextVQA的方法大多是基于两对模态之间的自定义成对融合机制,并且通过将TextVQA作为一个分类任务来限制在一个单一的预测步。在这项工作中,我们为TextVQA任务提出了一个新的模型,该模型基于一个多模态transformer架构,并伴随着图像中文本的丰富表示。原文:Iterative Answer Prediction with Pointer-Augmented Multimodal Transfor

2022-03-10 18:30:25 812

原创 【论文笔记】VAN,干掉了CNN和ViT的最新架构

在本文中,提出了一种新的大核注意力large kernal attention(LKA)模型, LKA吸收了卷积和自我注意的优点,包括局部结构信息、长程依赖性和适应性。同时,避免了忽略在通道维度上的适应性等缺点。作者进一步介绍了一种基于LKA的新型神经网络,即视觉注意网络(VAN)。VAN在图像分类、目标检测、实例分割、语义分割方面,都”远远超过了”SOTA的CNN和视觉transformer。原文地址:https://arxiv.org/abs/2202.09741相关工作CNN学

2022-03-09 18:09:34 1434 1

原创 联邦学习 | Non-IID数据 论文:测量联邦视觉分类中不相同数据分布的影响

主要内容:1、基于迪利克雷分布,提出了一种FL中Non-IID数据的生成方法;2、对不同程度的Non-IID数据下,进行了较多的对比试验,研究客户端数据量、本地迭代轮数、学习率等参数对性能的影响;3、提出了一种基于动量的解决方案,可以有效缓解Non-IID带来的性能下降。论文地址:https://arxiv.org/pdf/1909.06335.pdf01 Introduction 介绍介绍了一下FL和Non-IID数据的背景知识,不清楚的小伙伴可以看之前的文章。02

2022-03-07 18:09:15 3278

原创 分享 | 实时风格转换和超分辨率的感知损失

网络模型组成部分网络模型总体分为两部分:Image Transform Net和VGG-16 Image Transform Net是参数W待训练的网络 VGG-16是已经预训练好参数的网络 工作原理(1) 输入为 : 原始图像x 风格目标图y_s 内容目标图y_c (2) Image Transform Net作用: 将原始图像x经过Image Transform Net得到输出图像 映射关系为: y^ = Fw(x)

2022-03-04 18:48:01 445

原创 OCR文本识别之ACE loss论文解读(better than CTC,attention)

前段时间拜读了微信AI在OCR领域的一篇技术报告,其中有一个文本识别方向挺有意思的实践是在训练识别网络的时候,利用CNN+BLSTM提取文本行的序列特征,同时采用muti-head的结构,在训练时,以CTC为主,Attention Decoder和ACE辅助训练。在预测时,考虑到速度和性能,只采用CTC进行解码预测,具体的网络结构如下。图1 muti-head ctc+attetion+ace识别网络笔者最近正在进行复现该技术报告的相关工作,在此之前,因为对ACE loss的了解并不深入,特地.

2022-03-03 17:49:31 1278

原创 WACV 2021| FPN中用于微小目标检测的有效融合因子

基于FPN的探测器在一般目标检测方面取得了显著的进展,如MS COCO和PASCAL VOC。然而,这些检测器在某些应用场景下会失败,例如,微小物体检测。本文认为,FPN中相邻层之间的自顶向下连接为微小目标检测带来了双面影响,而不仅仅是正面影响。我们提出了一个新的概念,fusion factor,以控制信息从深层传递给浅层,以适应FPN的微小目标检测。通过一系列的实验和分析,我们探讨了如何通过统计的方法来确定某一特定数据集融合因子的有效值。该估计依赖于分布在每一层的对象数量。在微小物体检测数据集,如Ti

2022-03-02 19:01:53 2680

原创 论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?

自监督 ResNets 能否在 ImageNet 上没有标签的情况下超越监督学习?在本文中将介绍最近一篇推动自监督学习状态向前发展的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“

2022-03-01 16:57:16 262

原创 分享 | 防御物理上可实现的图像分类攻击

作者研究了保护用于图像分类的深度神经网络方法免受物理可实现攻击的问题。首先,证明了可学习的鲁棒模型的两种最具可扩展性和最有效的方法(PGD 攻击的对抗训练和随机平滑),对三种最引人注目的物理攻击的效果非常有限。论文信息原文链接:https://arxiv.org/abs/1909.09552原文开源代码:https://github.com/tongwu2020/phattacks解决的问题接下来,作者提出了一种新的抽象对抗模型,矩形遮挡攻击(rectangular occlusion.

2022-02-28 17:46:42 1199

原创 Cascade EF-GAN: 局部聚焦渐进式面部表情编辑

目前面部表情编辑存在的问题:生成性对抗网络(GAN)的最新进展表明,面部表情编辑有了显著的改进。然而,当前的方法仍然容易在表达密集型区域周围产生伪影和模糊,并且在处理大间隙表达转换(例如从愤怒到大笑的转换)时,经常引入不希望的重叠伪影。本文提出的方案(1)为了解决这些局限性,我们提出了Cascade Expression Focal GAN(Cascade EF-GAN),这是一种新的网络,可以使用局部表情焦点进行渐进式面部表情编辑。局部聚焦的引入使Cascade EF-GAN能够更好地保留眼睛、鼻

2022-02-25 18:05:11 851 2

原创 Self-Attention 加速方法一览:ISSA、CCNet、CGNL、Linformer

Attention 机制最早在NLP 领域中被提出,基于attention 的transformer结构近年在NLP的各项任务上大放异彩。在视觉任务中,attention也收到了很多的关注,比较有名的方法包括Non-Local Network,能够在时空volume中对全局的关系进行建模,获得了很好的效果。但视觉任务中的self-attention模块通常需要进行大矩阵的矩阵乘法,显存占用大且比较耗时。所以近年有许多优化self-attention模块速度的方法,这篇笔记主要讨论几篇相关方法,有错误之处欢迎

2022-02-23 16:30:19 889

原创 逆向思维:卡通照片真人化

之前PaddleGAN的趣味应用如雨后春笋般地出现,非常多的项目都是xxx动漫化。当时就有一个很普通的想法为什么大家都会去搞动漫化,这很可能是因为二次元文化的原因,又或者是动漫化的应用、商业价值。就突然蹦出一个想法,为什么没人弄动漫真人化呢,然后我就去项目搜了,结果确实貌似没有人做这个项目。刚开始我以为我这个想法实现起来很难,到后面和大神们讨论后,其实觉得实现原理也很简单,就是把人像动漫化的数据集里面的标签互换。比如人像卡通化,就是A to B(A是真人,B是动漫,B是标签)。那么此次这个项目卡通人像化

2022-02-22 17:26:08 899 1

原创 2021 ICCV论文分享 | 遮挡边界检测

这篇文章实际上正好解决了我想了好久的多种边界类型判断的问题。创新不大,但是解决问题的角度很好。这篇文章实际上正好解决了我想了好久的多种边界类型判断的问题。而且恰好我目前的数据集是可以做这个的,因此读一下。文章信息作者:Mengyang Pu, Yaping Huang, Qingji Guan, Haibin Ling (BJU & SBU)来源:2021 ICCV原文:https://openaccess.thecvf.com/content/ICCV2021/papers/.

2022-02-18 15:47:26 3286

原创 盘点 | ICLR 2022 迁移学习,视觉Transformer文章总结

ICLR 2022一些评分较高比较有意思的,或者偏DG的paper。01 Oral——A Fine-Grained Analysis on Distribution Shift文章来自ICLR 2022 Oral: A Fine-Grained Analysis on Distribution Shift模型对 distribution shifts的鲁棒性在部署时非常重要,域泛化(domain generalization)就是专门研究这个问题的领域。虽然DG已经涌现出了非常多的研究工作,但是

2022-02-15 15:11:45 1540

原创 AAAI2022-ShiftVIT: When Shift Operation Meets Vision Transformer

论文:【AAAI2022】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism代码:https://link.zhihu.com/?target=https%3A//github.com/microsoft/SPACHB站作者讲解视频:https://www.bilibili.com/video/BV1a3411h7su研究动机这个工作是使用一..

2022-02-14 19:01:12 438

原创 跨模态检索 | Visual Representation Learning

这篇论文最近被TCSVT接收,其主要任务为视频文本检索,并主要针对于视频特征表示学习。由于人们阅读时,通常会首先阅读概述,然后在进行精读,受这一阅读策略的启发,本文提出了一种视频特征学习方法(RIVRL)来表示视频, 它包含两个分支:一个预览分支和一个精读分支,顾名思义,预览分支用来捕捉视频的概述信息,精读分支用来捕捉视频中更加深层次的信息。然而在该任务中,如图1所示,类似的视频特征学习的多分支范式往往都是独立的,然而作者认为,尽管这种方法取得了很好的性能,但作者认为这样的独立多分支范式是次优的。根

2022-02-14 18:01:34 1568

原创 分享|Jointly Pre-Training Transformers on Unpaired Images and Text

最近本专栏都在介绍多模态机器翻译,而近期多模态联合表示的工作很火热,笔者也准备和大家一起学习学习最新期的几篇论文。今天讲的这篇Google的工作利用知识蒸馏,把BERT和ViT的能力蒸馏到一个新模型上,使得这个新模型能够同时表征文本和图片。论文信息名称:Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text作者:Qing Li, Boqing Gong,

2022-02-11 18:35:00 150

原创 分享 | 引导语言图像预训练,实现统一的视觉语言理解和生成

视觉语言预训练(VLP)已经提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外,性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。在本文中,我们提出了BLIP,一个新的VLP框架,它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据,其中一个描述生成器生成了合成的图像描述,一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果.

2022-02-10 18:54:10 2027

原创 [NIPS2021]MLP-Mixer: An all-MLP Architecture for Vision

卷积神经网络(CNN)是计算机视觉的首选模型。最近,基于注意力的网络(例如ViT)也变得很流行。在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。文章介绍了MLP-Mixer,这是一种仅基于多层感知机(MLP)的体系结构。MLP-Mixer包含两种类型的层:一种具有独立应用于图像patches的MLP(即“混合”每个位置特征),另一种具有跨patches应用的MLP(即“混合”空间信息)。论文地址:https://arxiv.org/pdf/2105.01601.pdf..

2022-02-10 14:19:07 1722

原创 [AAAI 2021 时序动作提名生成] BSN++长文详细解读

论文链接:https://arxiv.org/abs/2009.07641论文代码:https://github.com/xxcheng0708/BSNPlusPlus-boundary-sensitive-network(非官方!)原作者Haisheng Su解析:https://zhuanlan.zhihu.com/p/344065976注意:论文没有官方的源码开源,下文中的代码都是摘录至非官方实现版本,精度与原文还是有不少差距。代码可能存在出入,仅供参考!!!前情回顾和引入问题..

2022-02-09 18:58:29 1072

原创 技术 | 图像动作驱动-First Order Motion Model 解读

图像动作驱动-First Order Motion Model 解读

2022-02-09 18:35:20 3421

原创 论文|Jointly Pre-Training Transformers on Unpaired Images and Text

最近本专栏都在介绍多模态机器翻译,而近期多模态联合表示的工作很火热,笔者也准备和大家一起学习学习最新期的几篇论文。今天讲的这篇Google的工作利用知识蒸馏,把BERT和ViT的能力蒸馏到一个新模型上,使得这个新模型能够同时表征文本和图片。论文消息论文标题:Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text作者:Qing Li, Boqing Gon

2022-01-25 11:03:48 2267

原创 应用 | 深延科技智能OCR识别技术,一举突破医疗票据识别瓶颈,高效理赔不是梦

深延智能医疗信息OCR识别系统以深度学习和图像识别技术为基础,通过通用OCR+专项数据训练+机器学习文字抽取等方法训练算法模型,可秒级识别医疗票据类型,自动录入票面文字信息,支持住院票据、门诊票据、费用清单、住院小结、医保卡、各类检查报告单等各类票据及卡片信息的识别,帮助健康险实现理赔录入自动化。

2022-01-19 19:01:36 1552

原创 深延科技:基于深度学习的智能OCR识别技术大有可为

智能OCR技术作为人工智能领域的重要原子能力之一,在行业转型过程中发挥作用。近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。这一大趋势也促使传统OCR技术不断向智能OCR升级,以满足更复杂、更高要求的任务需求。随着深度学习的融入,实现了OCR对复杂文本的识别,即智能OCR识别。同时配合其他信息化手段的综合应用,使智能OCR具备移动端适配、多任务检测、整行识别、图像分割定位和分类等功能,应用场景更加广泛,在图书情报领域中的图书文本和卡证识别会更高效。01 传统OCR识

2022-01-17 19:10:39 3673

原创 盘点 | 北京冬奥会上的那些 AI 黑科技,深延科技全都有

从“同一个梦想”到“一起向未来”双奥之城北京即将在这个冬天再次迎来奥运火种然而,同14年前大不相同2022年的中国已然是全球新一波人工智能浪潮的领导者自动驾驶、自然语言处理NLP、机器视觉CV、深度学习DL、数据挖掘DM一系列眼花缭乱的人工智能概念都将在为期两周的冰雪盛事大显神通如何才能紧跟时代靠自己玩转北京冬奥中的人工智能?立刻下滑,保证不虚此行!01 北京冬奥——一次真正的人工智能奥运作为人工智能应用大国,中国AI产业向2022北京冬奥赛事运营提供了全方位的技

2022-01-13 19:20:24 1505

原创 中央农村工作会议释放重要信号,AI 技术助力农业的十种路径,未来可期

中央农村工作会议于2021年12月25至26日在北京召开。会议分析当前“三农”工作面临的形势任务,研究部署2022年“三农”工作,释放出两大重要信号:初级产品供给将更有保障;县域内城乡融合发展提速。农业话题常谈常新。当前,农业的快速发展必定离不开科技的大力支持。在科技的赋能下,中国农业发展正经历由传统农业向数字农业的转型新阶段,发展数字农业是18亿亩农田的精细化管理需求,也是乡村振兴战略实施的基础。各大互联网企业及产业龙头持续重仓农业,当智慧农业的技术手段开始走向规模化应用,是时候将视角聚焦到智慧农业这

2022-01-12 19:08:13 252

原创 分享 | 用于视图合成的神经辐射场技术

2020和2021年,最火的计算机视觉技术非Transformer莫属。而除Transformer之外,最受欢迎也最有趣的技术我想应该是ECCV 2020的神经辐射场 (Neural Radiance Field, NERF) ,其核心点在于非显式地将一个复杂的静态场景用一个神经网络来建模。在网络训练完成后,可以从任意角度渲染出清晰的场景图片。NeRF惊艳的效果吸引了大量研究者的关注,在20年3月挂上arXiv后,后续已经有大量的工作跟进,在速度、效果、动态场景等多个不同的角度对NeRF进行了改进。作为

2022-01-11 18:23:31 2513 2

原创 ICCV 2021 Oral | Paint Transformer - 基于笔触预测的快速油画渲染算法

这篇专栏主要介绍我们团队(百度视觉技术部视频理解与编辑组)发表于ICCV 2021上的Oral工作:”Paint Transformer: Feed Forward Neural Painting with Stroke Prediction“。我们提出了首个基于前馈笔触预测来进行快速油画渲染的算法 Paint Transformer,可以快速将一张图片变成一幅充满质感的油画。相关的代码已经基于PaddlePaddle框架开源在PaintTransformer,欢迎大家试用和star。研究背景将一张

2022-01-07 19:03:56 2389 1

原创 分享 | 物体检测和数据集

因为最近学习任务比较紧(但也不妨碍元旦摆烂三天),所以中间有几个实战Kaggle比赛就跳过了,等以后有时间再回头来看看。物体检测和数据集这一节花了有一天的时间,一直有一个bug困扰,后来改了代码把box画到了图上,途中还是挺崩溃的,总的来说这一课收获还挺大的。物体检测在前⾯的⼀些章节中,主要学习了诸多⽤于图像分类的模型。在图像分类任务⾥,我们假设图像⾥只有⼀个主体⽬标,并关注如何识别该⽬标的类别。然⽽,很多时候图像⾥有多个我们感兴趣的⽬标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在

2022-01-04 18:14:54 2196 1

原创 ICCV 2021 | 松弛Transformer:实现直接出框的时序动作检测

本文介绍我们组在2021年初公开在arxiv上的时序动作候选框生成工作RTD (Relaxed Transformer Decoders for Direct Action Proposal Generation)。论文链接:https://arxiv.org/abs/2102.01894代码地址:https://link.zhihu.com/?target=https%3A//github.com/MCG-NJU/RTD-Action任务背景伴随在不同社交平台上视频数量的大幅度增加,视频理

2021-12-31 18:35:22 1976

原创 分享 | 特征提取 (Features)

为何要进行特征提取?经过之前的学习,我们已经可以将一张图片中物体的边缘提取出来了。但即使是我们用 Canny 提取出来的物体边界图依然存在很多对于识别物体来说并不重要的线条。这些线条反而会影响到我们对物体的识别。因此我们有必要将有利于我们识别物体的这些特征提取出来。RANSAC 比例算法动机RANdom SAmple Consensus (RANSAC) 直译过来就是随机样本共识,是一种利用比例来确定特征的算法。它相比如边缘检测来说,可以在物体较多的情况下保持高效和准确。但是在噪声较大的

2021-12-30 18:27:14 2406

原创 ICCV 2021 | MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

今天介绍一个我们新提出的时空动作检测数据集MultiSports,同时也是DeeperAction比赛的赛道二。首先介绍一下什么是时空动作检测任务(Spatio-Temporal Action Detection):输入一段未剪辑的视频 (untrimmed video),输出视频中人物的动作类别、动作发生的时序区间以及在此区间内的人物框。现有数据集主要分为两大类: 以UCF101-24和JHMDB为代表的密集标注数据集 (25FPS),这类数据集每个视频只有一种动作,大部分视频是单人在做一些..

2021-12-29 18:36:01 876

原创 从DDPM到GLIDE:基于扩散模型的图像生成算法进展

前几天,OpenAI在Arxiv上挂出来了他们最新最强的文本-图像生成GLIDE [1],如头图所示,GLIDE能生成非常真实的结果。GLIDE并非基于对抗生成网络或是VQ-VAE类模型所设计,而是采用了一种新的图像生成范式 - 扩散模型(Diffusion Model)。作为一种新的生成模型范式,扩散模型有着和GAN不同且有趣的很多特质。这篇笔记梳理了过去一年多在扩散模型方向的一些主要工作,希望可以帮助读者更好的理解扩散模型以及GLIDE。在扩散模型相关论文中普遍有很多公式推导,笔记中基本省略了推导,

2021-12-28 19:15:16 5470 1

原创 分享 | 近距离观察少镜头视频分类:一个新的基线和基准

今天介绍一篇我们组和蚂蚁网商银行在小样本视频分类领域的工作 A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmark,发表于BMVC 2021。现有的小样本视频分类方法往往采用元学习范式并且十分依赖ImageNet预训练,当不使用ImageNet预训练时,这些方法的性能下降严重。通过实验,我们发现这些方法在表示学习上存在缺陷,并针对这一点提出了基于预训练-微调的方法。此外,我们发现元测试阶段的部分动作类和

2021-12-27 14:52:35 193

原创 分享 | 数字图像处理:边缘检测(Edge detection)

本文篇幅较长,用了大量图与公式帮助大家深入理解各种边缘检测算子,希望大家能看完哈,测试编译器为Matlab,作为入门计算机视觉(Computer vision)领域来说,Matlab是一款非常友好且简单的工具,其中自带各种先进的库函数,实现起来非常快速,偏向于实验性质的应用。好了话不多说,来和笔者一起看一下今天的主题-边缘检测。前言首先我们先来简单了解一下什么是数字图像处理(Digital Image Processing),先看一下数字图像主要的两个应用领域:1.改善图示信息以便人们解释;

2021-12-24 17:40:31 2763

原创 AAAI 2022 | 负样本问题:时间基础度量学习的复兴

本文介绍我们组NJU-MCG 在多模态视频片段定位领域(Temporal Grounding和Spatio-temporal Grounding任务)被AAAI 2022接收的一篇工作 Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding。TL;DR: 本方法(Mutual Matching Network, MMN)主要是从两个角度对现有方法进行改进:第一个角度是使用跨模态对比学习增加文本和

2021-12-22 18:36:45 2173

原创 分享 | NeRF神经辐射场理解

对于一个三维物体,它本身存在在那里,人眼的观察从传统上被建模为相机外参+内参,也就是一个降维的矩阵变换。适合计算机表示的三维模型有Voxel Occlusion,ESDF,TSDF等等,但对于人类大脑,显然不会通过矩阵建模,从三维世界获取二维图像。随着神经网络的流行,学界开始探索隐式的三维表示方法。论文信息NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV2020 Best Paper)Neur

2021-12-21 16:01:04 4651 4

原创 人体三维重建——参数化人体方法简述

三维人体形状指的是以三维网格形式表示的人体几何形状模型。按照[1]中的分类方式,可以将三维人体形状重建粗略的分为参数化方法与非参数化方法。本次先介绍参数化方法。参数化人体形状重建方法依赖于某个基于统计得到的人体参数化模型,仅需一组低维向量(即人体参数)即可描述人体形状。目前常见的参数化人体模型如SCAPE[2]、SMPL[3]、SMPL-X[4]等。以SCAPE为例,它定义了两个独立的低维参数空间:人体体型(Shape)空间与人体姿态(Pose)空间。给定空间下的一组人体体型参数与人体姿态参数,即可

2021-12-21 09:50:10 4261 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除