- 博客(476)
- 资源 (27)
- 收藏
- 关注
原创 VAR:自回归家族文生图新SOTA,ImageNet上超越Diffusion与DiTs
本文提出了一种名为视觉自回归(VAR)建模的新范式,它通过将图像的自回归学习重新定义为“下一尺度预测”。VAR模型采用多尺度VQ-VAE来编码图像,并利用自回归Transformer来学习图像的分布。这种方法不仅提高了图像生成的质量,还显著加快了推理速度。VAR模型在ImageNet 256×256基准测试中的表现超越了现有的自回归和扩散模型,其FID和IS分别达到了1.80和356.4,同时推理速度提升了20倍。文章中甚至做了与DiTs相同量级参数的对比,指标上也有明显优势。
2024-04-17 10:57:51 1833
原创 Mini-Gemini: 探索多模态视觉语言模型的新境界
最近,一篇名为“Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models”的文章在arXiv上发表,为我们展示了一个简单而有效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。它即能直接提升图像感知能力,也能作为多模态环境下图像生成任务的前置prompt生成器。主要探索了如何增强图像全局感受野,以及探索了如何融合现有ocr工具来增强图像中文本感知能力。
2024-04-16 08:00:00 1623 1
原创 视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!
随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!
2024-03-21 10:06:16 4467 4
原创 AIGC元年大模型发展现状手册
AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术应用于视觉内容创作,为用户提供了全新的创作以及内容消费体验。本文将做相关技术内容展开讨论与纪要。
2024-03-18 09:53:49 5271 14
原创 【NeurIPS】解决离线强化学习中的互模拟缺陷,FaceChain团队联合出品
本文旨在解决离线强化学习中的互模拟缺陷。强化学习中的表征学习对于控制任务而言至关重要,将来的一个重要研究方向是将大模型为基础的文本或图像信息与控制任务对应的状态表征做进一步对齐。这里,互模拟为基础的表征算法可能是一个重要的未来研究方向,可能对多模态数据与控制任务的对齐起到关键性作用。
2024-03-15 09:45:22 2407
原创 【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品
本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持视频内的一致性。
2024-03-15 09:45:07 3523 5
原创 【ACMMM】Semi-supervised Deep Multi-view Stereo,FaceChain团队联合出品
本文探究了多视图立体视觉三维重建在半监督学习设置下的可行性,提出了一套新的半监督训练框架,在仅使用5%的有标注数据的情况下,依然可以取得大幅超过原始全监督基准模型的性能。
2024-03-14 11:16:14 2752
原创 【IJCAI】CostFormer即插即用的MVS高效代价体聚合Transformer,FaceChain团队出品
本文提出一种基于代价体Transformer的多视角立体三维重建方法,该方法设计了一种高效的Transformer,即CostFormer,改善了卷积神经网络代价体聚合的缺陷,从而进一步改善整体重建的效果;CostFormer做到深度感知的同时也克服了全局自注意力机制指数级别增长复杂度带来的显存的耗尽以及推理时间的大幅增长。CostFormer是一种可即插即用于当前基于卷积神经网络的多视角立体方法。
2024-03-14 11:15:43 2302
原创 【ICCV】PointDC,基于深度聚类的无监督3D场景语义分割,FaceChain团队联合出品
针对无监督3D场景的语义分割,提出一套基于深度聚类的自监督学习算法,可以大幅提升3D分割的效果(ScanNet-v2 (+18.4 mIoU)、S3DIS (+11.5 mIoU))。
2024-03-12 11:14:45 2661
原创 【CVPR】Facechain-SuDe通用保主体ID属性编辑内容创作
主体驱动生成(subject-driven generation)任务由于能够实现对特定主体的定制化生成,已经受到了许多关注。相关的工作如Dreambooth、Custom Diffusion等也取得了不错的效果。然而我们发现定制化的主体往往不能实现良好的属性编辑,因此,本文着重研究在保持主体的身份(identity)保真度的前提下,丰富主体属性编辑的能力。
2024-03-12 11:14:36 2395
原创 【ICCV Oral】SAN:利用软对比学习和全能分类器提升新类发现,FaceChain团队联合出品
本文介绍了一个名为Soft-contrastive All-in-one Network(SAN)的领域适应框架,旨在高效、准确地控制领域间新类别的发现和适应。SAN利用基于数据增强的软对比学习(SCL)损失微调深度神经网络,并引入全能(All-in-One, AIO)分类器,显著提高了新类别发现的能力。与传统UDA方法相比,SAN展现出更强的特征转移能力和更高的新类别发现准确率,在开放集领域适应(ODA)和通用领域适应(UNDA)任务上均取得了最先进的效果。
2024-03-08 11:09:48 1874
原创 【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品
本文介绍由FaceChain团队出品的AIGC时代下的SOTA人脸表征提取器TransFace,可广泛应用于人物写真、人物视频等人物类数字孪生的应用研究中。
2024-03-08 11:09:12 2967 7
原创 【IJCV】基于概率表征的半监督对比学习框架,FaceChain团队出品
本文提出了基于概率表征的对比学习框架(PRCL),用于半监督语义分割算法。文章中分别引入了概率表征,全局分布原型,虚拟负样本等模块。最终实验表明,提出的PRCL框架在半监督设定下模型的分割能力达到了state-of-the-art的性能。此外,大量的消融实验也表明我们提出的模块的有效性。
2024-03-08 10:18:46 2112
原创 ICLR 2024 Oral InfoBatch 助力大模型时代训练加速!FaceChain与NUS尤洋团队最新工作!
在本篇工作中,研究者从数据迭代这个角度切入进行了研究。长久以来,数据集的迭代方式大都采用随机迭代。对此,作者提出了InfoBatch框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(rescaling)来维持剪枝后的梯度更新(Gradient Update)期望,以此在性能无损的情况下提高训练效率,加快训练速度。在CIFAR10/100、ImageNet-1K(分类)和ADE20K(语义分割)上,InfoBatch无损节省了40%的总开销(时间和计算);在检测任务上,InfoBatch
2024-01-17 10:53:07 2327 1
原创 FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
作为AI人像写真开源项目的佼佼者,FaceChain凭借其丰富多样的风格模版和卓越的人像保真度,深受社区的喜爱并已在商业应用中得到了广泛的应用。近期,FaceChain团队推出了全新的版本——FaceChain FACT。这一创新版本摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。
2024-01-08 10:44:27 10795 4
原创 FaceChain V2,Human AIGC开源应用平台
facechain是一个可以用来打造个人数字形象的深度学习模型工具平台。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。V2核心功能迭代:one-shot训练、无限风格计划、SDXL提升图像细腻度,增加虚拟试衣、说话人视频、动漫风格化等功能。
2023-12-08 10:15:58 4035 3
原创 FaceChain集成最强开源SDXL,生成人像质感拉满!
FaceChain,一款备受欢迎的AI写真开源项目,目前已与最强大的开源生图模型SDXL完美融合!这将为用户带来前所未有的高质量AI写真体验。FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。结合不同的风格模型和写真模版,可以生成超乎想象空间的个人写真作品。更有意思的是,FaceChain还集成了说话人与虚拟试衣的功能,让你的数字替身更加生动真实,更具有商业价值与落地场景。
2023-11-27 11:07:25 7244
原创 AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。
2023-11-09 10:57:56 2985
原创 工业级开源facechain人物写真sd-webui插件使用方式
本文介绍如何在sd webui中安装facechain插件使用工业级人物写真功能。
2023-10-19 11:25:56 1066
原创 facechain人物写真生成工业级开源
facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github(。facechain社区非常活跃,fork、commit数都很大,相应截图如下:facechain人物写真主要功能如下图所示:近期活跃的更新,支持了很多新的feature,下面我们节选了部分核心功能作展示。
2023-10-13 10:50:29 2468 2
原创 AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
2023-10-09 10:08:02 2805
原创 AIGC玩转卡通化技术实践
伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍阿里开放视觉团队的卡通化技术实践。
2023-09-27 10:31:52 2678 2
原创 【开放视觉】AI人像特效之「更快、更高、更强的互娱换脸解决方案」
换脸技术旨在将图像或者视频中的人脸替换成目标人脸,使生成的图像与目标人脸相似,且具有图像或视频中人脸的外貌特征。作为近几年计算机视觉和图形学领域较热门的应用之一,已被广泛用于互动娱乐,肖像替换,广告宣发,电影后期等场景中。本工作面向互动娱乐场景,扎根于学术前沿,聚焦于行业落地,提出了一个脸型自适应的换脸算法(SaSwap),并结合落地过程中的若干痛点难点逐一攻关,最终以高效的输出方式组成了一套完整的互娱换脸解决方案。
2023-09-11 14:10:43 3591 2
原创 FaceChain应用生态爆发?无限可能的人物应用等你加入探索!
在过去的不到一个月,FaceChain开源项目从无到有,成功突破了相关技术瓶颈,GitHub()获得了超过4.6K star,为未来的应用发展奠定了坚实的基础。以下是我们已经实现的一些核心功能:最少1张照片就可以训练生成特定的人物LoRA,生成的人物写真照片形象鲜明又颇具美感。可以精准指定人物的动作和姿态已经打通LoRA风格的无限扩展,例如仙女风、拍立得港风、花园婚纱、冬季汉服、校园风等。。
2023-09-05 11:18:21 4089
原创 【FaceChain风格DIY手把手教程】无限场景风格LoRA与固定人物LoRA的融合(4Kstar!)
AIGC人物写真开源项目FaceChain风格DIY手把手教程,无限场景风格LoRA与固定人物LoRA的融合。
2023-08-28 16:31:53 4568
原创 WordArt Designer:基于用户驱动与大语言模型的艺术字生成
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架,WordArtDesigner。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5turbo驱动的LLM引擎可以解释用户输入,并为其他模块生成可操作的提示,从而将抽象概念转化为有形的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo模块提供的语义布局的基础上,StyTypo模块辅助生成平滑、精细的图像。Tex
2023-08-23 13:36:25 3060
原创 魔搭开源FaceChain个人写真项目,大幅提升写真多样性,登顶github趋势榜首!
一周时间获取超过3Kstar,连续在githubtrending榜单蝉联top!开发者们纷纷标记star(https://github.com/modelscope/facechain),目前正在演变成热点开源项目。
2023-08-21 17:32:44 4881 4
原创 3张照片打造专属形象!酷蛙FaceChain解密个人写真开源项目,人人AIGC!
3张照片打造专属形象!酷蛙FaceChain解密个人写真开源项目,人人AIGC!该开源项目短短几天内,star数已经突破500。欢迎大家点击链接(能按照到本地体验,如果觉得好的可以点个star,你们的鼓励是我们最大的动力,我们将不断推陈出新,扩展应用):https://github.com/modelscope/facechain。在线体验,魔搭社区创空间体验环境:人物写真生成。
2023-08-14 09:52:39 6505 2
原创 【达摩院OpenVI】开源CVPR快速实例分割FasInst模型
在本文中,我们通过提出 FastInst 来填补基于查询的模型速度优势欠缺这一空白。FastInst 是一种简洁有效的基于查询的实时实例分割框架。 我们证明了基于查询的模型可以在保持快速的情况下在实例分割任务上取得出色的性能,在高效的实例分割算法设计方面展示出巨大潜力。 例如,我们设计的使用 ResNet-50 主干的最快的基于查询的模型在 COCO test-dev 上以 53.8 FPS(每秒帧数,单个 V100 GPU)的速度实现了 35.6 AP。
2023-07-06 10:53:04 5268
原创 达摩院开源多模态对话大模型mPLUG-Owl
miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
2023-05-09 11:46:46 4409 7
原创 【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT
最近,一些基于Transformer网络的视频目标跟踪算法,比如OSTrack, MixFormer, STARK等,展现了较高的算法精度,基于之前的研究工作,本文提出了ProContEXT,把时域上下文信息和空域上下文信息共同引入到Transformer网络中。
2023-04-19 16:47:00 5175
原创 【达摩院OpenVI】基于流感知的视频目标检测网络LongShortNet
本文的研究专注于探索如何在视频目标检测任务中引入长时序信息,以及如何进行时序信息融合,并最终提出了LongShortNet。本文提出的LongShortNet在一些困难场景下,能够达到比StreamYOLO更高的精度。
2023-04-19 16:39:28 3504
原创 CVPR 2023 | 达摩院REALY头部重建榜单冠军模型HRN解读
本文中提出了一种新颖的层次化表征网络 (HRN),以实现单图的高精细头部重建。 具体来说,我们对头部几何细节进行了解耦并引入了层次表征来实现精细的头部建模。 同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。
2023-04-19 10:46:27 4272
原创 CVPR | 达摩院开源自监督学习框架CoKe, 单机8卡可训练
本文设计了基于聚类的自监督学习框架CoKe,参考有监督学习,以极简的框架进行高效的训练.同时,为了避免聚类自监督学习中常遇到的collapse问题,我们提出一个新的聚类size下限的限制并开发online算法进行相应的优化.
2023-04-14 10:33:33 458
原创 ICLR 2023 | 达摩院开源轻量人脸检测DamoFD
目前的NAS方法主要由两个模块组成,网络生成器和精度预测器。其中网络生成器用于生成候选的backbone结构,精度预测器用来对采样的backbone结构预测精度。由于检测和分类的任务目标不一致,前者更重视backbone stage-level (c2-c5)的表征,而后者更重视high-level(c5)的表征。本文旨在解决分类任务上的精度预测器擅长预测high-level表征能力而无法预测stage-level表征能力的问题。
2023-03-31 10:47:09 8114 4
原创 【达摩院OpenVI】图像MOS评价协助清理“垃圾”照片
本文主要介绍MOS开源模型与应用。MOS(Mean Opinion Score)是一种常用的主观质量评价方法,常用于视频、图像等多媒体领域中的质量评价。MOS视觉评价通常是通过让受试者观看视频/图像,对视频的清晰度、锐度、颜色饱和度、运动模糊、噪声等方面进行评价。
2023-03-10 09:30:00 5453 1
原创 【OpenVI】AIGC纪元,兔年AI绘画实践
本文主要介绍AIGC体验方法,up主们纷纷使用AIGC进行短视频内容创作,能绘画天马行空的场景、栩栩如生的人物。如此精细的ai绘画和去年Stable Diffusion、MidJourney、DALL-E 2的横空出世息息相关,技术革新带来了令人震撼的效果。这些新技术可以提高创意的效率,缩短创意到实现的周期,并且能够在艺术设计、电影、游戏等领域产生巨大的影响。对于普通人来说,这些新技术可以提供更好的创意平台和更丰富的视觉体验,使个人更容易创建和分享自己的艺术作品,从而激发更多的创意和想象力。
2023-03-09 09:30:00 6767
原创 【达摩院OpenVI】老片图像上色,一键开源体验
本文介绍开源图像上色一键体验,它是指对黑白图像添加色彩,使其变成彩色图像。更具体的说,我们常见的彩色图像通常是三通道图像,而黑白图像只有一个灰度通道,因此,图像上色旨在利用单一灰度通道恢复图像的两个彩色通道。随着摄影技术的演进,彩色照片在现在已经非常普及,但仍然有大量历史黑白照片遗留。图像上色可以对这些宝贵的旧时代遗产进行修复,令老照片重获新生。
2023-03-08 09:30:00 5741 17
原创 【达摩院OpenVI】开源体验AI云台,去视频抖动
本文介绍AI开源能力对抖动的视频进行稳像,达到清晰稳定的效果。在ModelScope魔搭平台上开源了DUT-RAFT视频稳像算法,几行代码即可调用,无需复杂的操作,也无需复杂的输入。鼠标一点即可畅快体验让视频变稳定的AI“魔法”。
2023-03-07 09:30:00 6731 5
原创 【达摩院OpenVI】几行代码,尽享丝滑视频观感
目前插帧算法在学术界不断取得突破,多篇文章通过transformer的引入能够有效提升PSNR等验证指标。但当前大部分只能实现2倍插帧,无法一次性实现高倍率插帧以及任意指定帧率转换。针对以上问题,达摩院视觉增强团队在Modelscope上线了自研的插帧算法,该算法能够有效提升上述困难场景下的插帧质量,同时该算法支持任意时刻的中间帧生成,输出帧率可由用户任意指定。
2023-03-02 17:22:36 8470
color transfer 颜色转化
2011-12-06
c语言DOS界面菜单式四则运算自编(菜单功能很不错宝贵资源)
2009-03-10
Vc6.0++MFC编程实例4讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例15讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例14讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例13讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例12讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例11讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例10讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例9讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例8讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例7讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例6讲解详细(宝贵资源)
2009-03-10
Vc6.0++MFC编程实例1讲解详细(宝贵资源)
2009-03-09
Vc6.0++MFC编程实例2讲解详细(宝贵资源)
2009-03-09
链表C语言实现 功能齐全
2009-03-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人