c2a2o2-CSDN博客

转载中国计算机学会推荐国际学术会议

http://www.ccf.org.cn/xspj/rgzn/https://cmt3.research.microsoft.com/User/Login?ReturnUrl=%2FCVPR2019 prl是模式识别和计算机视觉邻域知名期刊，与之相当的期刊包括ivc，mva，paa，iet-ipr以及iet-cvi等，比之稍好的有tip，cviu以及pr等，顶级期刊是pami和ij...

2017-12-06 13:48:49 1051

转载基于深度学习的CVaaS计算机视觉即服务案例（Computer Vision as a Service）

技术与技法日进千里，快速迭代过程中，真正能够留下的是应用场景的重构与对新商业范式的思考。CVaaS 计算机视觉即服务的理念介绍观点来源于：极视角科技联合创始人罗韵CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务，而每一个行业可以在这里找到自己行业需要的和图像处理、视频处理、计算机视觉相关

2017-08-09 15:33:45 2149

原创 tw记账 Image Synthesis Image Inpainting MSI Afterburner pycorrector 聚类DBSCAN

sudo ./pycharm.sh嗨，如果您有64位系统，则需要对驱动程序进行签名。此驱动程序未签名，因此您必须通过点击F8 F8 F8重新启动，直到看到启动设置。选择禁用驱动程序签名强制执行，然后您可以安装驱动程序这解决了我的问题。问候约翰内斯self.woshow(self.real_A_seg_sng)def woshow(self,img): #img = t...

2017-04-28 19:21:37 1441 1

转载支持向量机通俗导论（理解SVM的三层境界）

前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完

2017-04-16 09:47:27 705

原创 Recent Advances in 3D Gaussian Splatting

Recent Advances in 3D Gaussian Splatting，author = Tong Wu 1 ，Yu-Jie Yuan 1 ，Ling-Xiao Zhang 1 ，Jie Yang 1 ，Yan-Pei Cao 2 ，Ling-Qi Yan 3 ，and Lin Gao 1 \cor，runauthor = T.吴玉- J Yuan，L.-张旭，杨俊，杨毅- P Cao，L.- Q Yan，L.三维高斯溅射（3DGS）的出现大大加快了新视图合成的绘制速度。与神经辐射场（NeRF）等

2024-04-17 14:14:59 627

原创 PSAvatar：一种基于点的可变形形状模型，用于3D高斯溅射的实时头部化身创建

Despite much progress, achieving real-time high-fidelity head avatar animation is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyl

2024-04-16 10:47:16 422

原创用于密集视觉冲击的紧凑三维高斯散射Compact 3D Gaussian Splatting For Dense Visual SLAM

Recent work has shown that 3D Gaussian-based SLAM enables high-quality reconstruction, accurate pose estimation, and real-time rendering of scenes. However, these approaches are built on a tremendous number of redundant 3D Gaussian ellipsoids, leading to h

2024-04-16 10:35:18 316

原创 FreGS：具有渐进频率正则化的3D高斯溅射

3D Gaussian splatting has achieved very impressive performance in real-time novel view synthesis. However, it often suffers from over-reconstruction during Gaussian densification where high-variance image regions are covered by a few large Gaussians only,

2024-04-15 15:57:04 1032

原创 MVSplat：稀疏多视点图像的高效3D高斯溅射

We propose MVSplat, an efficient feed-forward 3D Gaussian Splatting model learned from sparse multi-view images. To accurately localize the Gaussian centers, we propose to build a cost volume representation via plane sweeping in the 3D space, where the cro

2024-04-15 15:49:12 767

原创 View-Consistent 3D Editing with Gaussian Splatting

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images,

2024-04-12 15:24:58 420

原创 Sketch3D：用于草图到3D生成的样式一致性指南

Recently, image-to-3D approaches have achieved significant results with a natural image as input. However, it is not always possible to access these enriched color input samples in practical applications, where only sketches are available. Existing sketch-

2024-04-11 15:47:54 894

原创 GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time

This paper presents GGRt, a novel approach to generalizable novel view synthesis that alleviates the need for real camera poses, complexity in processing high-resolution images, and lengthy optimization processes, thus facilitating stronger applicability o

2024-04-11 15:37:30 1134

原创 StylizedGS: Controllable Stylization for 3D Gaussian Splatting

With the rapid development of XR, 3D generation and editing are becoming more and more important, among which, stylization is an important tool of 3D appearance editing. It can achieve consistent 3D artistic stylization given a single reference style image

2024-04-11 12:50:19 725

原创 Pixel-GS：用于3D高斯溅射的具有像素感知梯度的密度控制

3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis results while advancing real-time rendering performance. However, its efficacy heavily relies on the quality of the initial point cloud, leading to blurring and needle-like artif

2024-04-11 10:41:07 1006

原创 Deblurring 3D Gaussian Splatting去模糊3D高斯溅射

Recent studies in Radiance Fields have paved the robust way for novel view synthesis with their photorealistic rendering quality. Nevertheless, they usually employ neural networks and volumetric rendering, which are costly to train and impede their broad u

2024-04-11 10:34:41 775

原创 StyleNeRF：一个基于样式的3D感知生成器，用于高分辨率图像合成

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image SynthesisStyleNeRF：一个基于样式的3D感知生成器，用于高分辨率图像合成Jiatao Gu†, Lingjie Liu‡, Peng Wang⋄, Christian Theobalt‡顾家涛 † ，刘玲杰 ‡ ，王鹏 ⋄ ，克里斯蒂安·西奥博尔特 ‡†Facebook AI ‡Max Planck Institute for Info

2024-04-11 09:38:17 900

原创 ImplicitDeepfake：通过使用NeRF和高斯溅射的隐式Deepfake生成的合理换脸

相比之下，GS通过将对象的特征编码在高斯分布的集合中，提供了加速的训练和推理，而不会降低渲染质量。deepfake的示例方法由生成高保真单次转移（GHOST）（Groshev等人，2022），其中作者建立在FaceShifter（Li等人，2019）模型作为起点，并介绍了deepfake的质量和稳定性的几个增强功能。为了获得真实的单词3D对象，我们使用新颖的、最先进的基于机器学习的方法，例如神经辐射场（NeRFs）（Mildenhall等人，2020）和高斯溅射（GS）（Kerbl等人，2023年）。

2024-04-11 09:10:05 808

原创 3D-Aware Multi-Class Image-to-Image Translation with NeRFs

Recent advances in 3D-aware generative models (3D-aware GANs) combined with Neural Radiance Fields (NeRF) have achieved impressive results. However no prior works investigate 3D-aware GANs for 3D consistent multi-class image-to-image (3D-aware I2I) transla

2024-04-10 17:37:42 517

转载一文带你入门 3D Gaussian Splatting

3D 高斯的协方差矩阵 Σ� 表示了其在空间中的形状和方向，它可以用一个对称正定矩阵来表示，也可以用一个对角矩阵和一个旋转矩阵的乘积来表示，以减少参数的数量。3D 高斯的权重 �� 表示了其在场景中的贡献，它可以用一个非负的标量来表示，也可以用一个球谐函数来表示，以增加其与视图相关的表达能力。很形象，我们可以想象一下，把一个雪球（高斯球）扔到一个玻璃盘子上，雪球散开以后，在撞击中心的雪量（对图像的贡献）最大，而随着离撞击中心距离的增加，雪量（贡献）减少。在整个空间中，每个高斯球又是离散的。

2024-03-01 10:15:54 1272

转载 MWCNN中使用的haar小波变换 pytorch

用图像表述如图所示：图中a表示原图，图b表示经过一级小波变换的结果，h1 表示水平反向的细节，v1 表示竖直方向的细节，c1表示对角线方向的细节，b表示下2采样的图像。B）高频采用差均值，即b[2]和b[3]，用于记录图像的细节信息，这样在重构时能够恢复图像的全部信息。在这里的行x1=x_LL/2, x2=x_HL/2, x3=x_LH/2, x4=x_HH/2。A）低频采用和均值，即b[0]和b[1]，和均值中均值存储了图像的整体信息。# 使用哈尔 haar 小波变换来实现二维逆向离散小波。

2023-11-27 15:27:37 848

转载可逆神经网络的研究及其在图像中应用

一、摘要可逆神经网络(INN)自被提出以来，就受到了广泛关注。由于其双射构造和高效可逆性，INN被用于各种推理任务，如图像隐藏、图像重缩放、图像着色、图像压缩和视频超分辨率等等。本文针对最新关于INN在图像方面应用的文献进行介绍，包括每篇文献的基本原理和个人理解。最后对所介绍的文献进行总结，指出各自的优缺点并对未来INN在图像方面应用展开思考。Invertible neural network (INN) has been widely concerned since it was proposed. Be

2023-11-10 10:33:41 392

转载 Robust Invertible Image Steganography

在正向转换过程中，CANP可以将输入的图像对[ x s ， x h ] [x_s，x_h][x。一同输入backward块中，得到了恢复的秘密和host图像[ X s ′ , X h ′ ] [X_s',X_h'][X。(为了输入方便，这里用y’代替图中y~)图像，通过特征增强模块以消除噪声和jpeg压缩的影响，随后从y ′ y'y。，双射RIIS可以在反向传递中生成[ X s ′ , X h ′ ] [X_s',X_h'][X。基于流的可逆块将输入的[ X s , X h ] [X_s,X_h][X。

2023-11-01 14:11:00 456

转载跑通代码-ICCV2021-HiNet: Deep Image Hiding by Invertible Network

第一排是原始的宿主图像，第二排是原始的水印图像，也就是需要嵌入到原始宿主图像的信息，第三排是嵌入水印图像之后的图像，能看到，嵌入水印之后的图像与原始的图像非常的相似，肉眼几乎无法分辨，说明算法的不可感知性很好，最后一排是提取出来的水印图像，与第二排的原始水印图像很相近，说明算法的鲁棒性很好，恢复水印图像的能力很强。在图像水印算法中，应该对嵌入水印图像之后的图像进行图像攻击，然后再提取水印图像，如果依然能很好的提取出来水印图新，说明算法的鲁棒性很好，这里的攻击可以是噪声攻击，滤波攻击，几何攻击等等。

2023-10-24 10:36:41 993 5

转载图像隐写2021年至今的相关论文（含公开代码）

2023 - NAS-StegNet：通过神经架构搜索的轻量级图像隐写网络 - https://github.com/wang-MIG-CFM-UESTC/nas_stegan。2022 - E2Style：提高StyleGAN反演的效率和效果（利用GAN反演做信息隐藏） - https://github.com/wty-ustc/e2style。2022 - StegGAN：使用条件生成对抗网络在图像中隐藏图像 - https://github.com/brijeshiitg/StegGAN。

2023-10-24 10:22:25 390 1

转载基于可逆神经网络的图像隐藏技术 (ICCV 2021) - HiNet: Deep Image Hiding by Invertible Network

在 [5] 中，通过对秘密图像像素的排列来提高隐藏的安全性。然而，所有这些方法都采用了两个子网络来进行图像隐藏：隐藏网络将秘密图像隐藏成覆盖图像来生成一个隐写图像和揭示网络恢复从恢复秘密图像，如图 1(a) 所示，隐藏和揭示网络有两种参数，这是通过简单连接实现。为了验证方法的有效性，将其与几种最先进的 (SOTA) 图像隐藏方法进行了比较，包括一种传统的图像隐藏方法 4bit-LSB，以及三种基于深度学习的方法：HiDDeN[41]、Weng et al. [32] 和Baluja[5]。

2023-10-24 10:08:48 316

转载 Diffused Heads

输入为Motion frames（t-2,t-1时刻图像），Identity frame随机选择的一帧，Noisy target当前时刻加噪图像。版权声明：本文为CSDN博主「xpc_buaa」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。采用DDIM加速采样，为了强制模型尽可能从身份帧中获取关于人物外貌的信息，把每个运动帧转换成黑白图像。为了维持生成图像的连续性，引入了motion frames进行自回归的预测。128*128分辨率。

2023-10-10 15:44:11 44

转载 Pika Labs：“目前最好的文生视频AI”，人人都能制作微电影

Pika并不是世界上第一个“文生视频”“图生视频”的AI工具平台，但考虑到能与之媲美的Runway还需要付费计时使用，Pika体验门槛如此之低、生成质量如此之高，已成为众多网友心中最好用的AI。生成后你会在消息列表中看到自己的视频，可以点击右侧上方的收件箱，点击提及菜单，就可以看到@自己的所有消息了。如果想用自己上传的图像生成视频，可在prompt后点击”增加字样“就会弹出上传图片框，将图像拖入后，直接发送即可。在 Discord 频道的左侧，找到 "generate" 子区，选择一个进入。

2023-08-14 22:01:49 2178 1

转载 RAD-NeRF模型训练教程

激发了我部署项目的好奇心。整个安装过程就是这样的，这里遇到最多的问题就是 C++ 编译的问题，找了很多资料都没有把这个虚拟人项目部署说得精准的，所以这篇文章就应运而生了，解决大家在部署过程中遇到的难题。cuda_toolkit 可以直接通过我上面的链接进行下载安装，直接一路 Next 安装就可以了，cub_home 也是下载完之后，在系统的环境变量里面进行设置如下图。然后找到刚才的虚拟环境里的 pytorch3d 的文件路径，激活虚拟环境之后，需要输入下面两个命令就可以执行安装了。

2023-08-10 15:25:33 3027 2

转载造梦师手记：Stable Diffusion一键换脸插件

如果你的roop安装后不能正常工作，压根不换脸，到上述几个目录排查，是否安装好了模型文件，如果有漏网之鱼，可以手工下载并拷贝过去，然后重启Stable Diffusion启动器，就可以正常使用了！roop程序不大，但下载了不少模型，并且分散在各个目录里，如果因为网速原因，有些无法正常下载的模型，系统不会出现提示，但画图的时候会失败，只能自行查找原因，下载模型并安装到相应位置。当然了，AI换脸的能力是有限的，不可能100%无瑕疵，还要结合比较合适的提示词以及模型，但是效果已经很让人震惊了。

2023-07-01 17:09:49 1407

转载 Image.alpha_composite( )——实现一张背景透明图像和一张背景不透明图像的合成

在很多小伙伴没有ps的基础能力的情况下，想合成一张背景透明的图像和一张背景不透明的图像属实有些无从下手，所以在这里就给大家用python提供一些解决方案，先上图⬇️，分别是mask.jpg, image.jpg，final.jpg。其实和Image.alpha_composite( )的差别不大，在细节上尤其是半透明图案的处理上，Image.alpha_composite( )的效果会更好。------------我是非常可爱的分割线------------先放上各种方法的对比图～嗷呜呜呜呜呜呜呜！

2023-06-26 16:05:15 498

转载 python 3.9.7 安装 PocketSphinx

2. 切换到下载文件目录，进入cmd模式，pip install pocketsphinx-0.1.15-cp39-cp39-win_amd64.whl。版权声明：本文为CSDN博主「work-harder」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/seeker3/article/details/123288501。3. 进入python后，导入pocketsphinx，没有任何错误提示；

2023-06-19 10:15:12 860

转载 TorToiSe语音克隆程序使用心得

我一直都对语音克隆这个技术非常感兴趣，但是之前并没有找到好用的TTS（text-to-speech）程序，网上很多现成且易用的TTS要么是没法定制音色，要么是只能定制自己的音色不能定制名人的（可能要求你读出特定的一段文字），要么是定制音色需要收费，要么是生成的语音显得非常僵硬和粗糙，要么是学习音色需要非常长的音频、且学习过程也很慢……

2023-06-11 08:02:27 616 1

转载举世无双语音合成系统 VITS 发展历程（2023.03.31 SNAC）

论文：Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform。可以利用自我监督的语音来适应新的说话人而没有标注。论文：Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation。

2023-04-30 14:16:08 1308

转载 so-vits-svc环境安装和AI训练

这个视频就是把周杰伦的声音转换成了我自己的声音。5.既然原作者选择删除项目，那么后续再投稿就不要再带上作者和原项目地址了，除非你解决了所有版本问题而且没有伤害性内容。现在推荐用4.0版本，大幅优化了显存占用，8G显存已经可以直接推理一整首歌了。今天把笔记本电脑重装了系统，顺便重新弄了一遍so-vits-svc，过程非常折磨。现在的4.0版本已经对显存占用进行了优化，可以直接推理一整首歌了，不需要切片。由于很多人的对项目的滥用，原作者已经删除了项目。我把折腾的过程整理了两个文档，文档我放在百度网盘了。

2023-04-29 17:19:26 5595 4

翻译 VideoReTalking：用于野外会说话的头部视频编辑的基于音频的唇形同步

中，我们简要概述了𝐿大号斜体L-Net，包含两个子网络，下标𝐿𝑎{L}_{a}italic_L start_POSTSUBSCRIPT italic_a end_POSTSUBSCRIPT和下标𝐿𝑣{L}_{v}italic_L start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT，分别用于音频和视频处理。，我们采用分而治之的策略，首先中和面部表情，然后使用修改后的帧作为唇形生成的姿势参考，考虑到所有参考面现在都具有相同的规范表情，这样更准确。中举例说明这种现象。

2023-04-27 15:55:54 5118 2

转载 AAAI22_One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning_阅读笔记

该文章针对的任务是one-shot的说话人物生成，与传统的方法的区别之处在于，该文章先使用同一个人的语料进行训练，随后使用他人的人脸进行生成。提供了一个说话人生成的新视角，即从同一人物的大量数据中学习audio-visual的关系，随后泛化到不同人物上。

2023-04-27 12:25:43 286

转载通过3DMM模型驱动单张头像《3D-FM GAN: Towards 3D-Controllable Face Manipulation》

分离训练使用了content loss，强调了生成和输入的condition的一致性。又引入了multiplicative co-modulation的架构平衡两者。混合式调制，把照片和渲染输入到W，W+encoder当中，用元素间乘法来融合。引入了两种训练策略，既保留人脸的identity，又保留了可编辑性。消融实验表明使用两种策略可以更好保持脸部一致，又保留脸部的可编辑。分离式地调制，把照片和渲染分别输入到不同的encoder当中。引入了StyleGAN，结合了真实照片和渲染模型的输入。

2023-04-09 09:59:38 203

转载 Stitch it in Time: GAN-Based Facial Editing of Real Videos

生成对抗网络在其潜空间内编码丰富语义的能力已被广泛用于面部图像编辑。然而，事实证明，在视频上复制他们的成功具有挑战性。高质量的面部视频集是缺乏的，在视频上存在一个需要克服的基本障碍——时间一致性。我们认为这种障碍很大程度上是人为的。源视频在时间上已经是连贯的，偏离这种状态的部分原因是在编辑思路中对各个组件的粗心处理。我们利用StyleGAN的自然对齐和神经网络学习低频函数的趋势，并证明它们提供了强一致的先验。我们利用这些见解，提出了一个视频中人脸语义编辑的框架，并证明了与目前最先进技术相比我们的框架具有显著

2023-04-06 14:12:03 207

转载 SadTalker：Stylized Audio-Driven Single Image Talking Face Animation（CVPR2023）

用语音音频制作静态人像图像是一项具有挑战性的任务，在数字人类创造、视频会议等领域有许多重要的应用。以往的研究主要集中在唇动的生成[2,28,29,48]，因为唇动与言语有很强的联系。最近的工作还旨在生成一个包含其他相关动作的逼真的谈话面部视频，例如，头部姿势。他们的方法主要是通过地标[49]和潜在翘曲引入二维运动场[37,38]。但是生成的视频质量仍然不自然，受到偏好pose[16,48]、月模糊[28]、身份修改[37,38]、扭曲脸[37,38,46]的限制。

2023-04-06 13:43:39 1845

转载 python：savgol_filter的简单使用

它对信号的操作是在时域内对window_length内的数据进行多项式拟合。这种滤波其实是一种移动窗口的加权平均算法，但是其加权系数不是简单的常数窗口，而是通过在滑动窗口内对给定高阶多项式的最小二乘拟合得出。版权声明：本文为CSDN博主「一从际发」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。即window_length越小，polyorder越大，则结果越接近原始曲线。即window_length越大，polyorder越小，则平滑效果越强。越小，则更贴近原始曲线。

2023-03-24 21:02:59 384

ffmpeg-4.2.1-win64-win10-然后pip就好

dlib安装 dlib-19.19.0-cp38-cp38-win_amd64.whl.whl

dlib-19.17.99-cp37-cp37m-win_amd64.whl

coreseek-4

空空如也