AI算法-图哥-CSDN博客

原创 MD-VQA：视频质量评价算法

在淘宝，每天有亿级的User-Generated Content (UGC) 等非传统广电视频（包括但不限于短视频、直播等）被生产或播放，其存在明确的无参考视频质量评价的需求，用以对视频质量进行实时监控，确保用户体验。因此，大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、运动等多维度信息，来衡量视频绝对质量的高低。

2024-02-05 23:23:04 1040

原创 InstantID：一张照片，无需训练，秒级个人写真生成

通过文本提示词来编辑生成的图片，比如改变图像中人物的表情、背景或其他元素。也可以借助 ControlNet插件更加精准地控制图像的生成细节，实现个性化定制。

2024-02-04 22:24:05 2197

原创 MagicVideo-V2：多阶段高保真视频生成框架

本项工作介绍了MagicVideo-V2，将文本到图像模型、视频运动生成器、参考图像embedding模块和帧内插模块集成到端到端的视频生成流程中。由于这些架构设计的好处，MagicVideo-V2能够生成具有极高保真度和流畅度的美观高分辨率视频。通过大规模用户评估，它在性能上表现优越，超过了领先的文本到视频系统，如Runway、Pika-1.0、Morph、Moon Valley和Stable Video Diffusion模型。

2024-02-03 23:38:57 2039

原创 Q-Bench：一种用于低级别视觉通用基础模型的基准测试

简单来说，答案是语言，这是多模态大模型的基本属性。具体而言，我们定义多模态大模型在low-level视觉方面的两种新兴语言能力如下：能力1（A1）：low-level 属性的感知。如图 1(a)所示，像人类一样，多模态大模型应该能够准确地回答与 low-level 属性相关的简单问题，例如在查询“这张图像清晰吗？”时回答“不清晰”。能力2（A2）：通过自然语言进行描述。如图1(b)所示，像人类一样，多模态大模型应该能够用自然语言描述图像的质量和其他low-level信息。这些描述应该既完整又准确。

2024-01-29 15:01:26 936

原创 TecoGAN视频超分辨率算法

对抗训练在单图像超分辨率任务中非常成功，因为它可以获得逼真、高度细致的输出结果。因此，当前最优的视频超分辨率方法仍然支持较简单的范数（如 L2）作为对抗损失函数。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度，。该研究聚焦于新型损失的形成，并基于已构建的生成器框架展示了其性能。研究者证明时间对抗学习是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外，研究者还提出新型损失函数 Ping-Pong，该函数可以有效移除循环网络中的时间伪影，且不会降低视觉质量。

2024-01-01 22:21:11 1061

原创 Stable Diffusion Lora模型训练详细教程

stable diffusion lora模型训练

2023-04-22 16:11:59 43082 19

原创 RepNAS: 基于NAS的结构重参数化技术

基于NAS的结构重参数化技术

2022-12-24 23:38:57 1183

原创自动网络搜索NAS之FBNetV1

为移动设备设计卷积网络挑战巨大，因为设计空间巨大，现有NAS方法在计算上是昂贵的。另外，之前的工作关注降低FLOPs，但是FLOPs并不总是反应真实的延迟。因此基于differentiable neural architecture search（DNAS），采用梯度优化的方法优化卷积结构，避免像以前的方法那样分别枚举和训练各个体系结构。FBNets-B在ImageNet上top-1准确率为74.1%，295M FLOPs，在三星S8上23.1ms延迟，比MobileNetv2小2.4倍，快1.5倍。

2022-12-21 09:58:28 726

原创光流法总结

光流法总结

2022-10-01 13:59:15 4090 1

转载运动补偿和运动估计总结（MEMC）

运动补偿和运动估计总结

2022-09-15 22:30:57 3499

原创模型压缩之知识蒸馏

模型压缩（在保证性能的前提下减少模型的参数量）成为了一个重要的问题，而”模型蒸馏“属于模型压缩的一种方法。

2022-08-21 11:51:06 1899

原创基于时空融合的高效率多阶段视频降噪方法-EMVD

1. 介绍这是Huawei Noah‘s Ark Lab在CVPR2021上的文章。他们针对于终端设备算力有限的条件下，提出了一种有效的视频降噪算法EMVD，其主要特点在于通过可学习的可逆变换，将图像的亮度和颜色信息，以及不同的频率信息进行分解，在变换域进行图像降噪处理；使用了三级结构，包括时域融合（temporal fusion）、空域降噪（spatialdenoising）、时空精修（spatio-temporal refinement）三个阶段，每级结构都有明确的任务和可解释性；使用很小.

2022-05-29 11:24:36 2430 1

原创噪声及降噪算法总结

1. 噪声介绍噪声是图像中不请自来的信号。当相机拍摄一个亮度十分均匀的区域时，相机输出的结果会不可避免地叠加一部分噪声。相机的输出信号=真实信号+噪声信号。由于真实信号的具体值是未知的，所以只能用多次测量的平均值来代替。用数学公式表示就是，在数码照相机和摄影机产品中，总的规律是光圈越小、（电子）快门越短、ISO越高，图像噪声就越大。2. 噪声类型高斯噪声 Gaussian，也称热噪声或约翰逊-奈奎斯特噪声。在电子系统中，自由电子的热运动是一种典型的高斯噪声源，其特点是在工作频段内，噪声的功.

2022-05-28 23:32:07 11480

原创可逆网络实现 RAW 和 RGB 图像转换：Invertible Image Signal Processing

1. 摘要未经处理的 RAW 数据对于图像编辑和计算机视觉来说是一种非常有价值的图像格式。然而，由于RAW 数据的文件大小巨大，大多数用户只能访问经过处理和压缩的 sRGB 图像。为了弥补这一差距，本文设计了一个可逆图像信号处理 (InvISP) pipline，它不仅能够渲染视觉上吸引人的 sRGB 图像，而且还允许恢复近乎完美的 RAW 数据。由于本文的框架固有的可逆性，可以重构真实的RAW 数据，而不是从 sRGB 图像合成 RAW 数据，而不需要任何内存开销。本文还集成了一个可微分的 JPEG .

2022-05-28 21:53:20 1594

原创真实场景超分算法-Real-ESRGAN

1. 介绍在单张图片超分辨率(Single Image Super-resolution)的问题中，许多方法都采用传统的 Bicubic 方法实现降采样，但是这与现实世界的降采样情况不同，太过单一。盲超分辨率(Blind Super-resolution)旨在恢复未知且复杂的退化的低分辨率图像。根据其使用的降采样方式不同，可以分为显式建模(explicit modeling)和隐式建模(implicit modeling)。显式建模：经典的退化模型由模糊、降采样、噪声和 JPEG压缩组成。但是现.

2022-05-07 23:39:22 6710

原创局部色调映射(Local Tone Mapping)

重建视觉外观是色调映射的终极目标。色调映射算法在降低高动态图像(HDR)范围的同时着力保护捕捉到的原始图像的外观。色调映射算子分两种策略，一种是全局的，另一种是局部的。1. 全局映射算子每一个像素点将会根据它的全图特征和亮度信息进行映射，不管其空间位置几何。全局算子一个比较典型的例子就是色调曲线。全局色调映射在处理12位(12-bit)深度的图像的时候是完全OK的，当图像的动态范围特别高的时候，那就不行了。这是因为所有的像素点都采取同一种方式进行处理，根本就没有管它是在较亮区域还是较暗区域。这样的话，.

2022-04-23 10:40:59 4973

原创高斯滤波的快速实现方法

1. 介绍二维高斯函数具有旋转对称性，处理后不会对哪一个方向上的边缘进行了过多的滤波，因此相对其他滤波器，具有无法比拟的优越性。但是传统Gauss滤波随着图像尺寸的增加，运算复杂度呈平方上涨，因此需要对其优化改进。下面，分别介绍传统型，分解型和递归迭代型三种实现方法。2. 传统型Gauss滤波首先需要构建一个Gauss滤波核，公式为：Matlab代码实现：dSigma =0.8;fK1=1.0/(2*dSigma*dSigma);fK2=fK1/pi;iSize = 5;step =.

2022-01-30 18:22:51 1408

原创实时语义分割网络模型-FasterSeg

1. 解决的问题先前的使用NAS搜索出的语义分割模型推理速度还不够快，且搜索空间有限。如果加入了延迟的限制，搜索出的网络容易出现"崩溃"现象：即模型倾向于低延迟但是准确率也会大打折扣。语义分割要求保留细节和丰富的上下文信息。FasterSeg发现了新的、更广泛的搜索空间，集成了多分辨率分支，为了更好地校准高精度和低延迟目标之间的平衡，提出了一种解耦的、细粒度的延迟正则化方法，解决了模型容易"崩溃"的问题。将FasterSeg扩展为一个共同搜索框架，在同一次运行中同时搜索一个教师和一个学生网络。知识蒸馏进.

2022-01-14 00:16:42 3201

原创基于内容自适应的视频超分辨率算法-SRVC

1. 介绍论文全名是《Efficient Video Compression via Content-Adaptive Super-Resolution》，作者全部来自麻省理工计算机科学与人工智能实验室（MIT CSAIL），这篇论文主要是使用视频超分辨率（video super-resolution）技术来完成视频压缩任务，从而应用于视频的传输（节省带宽）。2. 算法详解2.1 传统视频编码管线众所周知，将图像序列转成一个视频可以大大减少数据存储量（绝大部分情况）。但是，生成的视频如果要在网络上.

2021-12-11 11:01:51 2799

原创图像增强 Zero-DCE 估计增强曲线

1. 介绍在这篇论文中，我们呈现了一种新的深度学习方法，零参考深度曲线估计，来进行微光图像增强。它可以在各种各样的灯光条件包括不均匀和弱光情况进行处理。不同于执行图像到图像的映射，我们把任务重新设定为一个特定图像曲线估计问题。特别地，提出的这种方法把一个人微光图像作为输入，并把产生的高阶曲线作为它的输出。然后这些曲线被用作对输入的变化范围的像素级调整，从而获得一个增强的图像。曲线估计是精心制定的以便于它保持图像增强的范围并保留相邻像素的对比度。重要的是，它是可微的，因此，我们可以通过一个深度卷积神经网.

2021-11-29 00:06:01 6491 2

原创直方图的常见类型

1. 介绍直方图也叫柱状图，它以坐标轴上波形图的形式显示照片的曝光精度，其横轴表示亮度等级，从左侧0（暗色调）到右侧255（亮色调），将照片的亮度等级分为256级，而纵轴则表示每个亮度等级下的像素个数，峰值越高说明该明暗值的像素数量越多，在画面中所占的面积也就越大，将纵轴上这些像数值点连接起来，就形成了连续的直方图波形。通过直方图的横轴和纵轴我们可以理性地判断曝光是否合适，影像的层次是否丰富，是否超出了数码相机的动态范围等等。2. 直方图常见类型2.1 右坡型直方图，照片偏亮请添加图片描述从.

2021-11-27 10:09:12 7416

原创注意力机制在超分辨率中的应用总结

1. 注意机制可分为两种类型根据它们所适用的范围:通道注(CA)和空间注意(SA)。CA和SA可以进一步分为三个过程:squeeze:通过通道（CA）或空间区域（SA）从X中提取一个或多个统计量S的过程。统计量通过池化方法提取，SA可使用1X1的卷积。excitation:利用提取的统计数据，进行激励过程捕获通道(CA)或空间区域(SA)之间的相互关系，生成一个大小为1×1×C (CA)或H×W×1 (SA)。在所有的方法中，CA都使用两个全连接(FC)层，其瓶颈结构约简率为r。对于SA，使用一个.

2021-11-21 09:51:20 2639 1

原创人脸关键点标注工具

1. 开源工具整理imglabhttps://github.com/NaturalIntelligence/imglabHyperLabelImghttps://github.com/zeusees/HyperLabelImglabelKeypointhttps://github.com/Jeff-sjtu/labelKeypointFace-Annotation-Toolhttps://github.com/Mukosame/Face-Annotation-Tool补

2021-11-14 23:35:20 2193

原创人脸关键点数据集整理

1. 什么是关键点检测？人脸关键点检测是指给定人脸图像，定位出人脸面部的关键点，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓区域的点，由于受到姿态和遮挡等因素的影响，人脸关键点检测是一个富有挑战性的任务。人脸关键点是人脸各个部位的重要特征点，通常是轮廓点与角点，下图是96个面部关键点检测结果。其中点代表位置，数字代表序号。人脸关键点可以有以下主要应用：人脸姿态对齐，人脸识别等算法都需要对人脸的姿态进行对齐从而提高模型的精度。人脸美颜与编辑，基于关键点可以精确分析脸型、眼睛形状、鼻子形状等，从而对人脸.

2021-11-14 23:14:28 7988 1

原创人脸识别数据集-WebFace260M

1. 介绍本文介绍一个大规模的人脸识别数据集：WebFace260M，由 4M identities（身份）和 260M 人脸组成，为百万级深度人脸清洗和识别提供了很好的资源，如图1和Tab.1所示。又通过提纯，即所设计的可扩展高效的自训练 pipeline 对 WebFace260M 进行自动提纯，获得最大的训练集 WebFace42M，它在具有挑战性的 IJB-C 上得到新的SOTA，在 NIST-FRVT 上排名第三。为方便评估现实世界的应用，构建了 FRUITS 协议以及具有丰富属性的.

2021-11-11 21:52:07 2408 1

原创人脸识别数据集-Glint360K

1. 介绍学术界的测评比如IJB-C和megaface，利用该数据集很容易刷到SOTA，大家具体可以看论文，这里展示一下IFRT的结果，IFRT又称国产FRVT, IFRT测试集主要有不同肤色的素人构成，相比起IJB-C和megaface更具有模型的区分度。相比起目前最好的训练集MS1MV3，Glint360K有十个点的提升代码和数据地址论文地址2. 数据集的规模Glint360K具有36w类别，和1700w张图片，不论在类别数还是图片数目，相比起MS1MV2都是大幅度的提升，类别数目和图.

2021-11-11 21:40:58 1691 1

原创 3D LUT图像处理

1. 介绍在我们开始之前，先对必要的背景知识做一些简单的铺垫。LUT 是 Lookup Table 的缩写，在图像处理方面，LUT 可以用来完成类似滤镜的效果，其原理本质上就是一个映射关系，输入颜色 (r, g, b)，通过 LUT 去查找，得到一个新的颜色 (R, G, B)，则完成了一次映射操作。LUT 又分为 1D LUT 和 3D LUT，1D LUT 是指 R, G, B 三个分量互相不影响，都是独立映射，即存在 3 个映射 f1f_1f1, f2f_2f2, f3f_3f3，有如下关.

2021-10-31 17:10:23 7797 1

原创 torchvision.transforms使用详解

1. 介绍PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchvision.transforms。这3个子包的具体介绍可以参考官网：http://pytorch.org/docs/master/torchvision/index.html。具体代码可以参考github：https://github.com/pytorch/vision/tree/master/tor.

2021-09-25 12:09:51 8365 3

原创 NNI神经网络模型压缩教程

1. NNI简介NNI是微软发布的一款自动机器学习（AutoML）开源项目，对机器学习生命周期的各个环节做了更加全面的支持，包括特征工程、神经网络架构搜索（NAS）、超参调优和模型压缩在内的步骤，你都能使用自动机器学习算法来完成。微软自动深度学习工具 NNI 具备以下优势：支持多种框架：提供基于 Python 的 SDK，支持PyTorch、TensorFlow、scikit-learn、LightGBM 等主流框架和库；支持多种训练平台：除在本机直接运行外，还能通过 SSH 调度一组.

2021-06-05 13:17:06 2062 9

原创 BSRGAN | 一种针对真实图像退化的盲图像超分模型

1. 摘要众所周知，当图像超分的预假设退化模型与真实图像的退化方式不匹配时，模型的性能会出现性能下降，甚至负面效果现象。尽管已有集中退化模型考虑的额外的影响因素(比如模糊核以及程度)，但是它们仍然无法有效覆盖真实图像的多样性退化方式。为解决该问题，本文设计了一种更复杂但实用的退化模型，它包含对模糊、下采样以及噪声退化的随机置换(也就是说每种退化对应多种类型，且顺序会进行随机调整)。具体来说，模糊退化通过两个卷积(各向同性与各向异性高斯模糊)进行模拟；下采样从最近邻、双线性以及双三次插值中随机挑选；噪声.

2021-04-16 23:37:27 4256

原创 DiverseBranchBlock: “无痛涨点”的ACNet再进化，清华大学&旷视科技提出Inception类型的DBB

1. 摘要本文提出一种可以提升CNN性能且“推理耗时无损”的通用模块组件，我们将其称之为Diverse Branch Block(DBB)，它通过组合不同尺度、不同复杂度的分支(不同分支采用卷积序列、多尺度卷积或者均值池化)丰富特征空间的多样性达到提升单个卷积(注：推理时合并为单个卷积)表达能力的目的。一旦完成训练，一个DBB可以等价地转换为单个卷积以方便布署。不同于ConvNet架构的推陈出新，DBB在训练时采用了复杂的“微结构”且保持网络整体结构不变；而在推理/部署时，DBB这种复杂结构可以等价转.

2021-03-27 00:05:19 207 1

原创人像分割之ExtremeC3Net

1. 摘要人像分割任务作为许多任务的一个中间阶段，对实时性要求极高，并且当前缺乏大规模的人像分割数据集，为此论文提出ExtremeC3Net模型和用于进行数据扩充的简单方法。ExtremeC3Net基于改进的C3模块，能够实现精度较高速度极快的人像分割，并且这种极轻量化的分割网络也在其他任务中给了我们应用的启发。论文：https://arxiv.org/abs/1908.03093代码：https://github.com/clovaai/ext_portrait_segmentation2. 改.

2021-03-23 23:43:37 1026

原创图像处理之分块加速运算

1. 介绍图像处理的算法复杂度通常都比较高，计算也相应比较耗时。利用CPU多线程处理能力可以大幅度加快计算速度。但是，为了保证多线程处理的结果和单线程处理的结果完全相同，图像的多线程计算有一些需要特别考虑的地方。基本思路：为了能让多个线程同时并行处理，那么各自处理的数据不能有交集，这很好理解。那么基本思路是将一副图像分成多个子块，每个子块数据肯定是没有交集的，每个线程对一个子块数据进行处理，完成后将所有子块处理结果合成最终图像。首先，每个子块的大小当然是必须考虑的问题。通常当应用进行一个较长时间的操.

2021-03-23 23:19:24 1176

原创 RepVGG：极简架构，SOTA性能，让VGG式模型再次伟大

1.摘要本文提出了一个简单但功能强大的卷积神经网络架构，该架构推理时候具有类似于VGG的骨干结构，该主体仅由3 x 3卷积和ReLU堆叠组成，而训练时候模型采用多分支拓扑结构。训练和推理架构的这种解耦是通过结构重参数化技术实现的，因此该模型称为RepVGG。在ImageNet上，据我们所知，RepVGG的top-1准确性达到80％以上，这是老模型首次实现该精度。在NVIDIA 1080Ti GPU上，RepVGG模型的运行速度比ResNet-50快83％，比ResNet-101快101％，并且具有.

2021-03-20 13:33:53 1136

原创 SESR: 一种基于重参数化思想的超高效图像超分方案

1. 摘要随着智能设备开始支持4K、8K分辨率，图像超分已成为非常重要的计算机视觉问题。然后现有大多深度超分方案计算量非常大。本文提出了一种超高效超分方案(SESR)，它可以显著图像并降低计算复杂度。六个基准数据上的实验对比表明：所提SESR可以取得与SOTA模型相似或更好的图像质量同时仅需1/330~1/2不等的计算复杂度。因此，所提SESR可以在受限硬件平台上进行x2(即1080p超分到4K)与x4超分(即1080p超分到8K)。本文模拟了一个手机NPU的硬件性能水平对1080p图像进行x2和x4超

2021-03-18 23:56:30 3963

原创 Pytorch入门指南

在学习某个深度学习框架时，掌握其基本知识和接口固然重要，但如何合理组织代码，使得代码具有良好的可读性和可扩展性也必不可少。本文不会深入讲解过多知识性的东西，更多的则是传授一些经验，你可以将这部分当成是一种参考或提议，而不是作为必须遵循的准则。归根到底，都是希望你能以一种更为合理的方式组织自己的程序。在做深度学习实验或项目时，为了得到最优的模型结果，中间往往需要很多次的尝试和修改。根据我的个人经验，在从事大多数深度学习研究时，程序都需要实现以下几个功能：模型定义数据处理和加载训练模型（Train&.

2021-03-16 08:19:31 646

原创图像标注的简介

本文从五个需要进行标注的计算机视觉任务（物体检测、线/边缘检测、分割、姿态预测、图像分类）给大家介绍图像标注的种类，应用场景，以及各种标注的优缺点。1. 介绍每个数据科学任务都需要数据。具体地说，是输入系统的干净易懂的数据。说到图像，计算机需要看到人类眼睛看到的东西。例如，人类有识别和分类物体的能力。同样，我们可以使用计算机视觉来解释它接收到的视觉数据。这就是图像标注的作用。图像标注在计算机视觉中起着至关重要的作用。图像标注的目标是为和任务相关的、特定于任务的标签。这可能包括基于文本的标签(类..

2021-03-14 20:36:32 10547

原创 webrtc全平台下载编译步骤详细说明

1. 安装depot toolsWindows：国外下载：https://storage.googleapis.com/chrome-infra/depot_tools.zip下载完把压缩包解压，然后把解压目录加入PATH环境变量Linux（Android）/Mac（IOS）：安装git国外：git clone https://chromium.googlesource.com/chromium/tools/depot_tools.git国内：git clone https://source.

2021-03-06 09:41:55 951

原创 PyTorch中的padding操作

1. 介绍我们知道，在对图像执行卷积操作时，如果不对图像边缘进行填充，卷积核将无法到达图像边缘的像素，而且卷积前后图像的尺寸也会发生变化，这会造成许多麻烦。因此现在各大深度学习框架的卷积层实现上基本都配备了padding操作，以保证图像输入输出前后的尺寸大小不变。例如，若卷积核大小为3x3，那么就应该设定padding=1，即填充1层边缘像素；若卷积核大小为7x7，那么就应该设定padding=3，填充3层边缘像素；也就是padding大小一般设定为核大小的一半。在pytorch的卷积层定义中，默认的.

2021-02-25 22:34:56 4226 1

转载怎样从Buffer加载AI模型

我们在进行CNN模型推理的时候，需要预先从DDR或者ROM中加载AI模型。大家平时一般用的是create from file的形式，为了保护自己的模型IP，一般会在模型上面做一些混淆。下面我们介绍另外一种方式，create from buffer。在编译算法sdk的阶段，可以将AI模型作为机器码编译进so中，算法加载的时候从栈内存进行加载就可以。这样模型的参数和定义就不会暴露在用户层面，目前MNN、NCNN和RKNN等都提供了create from buffer的类似接口，非常方便用户们进行使用。使用的方

2021-02-23 22:31:12 438

空空如也

空空如也