自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI Flash

模型压缩与优化加速

  • 博客(67)
  • 资源 (4)
  • 收藏
  • 关注

原创 SmoothQunat——LLM激活值量化的等价均衡

基于LLM.int8()的分析,随着语言大模型参数规模增大,激活中的异常值(Outlier)占比会显著上升,导致激活值量化误差增大。将LayerNorm中的gamma系数转移至Weight;使用token-wise限幅减少异常值。通过Activation与Weight的等价均衡变换,改善激活量化。使用token-wise动态量化对激活进行量化;Outlier相关的量化方法。对异常值所在列,使用浮点计算。

2023-03-26 14:45:24 707 1

原创 生成式语言大模型压缩技术思考——以ChatGPT为例

ChatGPT是基于GPT3.5(1750亿参数规模)训练获得的,其模型结构为Decoder-only单向掩码架构,推理部署需要多卡分布式推理调度的支持。

2023-02-26 15:40:29 6455

原创 LLM.int8()——自适应混合精度量化方法

随着参数规模的增加,大模型(如GPT-3,OPT-175B等NLP稠密大模型)的实际部署应用,需要消耗一定的计算/存储成本,且推理响应延迟存在限制。

2022-12-04 21:51:41 2874

原创 Transformer模型的训练后剪枝方法

最终,针对BERT-base与DistilBERT的结构剪枝,通过本文提出的训练后剪枝方法,在GLUE与SQuAD数据集上,能够实现2x的FLOPS降解、1.56x的推理加速,精度损失低于1%;因此,针对给定的约束条件,通过最小化剪除的Attention heads与FFN Neurons的重要性,可实现剪枝Mask的搜索,搜索算法如下(类似于Post-training量化,仅需少量无标注数据的校准(特征对齐、最小化重建误差等校准方法),通过训练后压缩方法便能获得较好的压缩效果,且。

2022-10-07 09:32:17 3095

原创 Decoupled Knowledge Distillation——目标分布与非目标分布相解耦

传统KD loss中Teacher的目标概率越高,NCKD越被抑制;然而,单独使用TCKD鲜有收益,而在某些场景下单独使用NCKD、可获得比TCKD更好的效果(详见论文的Ablation分析);并且,TCKD主要迁移难例相关的知识,NCKD则能够真正反映暗知识(Dark knowledge)。通过将网络Classification Head预测的概率分布、解耦为目标分布与非目标分布,并分别计算二者的蒸馏Loss(Teacher的预测输出亦作相同解耦),然后进行加权求和获得新的蒸馏Loss。

2022-08-19 21:30:37 1607

原创 AdaViT——自适应选择计算结构的动态网络

Paper地址:https://arxiv.org/abs/2111.15668GitHub链接:GitHub - MengLcool/AdaViT: Official implementation of AdaViTViT基于其自身结构的特点或优势,具备较好的抽象语义表达或特征表征能力:然而,针对不同难易程度的样本,ViT实际计算所需的Patch数量、Attention head数目或网络层数可以存在区别,因此可构成样本驱动形式的条件计算。 ​AdaViT通过设计动态网络结构,可根据输入样本的难易、自适应

2022-07-02 20:36:27 918

原创 ViT Slimming——联合结构搜索与Patch Selection

Paper地址:https://arxiv.org/abs/2201.00814GitHub链接:https://github.com/Arnav0400/ViT-SlimViT Slimming通过结构搜索与Patch selection的结合,一方面实现了多维度、多尺度结构压缩,另一方面减少了Patch或Token的长度冗余,从而有效减少参数量与计算量。具体而言,为ViT结构中流动的Tensor定义了相应的Soft mask,在计算时将二者相乘,并在Loss function中引入Soft mask的L

2022-06-03 16:13:55 828

原创 Generative Data-free Quantization——生成式无数据训练后量化方法

前言针对深度学习模型的边缘、移动端设备部署,模型量化已经成为必不可少的技术手段,一方面可缓解模型存储、运行时内存的Overhead(例如INT8量化的理论压缩比为4倍),另一方面通过专用整形计算单元或加速指令可实现推理加速(例如NV GPU的TensorCore单元)。出于用户隐私与数据安全考虑,大多数场景应用仅提供少量无标注数据以支持Label-freePTQ,或者不提供任何数据。在用户不提供任何数据时,Data-free Quantization需要借助Pre-trained Mode...

2022-05-15 21:52:44 1653

原创 Focal and Global Knowledge Distillation——目标检测网络的知识蒸馏

Paper地址:https://arxiv.org/abs/2111.11837GitHub链接:https://github.com/yzd-v/FGD方法FGKD(Focal and Global Knowledge Distillation)通过Focal distillation与Global distillation的结合,兼顾了Instance-level信息、Spatial/Channel Attention以及全局相关性信息。首先定义前背景分离Mask、Attenti

2022-05-01 22:44:04 1429 3

原创 MetaTransformer——ViT标准模型结构

Paper地址:https://arxiv.org/abs/2111.11418GitHub链接:GitHub - sail-sg/poolformer: PoolFormer: MetaFormer is Actually What You Need for Vision (CVPR 2022 Oral)方法主流Vision Transformer (ViT)模型的基本模块包含MSA与FFN,其中MSA通过Attention执行Token间相关性建模,实现Context信息编码。由于MSA

2022-04-22 22:39:50 2678

原创 随笔记录——NLP与ASR的数据增强

自然语言处理(NLP: Natural Language Processing)与语音识别(ASR: Automatic Speech Recognition)都是典型的序列识别任务,现阶段皆可以按Transformer模型架构进行建模处理,如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。Transformer模型的输入,表示为Sequence embeddings(序列特征),其中NLP的输入Embedding、表示Token的高维矢量编码,ASR的输入特

2022-04-05 20:33:27 3692

原创 AdapLeR——基于Adaptive Length Reduction的BERT推理优化

Paper地址:https://arxiv.org/abs/2203.08991GitHub链接:GitHub - amodaresi/AdapLeR通过生成式自监督训练(Generative Self-supervised Learning),预训练模型能够充分掌握语境相关的知识与信息,典型代表如BERT预训练任务MLM、ViT预训练任务MAE、推荐模型预训练任务Next-query Prediction等。对于BERT模型而言,在充分的大规模预训练之后,针对特定的下游任务,凭借语境知识与少量To

2022-03-27 20:15:29 2142

原创 ViT结构优化——Searching the Search Space (S3 NAS)

Paper地址:https://arxiv.org/abs/2111.14725GitHub链接:https://github.com/microsoft/Cream概述网络结构搜索(NAS: Neural-network Architecture Search)的设计收敛,首先取决于搜索空间的设计收敛,其次取决于搜索算法的设计收敛,最终结合平台约束、生成一系列满足Trade-off的优化解(构成Pareto-front)。针对Vision-Transformer,为了实现较之AutoFor

2022-03-06 20:04:59 3474

原创 随笔记录——FCOS及其应用

Paper地址:https://arxiv.org/abs/1904.01355FCOS简介FCOS是全卷积、单阶段、无锚框类型的目标检测器(Fully Convolutional One-stage Anchor-free Objector Detector),自提出以来被广泛应用于图像/视频内容理解领域,包括商品检索、Logo检测等应用。FCOS总体结构、及特点如下:全卷积网络: Backbone、Neck与Head均为全卷积构造,以便于模块化建模、可扩展应用与推理优化支持(如Ten

2022-02-12 17:12:42 2158

原创 FBNetV5——一种面向多任务的高效NAS方法

Paper地址:https://arxiv.org/pdf/2111.10007前言网络结构搜索(NAS:Neural Architecture Search),主要的Motivation有两点:针对特定任务与部署平台,设计精度与速度折中最佳的模型结构; 实现结构设计或搜索的自动化,减轻人工成本与计算资源开销,以提升生产效率;但影响NAS方法可泛化、普遍应用的主要原因包括:过去的NAS工作主要聚焦于图像分类任务,并认为适用于图像分类的最佳模型,也能成为其他任务(如检测、分割等)的最佳

2022-01-29 22:17:33 5080 3

原创 随笔记录——不同模态信号、表征与应用

深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示,并应用于不同的任务场景。如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音

2022-01-23 15:38:53 3722

原创 Polarization Regularizer——极化剪枝

Paper地址:https://papers.nips.cc/paper/2020/file/703957b6dd9e3a7980e040bee50ded65-Paper.pdfGitHub地址:https://github.com/polarizationpruning/PolarizationPruning基本原理基于L1 regularizer的剪枝技术,其Scaling factors(用于生成剪枝Masking)的数据分布不容易被区分。因而,由剪枝率决定的Threshold,容易筛

2021-12-01 17:17:54 1493 1

原创 PTQ4ViT: Vision Transformer的PTQ方法与框架

参考论文:https://arxiv.org/abs/2111.12293前言将传统的PTQ策略(文章以对称均匀量化为例)直接应用于Vision Transformer,通常会导致较大的精度损失,例如实施8bits量化时,预测精度损失可能超过1%,主要原因在于,Post-Softmax与Post-GELU输出激活的数据分布是偏离高斯分布的:首先在Self-Attention模块中,Softmax计算输出的Attention map呈现对角线聚焦分布、体现出严重的不平衡分布(unbalanced

2021-11-26 20:06:51 1635

原创 NetAug——增强Tiny-model的训练效果

Paper地址:https://arxiv.org/abs/2110.08890前言通常当深度学习模型的参数规模较大,甚至大于数据集规模时(例如ResNet50与ImageNet2012-1K),常规模型训练容易陷入过拟合状态(Over-fitting)。因此可引入一系列训练增强技巧(正则化技术)、以增强训练效果,诸如Data Augmentation与Dropout等技术:Data Augmentation通过对采样数据施加变换操作,能够引入数据噪声(如高斯白噪声、随机旋转、随机裁剪、随机Re

2021-10-25 12:57:20 812

原创 NAS-Bert——确保One-shot与Task-agnostic

Paper地址:https://arxiv.org/abs/2105.14444概述NAS-Bert在大规模预训练阶段(Bert自监督预训练),通过实施权重共享形式的One-shot NAS,实现了Once for all与Task-agnostic两个目的,分别满足不同平台资源约束的压缩需求、以及不同下游任务的迁移训练需求。Method搜索空间:基于Weight-sharing的特点(Single-path One-shot形式),每个Bert layer(进一步细分为2个Sub-laye

2021-10-14 16:03:48 646

原创 Bert/Transformer模型压缩与优化加速

前言Bert/Transformer结构及其变体,已成为自然语言处理 (NLP)、语音识别 (ASR)等领域的主流序列建模结构。并且,相比于卷积操作的局部特征提取能力、以及平移不变性,Self-attention的全局Context信息编码能力,能够使视觉模型具备更强的特征表达能力、与领域适应性。因此在计算机视觉领域,Vision Transformer结构也日益流行、方兴未艾。然而,Transformer模型的高计算复杂度与参数量,限制了模型的推理部署(包括服务端与移动端应用),其计算、存储与运行时内

2021-09-14 20:13:50 9962 5

原创 AutoFormer——首个Vision Transformer的One-shot NAS

Paper地址:https://arxiv.org/abs/2107.00651GitHub地址:https://github.com/microsoft/AutoML前言Bert/Transformer结构,已成为自然语言处理、语音识别与多模态匹配等模型的主流结构,视觉模型也逐渐往Transformer结构收敛。本文针对视觉Transformer提出了AutoFormer方法,是一种基于weight entanglement的One-shot NAS,充分预训练的超网络、能满足多种资源约束的部

2021-08-16 18:57:24 955

原创 VR-DANN: 联合视频解码与AI处理

方案概述联合视频解码、与视频的AI分割/检测处理,提升视频AI处理实时性; 参考论文:https://ieeexplore.ieee.org/abstract/document/9251974算法步骤解码I/P关键帧,获取B关键帧的运动矢量; 将NN-L (ROI SegNet)模型,应用于I/P帧,获得参考分割结果; 利用参考分割结果、与运动矢量,重建B帧的分割结果; 将I/P帧分割结果、与B帧重建分割结果,组成三通道Tensor、送入NN-S执行Refine,消除边界模糊;主要特点

2021-08-09 13:52:22 581

原创 Hardware-Aware Transformers (HAT)——Transformer模型的NAS策略

paper: https://arxiv.org/abs/2005.14187github: https://github.com/mit-han-lab/hardware-aware-transformers相关论文:once-for-all: https://arxiv.org/abs/1908.09791bigNAS: https://arxiv.org/abs/2003.11142Introduction当需要对Transformer进行NAS的时候,面临两个问题..

2021-06-16 11:43:42 1028

原创 AttentiveNAS——采用Attentive Sampling改善NAS效果

Paper链接:https://arxiv.org/abs/2011.09011GitHub (PyTorch):https://github.com/facebookresearch/AttentiveNASTwo Stage One-shot NAS结合资源约束的网络结构搜索(NAS: Network Architecture Search),通常被定义为如下形式(以FLOPS约束为例):其中A表示搜索空间,可以是Input Resolution、Kernel size、Wid.

2021-05-05 18:02:21 759 1

原创 AdaQuant——基于优化方式求解量化参数

背景模型经过量化,势必引入量化噪声;大多数情况下,会导致推理精度下降; 为改善量化后精度,通常的策略: PTQ路线:改进PTQ策略(如KL改进),或叠加有助于减少量化误差的PTQ策略(如ADMM、Bias Correction、AMP); 优势:简单易用,见效快; 劣势:未必能完全消除精度损失; QAT路线:通过训练数据微调,改善量化效果; 优势:精度效果相对更好;更适合极低精度量化; 劣势:存在训练成本,维护升级相对吃力;精度效果未必好,也依赖策略选择;

2021-04-16 19:44:30 4124

原创 自蒸馏One-shot NAS——Cream of the Crop

Paper:https://arxiv.org/abs/2010.15821GitHub (NNI):https://github.com/microsoft/nni/blob/master/docs/en_US/NAS/Cream.rstGitHub:https://github.com/microsoft/CreamCream基本原理One-shot NAS: 搜索过程中,设置Prioritized Board,收集精度与速度满足要求的最佳Sub-networks,并按末尾淘汰.

2021-02-26 16:55:35 1064 1

原创 INT16乘累加防溢出量化训练——Overflow-aware Quantization

简介参考论文:https://arxiv.org/abs/2005.13297 OAQ (Overflow-aware Quantization)利用量化比特位宽的表示冗余,借助INT16单元寄存中间、与最终乘累加结果,在ARM平台上实现计算加速;基本原理文章基于TF-Lite的非对称量化训练算法,提出了INT16乘累加防溢出条件:总体来说,要求整数的中间乘累加、与最终累积结果不能溢出INT16范围; 文章通过引入可调整的alpha因子,提出了整数量化范围的自适应调整机制: .

2021-01-11 18:54:57 1645

原创 ADMM深度模型稀疏化训练

基本原理参考论文:https://arxiv.org/abs/1804.03294GitHub:https://github.com/microsoft/nni/blob/master/nni/algorithms/compression/pytorch/pruning/admm_pruner.py组合优化问题基本的优化问题:引入辅助变量、对偶变量,构造ADMM正则化约束:交替方向优化求解固定Z与U,通过SGD优化求解得到:固定W,更新得到Z与U:..

2020-12-19 16:46:41 2170 3

原创 端到端Transformer模型的混合精度后量化

端到端Transformer模型的混合精度后量化,需要克服如下难点:Transformer自回归模型,包含了Encoder与Decoder;端到端模型压缩的支持,需要考虑自回归逻辑(Beam Search)的复杂实现; 后量化需要考虑合理、有效的策略,确保量化鲁棒性; 混合精度决策需要考虑实现的高效性,通常采用Label-free方式;具体可参考端到端语音识别的移动端解决方案;...

2020-11-18 14:01:34 1800

原创 FBNetV1, FBNetV2

"FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search"Paper Link: https://arxiv.org/abs/1812.03443Github (PyTorch): https://github.com/AnnaAraslanova/FBNetIntroductionSearch SpaceDARTS、AdaBert等方法: 以Cell

2020-09-27 11:37:53 590

原创 具备记忆单元的Transformer ASR (SAN-M)

"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中,取得了显著的改进效果。Paper地址:https://arxiv.org/abs/2006.01713Introduction传统ASR方案采用混合架构,包含了单独的AM、PM、LM; 端到端的ASR方案(将AM、PM、LM集成到一个模型),主要有两种方案: AM+CT

2020-08-20 11:51:03 2646

原创 Proxyless NAS: Direct Neural Architecture Search on Target Task and Hardware

Paper:https://arxiv.org/abs/1812.00332GitHub (PyTorch):https://github.com/mit-han-lab/proxylessnasIntroductionNAS能够针对目标任务、以及目标部署平台,按自动化方式、搜索出性能与效率折中最好的网络结构; 如果目标任务的数据集规模比较大,通常会设计Proxy task (简化的中间任务),作为桥接目标任务的桥梁:在Proxy task上的评估结果,可间接反映目标任务上的效果,用来指导N

2020-07-13 17:58:42 1097

原创 Transformer端侧模型压缩——Mobile Transformer

随着Transformer模型在NLP、ASR等序列建模中的普及应用,其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型,借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。 The Evolved Transformer Paper Link:https://arxiv.org/abs/1901.1111.

2020-06-19 16:13:26 6013

原创 Learning Dynamic Routing for Semantic Segmentation——在线动态定义网络结构

Paper Link:https://arxiv.org/abs/2003.10401GitHub (PyTorch):https://github.com/yanwei-li/DynamicRoutingIntroduction如何有效应对输入图像中目标尺度的差异与多样性,是语义分割面临的一个难题; 传统的解法主要是设计良好的静态网络结构:FCN, U-Net, PSPNet, Conv-Deconv, SegNet等;针对特定场景与目标硬件,也可以通过NAS自动搜索有效的网络结构:..

2020-05-29 15:16:51 1810

原创 CenterMask : Real-Time Anchor-Free Instance Segmentation

Paper Link:https://arxiv.org/abs/1911.06667GitHub (PyTorch):https://github.com/youngwanLEE/CenterMaskIntroduction实例分割的经典代表,包括Mask-RCNN与YOLACT等; Mask-RCNN基于two-stage检测框架,mask AP相对较高,但执行速度较慢; ...

2020-04-23 20:28:02 3282

原创 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

Paper link:https://arxiv.org/abs/2001.00309GitHub (PyTorch, 基于Detectron2):https://github.com/aim-uofa/adetIntroduction实例分割任务需要执行dense per-pixel prediction,在完成像素级语义分类的同时,需要鉴别出目标实例鉴。基于深度学习的实例...

2020-03-28 20:37:44 2304

原创 基于可训练Step-size的低比特量化——LSQ: Learned Step-size Quantization

Paper地址:https://arxiv.org/abs/1902.08153GitHub地址 (PyTorch):https://github.com/zhutmost/lsq-net基本量化设置计算结点伪量化:Weight跟Activation都采用Per-tensor量化; Scaling factor (Paper标记为Step size)是可学习参数;量化计算公式...

2020-02-12 11:37:14 6228 3

原创 NVIDIA INT4量化算法介绍

MLPerf是由来自学界和业界的多个组织(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同发布的新型AI基准平台,用于衡量机器学习平台的AI性能,是目前业界最权威、最公正的AI性能评测平台之一。MLPerf目前已推出v0.5评测结果,参赛队伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企业。MLPerf详情见官方网站的介绍:https://www....

2020-01-24 14:40:22 5498

原创 网络结构搜索 (NAS: Network Architecture Search)

NAS Definition基于搜索策略,并结合约束条件 (如accuracy、latency),在搜索空间内 (set of candidate operations or blocks)探索最优网络结构、或组件结构 (如detector的backbone、FPN); 高效的NAS算法,通常是Trade-off between data-driven and experience-driv...

2020-01-04 11:09:21 8024

TensorRT推理加速

TensorRT Python API的使用,8bits量化,语义分割方面的应用。

2018-05-07

深度学习方面的关键技术介绍

华为云深度学习方面的关键技术介绍,包括训练、推理部署,模型压缩等算法

2018-05-07

VLSI Digital Signal Processing Systems:Design and Implementation

VLSI Digital Signal Processing Systems:Design and Implementation

2014-05-13

VerilogHDL简明教程_清华大学

清华大学微电子所的VLSI教程之Verilog HDL

2014-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除