Law-Yao-CSDN博客

原创 SmoothQunat——LLM激活值量化的等价均衡

基于LLM.int8()的分析，随着语言大模型参数规模增大，激活中的异常值（Outlier）占比会显著上升，导致激活值量化误差增大。将LayerNorm中的gamma系数转移至Weight；使用token-wise限幅减少异常值。通过Activation与Weight的等价均衡变换，改善激活量化。使用token-wise动态量化对激活进行量化；Outlier相关的量化方法。对异常值所在列，使用浮点计算。

2023-03-26 14:45:24 707 1

原创生成式语言大模型压缩技术思考——以ChatGPT为例

ChatGPT是基于GPT3.5（1750亿参数规模）训练获得的，其模型结构为Decoder-only单向掩码架构，推理部署需要多卡分布式推理调度的支持。

2023-02-26 15:40:29 6455

原创 LLM.int8()——自适应混合精度量化方法

随着参数规模的增加，大模型（如GPT-3，OPT-175B等NLP稠密大模型）的实际部署应用，需要消耗一定的计算/存储成本，且推理响应延迟存在限制。

2022-12-04 21:51:41 2874

原创 Transformer模型的训练后剪枝方法

最终，针对BERT-base与DistilBERT的结构剪枝，通过本文提出的训练后剪枝方法，在GLUE与SQuAD数据集上，能够实现2x的FLOPS降解、1.56x的推理加速，精度损失低于1%；因此，针对给定的约束条件，通过最小化剪除的Attention heads与FFN Neurons的重要性，可实现剪枝Mask的搜索，搜索算法如下（类似于Post-training量化，仅需少量无标注数据的校准（特征对齐、最小化重建误差等校准方法），通过训练后压缩方法便能获得较好的压缩效果，且。

2022-10-07 09:32:17 3095

原创 Decoupled Knowledge Distillation——目标分布与非目标分布相解耦

传统KD loss中Teacher的目标概率越高，NCKD越被抑制；然而，单独使用TCKD鲜有收益，而在某些场景下单独使用NCKD、可获得比TCKD更好的效果（详见论文的Ablation分析）；并且，TCKD主要迁移难例相关的知识，NCKD则能够真正反映暗知识（Dark knowledge）。通过将网络Classification Head预测的概率分布、解耦为目标分布与非目标分布，并分别计算二者的蒸馏Loss（Teacher的预测输出亦作相同解耦），然后进行加权求和获得新的蒸馏Loss。

2022-08-19 21:30:37 1607

原创 AdaViT——自适应选择计算结构的动态网络

Paper地址：https://arxiv.org/abs/2111.15668GitHub链接：GitHub - MengLcool/AdaViT: Official implementation of AdaViTViT基于其自身结构的特点或优势，具备较好的抽象语义表达或特征表征能力：然而，针对不同难易程度的样本，ViT实际计算所需的Patch数量、Attention head数目或网络层数可以存在区别，因此可构成样本驱动形式的条件计算。 AdaViT通过设计动态网络结构，可根据输入样本的难易、自适应

2022-07-02 20:36:27 918

原创 ViT Slimming——联合结构搜索与Patch Selection

Paper地址：https://arxiv.org/abs/2201.00814GitHub链接：https://github.com/Arnav0400/ViT-SlimViT Slimming通过结构搜索与Patch selection的结合，一方面实现了多维度、多尺度结构压缩，另一方面减少了Patch或Token的长度冗余，从而有效减少参数量与计算量。具体而言，为ViT结构中流动的Tensor定义了相应的Soft mask，在计算时将二者相乘，并在Loss function中引入Soft mask的L

2022-06-03 16:13:55 828

原创 Generative Data-free Quantization——生成式无数据训练后量化方法

前言针对深度学习模型的边缘、移动端设备部署，模型量化已经成为必不可少的技术手段，一方面可缓解模型存储、运行时内存的Overhead（例如INT8量化的理论压缩比为4倍），另一方面通过专用整形计算单元或加速指令可实现推理加速（例如NV GPU的TensorCore单元）。出于用户隐私与数据安全考虑，大多数场景应用仅提供少量无标注数据以支持Label-freePTQ，或者不提供任何数据。在用户不提供任何数据时，Data-free Quantization需要借助Pre-trained Mode...

2022-05-15 21:52:44 1653

原创 Focal and Global Knowledge Distillation——目标检测网络的知识蒸馏

Paper地址：https://arxiv.org/abs/2111.11837GitHub链接：https://github.com/yzd-v/FGD方法FGKD（Focal and Global Knowledge Distillation）通过Focal distillation与Global distillation的结合，兼顾了Instance-level信息、Spatial/Channel Attention以及全局相关性信息。首先定义前背景分离Mask、Attenti

2022-05-01 22:44:04 1429 3

原创 MetaTransformer——ViT标准模型结构

Paper地址：https://arxiv.org/abs/2111.11418GitHub链接：GitHub - sail-sg/poolformer: PoolFormer: MetaFormer is Actually What You Need for Vision (CVPR 2022 Oral)方法主流Vision Transformer (ViT)模型的基本模块包含MSA与FFN，其中MSA通过Attention执行Token间相关性建模，实现Context信息编码。由于MSA

2022-04-22 22:39:50 2678

原创随笔记录——NLP与ASR的数据增强

自然语言处理（NLP: Natural Language Processing）与语音识别（ASR: Automatic Speech Recognition）都是典型的序列识别任务，现阶段皆可以按Transformer模型架构进行建模处理，如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。Transformer模型的输入，表示为Sequence embeddings（序列特征），其中NLP的输入Embedding、表示Token的高维矢量编码，ASR的输入特

2022-04-05 20:33:27 3692

原创 AdapLeR——基于Adaptive Length Reduction的BERT推理优化

Paper地址：https://arxiv.org/abs/2203.08991GitHub链接：GitHub - amodaresi/AdapLeR通过生成式自监督训练（Generative Self-supervised Learning），预训练模型能够充分掌握语境相关的知识与信息，典型代表如BERT预训练任务MLM、ViT预训练任务MAE、推荐模型预训练任务Next-query Prediction等。对于BERT模型而言，在充分的大规模预训练之后，针对特定的下游任务，凭借语境知识与少量To

2022-03-27 20:15:29 2142

原创 ViT结构优化——Searching the Search Space (S3 NAS)

Paper地址：https://arxiv.org/abs/2111.14725GitHub链接：https://github.com/microsoft/Cream概述网络结构搜索（NAS: Neural-network Architecture Search）的设计收敛，首先取决于搜索空间的设计收敛，其次取决于搜索算法的设计收敛，最终结合平台约束、生成一系列满足Trade-off的优化解（构成Pareto-front）。针对Vision-Transformer，为了实现较之AutoFor

2022-03-06 20:04:59 3474

原创随笔记录——FCOS及其应用

Paper地址：https://arxiv.org/abs/1904.01355FCOS简介FCOS是全卷积、单阶段、无锚框类型的目标检测器（Fully Convolutional One-stage Anchor-free Objector Detector），自提出以来被广泛应用于图像/视频内容理解领域，包括商品检索、Logo检测等应用。FCOS总体结构、及特点如下：全卷积网络： Backbone、Neck与Head均为全卷积构造，以便于模块化建模、可扩展应用与推理优化支持（如Ten

2022-02-12 17:12:42 2158

原创 FBNetV5——一种面向多任务的高效NAS方法

Paper地址：https://arxiv.org/pdf/2111.10007前言网络结构搜索（NAS：Neural Architecture Search），主要的Motivation有两点：针对特定任务与部署平台，设计精度与速度折中最佳的模型结构；实现结构设计或搜索的自动化，减轻人工成本与计算资源开销，以提升生产效率；但影响NAS方法可泛化、普遍应用的主要原因包括：过去的NAS工作主要聚焦于图像分类任务，并认为适用于图像分类的最佳模型，也能成为其他任务（如检测、分割等）的最佳

2022-01-29 22:17:33 5080 3

原创随笔记录——不同模态信号、表征与应用

深度学习模型（主要是感知类模型）接受的输入信号，主要包括图像、文本、语音等信号。不同模态的输入信号，经过模型的逐层抽象、转换之后，转变为不同程度的抽象表示，并应用于不同的任务场景。如上图所示，深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段，不同阶段的输入/输出具备不同的含义，简述如下（图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例）：输入信号：模型接收的输入信号，是原始的、或仅初步加工的数据（raw data），包括自然信号（图像、语音

2022-01-23 15:38:53 3722

原创 Polarization Regularizer——极化剪枝

Paper地址：https://papers.nips.cc/paper/2020/file/703957b6dd9e3a7980e040bee50ded65-Paper.pdfGitHub地址：https://github.com/polarizationpruning/PolarizationPruning基本原理基于L1 regularizer的剪枝技术，其Scaling factors（用于生成剪枝Masking）的数据分布不容易被区分。因而，由剪枝率决定的Threshold，容易筛

2021-12-01 17:17:54 1493 1

原创 PTQ4ViT: Vision Transformer的PTQ方法与框架

参考论文：https://arxiv.org/abs/2111.12293前言将传统的PTQ策略（文章以对称均匀量化为例）直接应用于Vision Transformer，通常会导致较大的精度损失，例如实施8bits量化时，预测精度损失可能超过1%，主要原因在于，Post-Softmax与Post-GELU输出激活的数据分布是偏离高斯分布的：首先在Self-Attention模块中，Softmax计算输出的Attention map呈现对角线聚焦分布、体现出严重的不平衡分布（unbalanced

2021-11-26 20:06:51 1635

原创 NetAug——增强Tiny-model的训练效果

Paper地址：https://arxiv.org/abs/2110.08890前言通常当深度学习模型的参数规模较大，甚至大于数据集规模时（例如ResNet50与ImageNet2012-1K），常规模型训练容易陷入过拟合状态（Over-fitting）。因此可引入一系列训练增强技巧（正则化技术）、以增强训练效果，诸如Data Augmentation与Dropout等技术：Data Augmentation通过对采样数据施加变换操作，能够引入数据噪声（如高斯白噪声、随机旋转、随机裁剪、随机Re

2021-10-25 12:57:20 812

原创 NAS-Bert——确保One-shot与Task-agnostic

Paper地址：https://arxiv.org/abs/2105.14444概述NAS-Bert在大规模预训练阶段（Bert自监督预训练），通过实施权重共享形式的One-shot NAS，实现了Once for all与Task-agnostic两个目的，分别满足不同平台资源约束的压缩需求、以及不同下游任务的迁移训练需求。Method搜索空间：基于Weight-sharing的特点（Single-path One-shot形式），每个Bert layer（进一步细分为2个Sub-laye

2021-10-14 16:03:48 646

原创 Bert/Transformer模型压缩与优化加速

前言Bert/Transformer结构及其变体，已成为自然语言处理 (NLP)、语音识别 (ASR)等领域的主流序列建模结构。并且，相比于卷积操作的局部特征提取能力、以及平移不变性，Self-attention的全局Context信息编码能力，能够使视觉模型具备更强的特征表达能力、与领域适应性。因此在计算机视觉领域，Vision Transformer结构也日益流行、方兴未艾。然而，Transformer模型的高计算复杂度与参数量，限制了模型的推理部署（包括服务端与移动端应用），其计算、存储与运行时内

2021-09-14 20:13:50 9962 5

原创 AutoFormer——首个Vision Transformer的One-shot NAS

Paper地址：https://arxiv.org/abs/2107.00651GitHub地址：https://github.com/microsoft/AutoML前言Bert/Transformer结构，已成为自然语言处理、语音识别与多模态匹配等模型的主流结构，视觉模型也逐渐往Transformer结构收敛。本文针对视觉Transformer提出了AutoFormer方法，是一种基于weight entanglement的One-shot NAS，充分预训练的超网络、能满足多种资源约束的部

2021-08-16 18:57:24 955

原创 VR-DANN: 联合视频解码与AI处理

方案概述联合视频解码、与视频的AI分割/检测处理，提升视频AI处理实时性；参考论文：https://ieeexplore.ieee.org/abstract/document/9251974算法步骤解码I/P关键帧，获取B关键帧的运动矢量；将NN-L (ROI SegNet)模型，应用于I/P帧，获得参考分割结果；利用参考分割结果、与运动矢量，重建B帧的分割结果；将I/P帧分割结果、与B帧重建分割结果，组成三通道Tensor、送入NN-S执行Refine，消除边界模糊；主要特点

2021-08-09 13:52:22 581

原创 Hardware-Aware Transformers (HAT)——Transformer模型的NAS策略

paper: https://arxiv.org/abs/2005.14187github: https://github.com/mit-han-lab/hardware-aware-transformers相关论文：once-for-all: https://arxiv.org/abs/1908.09791bigNAS: https://arxiv.org/abs/2003.11142Introduction当需要对Transformer进行NAS的时候，面临两个问题..

2021-06-16 11:43:42 1028

原创 AttentiveNAS——采用Attentive Sampling改善NAS效果

Paper链接：https://arxiv.org/abs/2011.09011GitHub (PyTorch)：https://github.com/facebookresearch/AttentiveNASTwo Stage One-shot NAS结合资源约束的网络结构搜索（NAS: Network Architecture Search），通常被定义为如下形式（以FLOPS约束为例）：其中A表示搜索空间，可以是Input Resolution、Kernel size、Wid.

2021-05-05 18:02:21 759 1

原创 AdaQuant——基于优化方式求解量化参数

背景模型经过量化，势必引入量化噪声；大多数情况下，会导致推理精度下降；为改善量化后精度，通常的策略： PTQ路线：改进PTQ策略（如KL改进），或叠加有助于减少量化误差的PTQ策略（如ADMM、Bias Correction、AMP）；优势：简单易用，见效快；劣势：未必能完全消除精度损失； QAT路线：通过训练数据微调，改善量化效果；优势：精度效果相对更好；更适合极低精度量化；劣势：存在训练成本，维护升级相对吃力；精度效果未必好，也依赖策略选择；

2021-04-16 19:44:30 4124

原创自蒸馏One-shot NAS——Cream of the Crop

Paper：https://arxiv.org/abs/2010.15821GitHub (NNI)：https://github.com/microsoft/nni/blob/master/docs/en_US/NAS/Cream.rstGitHub：https://github.com/microsoft/CreamCream基本原理One-shot NAS：搜索过程中，设置Prioritized Board，收集精度与速度满足要求的最佳Sub-networks，并按末尾淘汰.

2021-02-26 16:55:35 1064 1

原创 INT16乘累加防溢出量化训练——Overflow-aware Quantization

简介参考论文：https://arxiv.org/abs/2005.13297 OAQ (Overflow-aware Quantization)利用量化比特位宽的表示冗余，借助INT16单元寄存中间、与最终乘累加结果，在ARM平台上实现计算加速；基本原理文章基于TF-Lite的非对称量化训练算法，提出了INT16乘累加防溢出条件：总体来说，要求整数的中间乘累加、与最终累积结果不能溢出INT16范围；文章通过引入可调整的alpha因子，提出了整数量化范围的自适应调整机制： .

2021-01-11 18:54:57 1645

原创 ADMM深度模型稀疏化训练

基本原理参考论文：https://arxiv.org/abs/1804.03294GitHub：https://github.com/microsoft/nni/blob/master/nni/algorithms/compression/pytorch/pruning/admm_pruner.py组合优化问题基本的优化问题：引入辅助变量、对偶变量，构造ADMM正则化约束：交替方向优化求解固定Z与U，通过SGD优化求解得到：固定W，更新得到Z与U：..

2020-12-19 16:46:41 2170 3

原创端到端Transformer模型的混合精度后量化

端到端Transformer模型的混合精度后量化，需要克服如下难点：Transformer自回归模型，包含了Encoder与Decoder；端到端模型压缩的支持，需要考虑自回归逻辑（Beam Search）的复杂实现；后量化需要考虑合理、有效的策略，确保量化鲁棒性；混合精度决策需要考虑实现的高效性，通常采用Label-free方式；具体可参考端到端语音识别的移动端解决方案；...

2020-11-18 14:01:34 1800

原创 FBNetV1, FBNetV2

"FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search"Paper Link: https://arxiv.org/abs/1812.03443Github (PyTorch): https://github.com/AnnaAraslanova/FBNetIntroductionSearch SpaceDARTS、AdaBert等方法: 以Cell

2020-09-27 11:37:53 590

原创具备记忆单元的Transformer ASR (SAN-M)

"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中，取得了显著的改进效果。Paper地址：https://arxiv.org/abs/2006.01713Introduction传统ASR方案采用混合架构，包含了单独的AM、PM、LM；端到端的ASR方案（将AM、PM、LM集成到一个模型），主要有两种方案： AM+CT

2020-08-20 11:51:03 2646

原创 Proxyless NAS: Direct Neural Architecture Search on Target Task and Hardware

Paper：https://arxiv.org/abs/1812.00332GitHub (PyTorch)：https://github.com/mit-han-lab/proxylessnasIntroductionNAS能够针对目标任务、以及目标部署平台，按自动化方式、搜索出性能与效率折中最好的网络结构；如果目标任务的数据集规模比较大，通常会设计Proxy task (简化的中间任务)，作为桥接目标任务的桥梁：在Proxy task上的评估结果，可间接反映目标任务上的效果，用来指导N

2020-07-13 17:58:42 1097

原创 Transformer端侧模型压缩——Mobile Transformer

随着Transformer模型在NLP、ASR等序列建模中的普及应用，其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型，借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。 The Evolved Transformer Paper Link:https://arxiv.org/abs/1901.1111.

2020-06-19 16:13:26 6013

TensorRT推理加速

深度学习方面的关键技术介绍

VLSI Digital Signal Processing Systems：Design and Implementation

VerilogHDL简明教程_清华大学

空空如也