littletomatodonkey-CSDN博客

原创基于chatGPT设计卷积神经网络

本文主要介绍基于chatGPT，设计一个针对骁龙855芯片设计的友好型神经网络。提问->跑通总共花了5min左右，最终得到的网络在Cifar100数据集上与ResNet18的精度对比如下。此外，GPT生成的模型训练速度更快，ResNet18才训练170个epoch，CNN-GPT已经完整地训练完了。具体的模型结构在文末。

2023-03-26 15:07:14 8385 2

原创 diffusers库中stable Diffusion模块的解析

diffusers中，stable Diffusion v1.5主要由以下几个部分组成下面给出具体的结构说明。

2023-11-12 00:25:37 1178

原创基于openai api构建assistant

今天openai开了发布会，除了发布新的模型之外，也重点介绍了openai api中的assistant模块，用户可以在api中，通过自定义assistant的方式，实现一些特定的功能。下面直接给出创建assistant并且调用的代码，穿插着注释讲解。

2023-11-07 21:24:00 1496

原创 Stable Diffusion中人物生成相关的negative prompts

本文主要提供一些与人生成相关的negative prompts，提升在人像生成时的效果

2023-08-02 10:19:05 1566

不同进程数下的耗时对比如下。可以看出多进程在速度方面还是有优势的，不过受到我自己的机器CPU kernel数以及传参的影响，这里并没有线性的加速的效果。我们使用官方的multiprocessing库就可以完成这些操作。），此时我们可以使用多进程的方法，并行处理这些逻辑，从而大幅降低程序运行时间。在工作或者生活中，可能会遇到大量的for循环处理逻辑，这些逻辑完全可以并行（下面的代码展示了怎么对于多个输入传参的情况使用多进程。

2023-06-22 08:55:11 421

原创 pytorch打印模型梯度

有时候在调试模型训练过程时，我们需要打印模型中参数的梯度，去查看是否存在梯度消失或者梯度爆炸的问题。可以通过在backward之后查看params的grad属性来确认。

2023-03-27 13:17:09 1513 1

原创浅谈知识蒸馏的现状与未来

近年来，深度学习已成为各行各业中重要的技术手段，而模型蒸馏则是其中一项重要的技术之一。模型蒸馏可以让模型在更小的存储空间和更短的推理时间内实现相似的效果，因此已经被广泛地使用。本文主要介绍一下模型蒸馏的现状和未来发展。

2023-03-21 19:14:45 747

原创计算机视觉领域的发展趋势

今天与chatGPT聊了一会关于计算机视觉领域的发展趋势与值得关注的内容，不得不说，chatGPT说得非常全面，值得思考。下面给出chatGPT回答的内容。

2023-03-21 13:57:59 1885

原创【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers

这是一篇NLP知识蒸馏的论文，多模型蒸馏的过程中，充分利用教师模型输出以及隐藏层信息，矫正单个模型可能会带来的信息偏差，最终提升模型精度

2022-06-13 14:01:57 318

原创论文讲解-Tripartite: Tackle Noisy Labels by a More Precise Partition

这篇论文继google的noisy label蒸馏之后，再次讨论起noisy label，本文对此进行解读

2022-06-07 21:16:37 422 1

转载超轻量OCR系统PP-OCRv3技术解读

超轻量OCR系统PP-OCRv3技术解读PP-OCR是PaddleOCR团队自研的超轻量OCR系统，面向OCR产业应用，权衡精度与速度。近期，PaddleOCR团队针对PP-OCRv2的检测模块和识别模块，进行共计9个方面的升级，打造出一款全新的、效果更优的超轻量OCR系统：PP-OCRv3。https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/doc/doc_ch/PP-OCRv3_introduction.mdgithub.com/Pa

2022-05-09 15:57:40 2344

原创 CVPR2022-知识蒸馏与自监督相关paper list

知识蒸馏Paper TitleFocal and Global Knowledge Distillation for DetectorsDataset Distillation by Matching Training TrajectoriesPoint-to-Voxel Knowledge Distillation for LiDAR Semantic SegmentationAugmented Geometric Distillation for Data-Free

2022-05-04 10:57:43 933

原创论文解读：Decoupled Knowledge Distillation

1. 论文基本信息论文：Decoupled Knowledge Distillation地址：https://arxiv.org/pdf/2203.08679.pdf代码：https://github.com/megvii-research/mdistiller2. 背景与摘要知识蒸馏花样繁多，在有教师模型的基础上，知识蒸馏可以从response、relation、feature等角度进行研究，设计loss，本文中，作为认为其实最基础的KD仍然有很大的潜力可以挖掘。因此对KD方法进行改进，将教

2022-05-03 22:27:34 1301

原创论文解读：Self-Distillation from the Last Mini-Batch for Consistency Regularization

1. 论文基本信息论文：Self-Distillation from the Last Mini-Batch for Consistency Regularization地址：https://arxiv.org/pdf/2203.16172.pdf代码：https://github.com/Meta-knowledge-Lab/DLB会议：CVPR20222. 背景与摘要关于知识蒸馏方法的研究其实已经很多了，知识蒸馏本质上是一种正则化方法，图像分类任务中，在加上蒸馏之后，数据集的train

2022-05-03 21:24:02 763

原创 AAAI2021 蒸馏论文review

简介aaai论文列表：https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf总体：feature map的蒸馏很普遍，之前很多手动选择feature map的蒸馏方法，这次aaai2021的论文中，有3篇关于feature map的蒸馏论文，都是基于自动挑选feature map/attention的思路去做的，这也可以看

2022-01-04 18:02:26 2165

原创 cvpr2021 知识蒸馏文章review

前言本文主要是总结cvpr2021里的一些关于知识蒸馏的文章，希望对之后的工作有所启发。所有论文地址：https://openaccess.thecvf.com/CVPR2021。Complementary Relation Contrastive Distillation论文地址：https://openaccess.thecvf.com/content/CVPR2021/papers/Zhu_Complementary_Relation_Contrastive_Distillation_CVP

2021-11-15 01:42:37 3460

原创论文讲解：Knowledge distillation: A good teacher is patient and consistent

前言论文地址：https://arxiv.org/abs/2106.05237google的文章向来是不差钱，这篇文章也是如此，把ImageNet1k数据集的蒸馏做到了1W epoch，而且还做了大量的对比实验。虽然无法复现，不过能直接用结论也是ok的。量化裁剪和蒸馏是模型轻量化三板斧，裁剪可能会带来通道不平衡的问题，量化的收益稳定，这篇文章主要是对蒸馏展开研究。作者发现，只要给蒸馏足够的时间，他是能带来足够的惊喜的，最终只是基于该数据集，将ImageNet的结果刷到了82.8%。实验设置简

2021-10-22 11:12:10 1218 4

原创 iccv2021 知识蒸馏文章review

前言本文主要是总结iccv2021里的一些关于知识蒸馏的文章，希望对之后的工作有所启发所有论文地址：https://openaccess.thecvf.com/ICCV2021

2021-10-12 16:50:48 733

原创 Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

前言许久没写博客，今天趁着假期最后一天，分享下今天看到的一篇关于自蒸馏的论文。题目：Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation地址：https://arxiv.org/abs/2110.00329github：https://github.com/zhengli427/TESKD/主要思路是融合了abstract...

2021-10-07 22:13:52 383

原创多模态文档理解：基础概念-数据-模型

文档理解最近在看layoutlm相关的内容，之前没有接触过，顺便把遇到的一些新概念总结一下。任务DocVQA基于文档的视觉问答，给一张文档图像以及提问，给出答案。以下面的图片为例，通过给出问题邮政编码是多少？，期望能够得到80202的回答，通过给出问题印章显示什么日期，期望得到1970年9月23日的回答。参考文献：https://arxiv.org/abs/2007.00398数据集训练pretrain所需的数据集下游任务数据集FUNSD数据集用于文档空间布局分析以及表单理解的数据集

2021-08-20 18:26:45 1921

原创 LayoutLM源码踩坑记录

LayoutLM源码踩坑记录前言：最近在看VQA相关内容，正好发现了LayoutLM这个repo，有开源代码，有pretrained model，就想着白嫖一波LayoutLM repo地址：https://github.com/microsoft/unilm/tree/master/layoutlm环境准备安装lfs(下载大文件)ubuntu下面，可以按照下面的方法安装lfscurl -s https://packagecloud.io/install/repositories/gith

2021-07-04 17:39:07 2287 7

转载还在愁做OCR法方向没有开源数据集嘛，PaddleOCR的这个工具你敢不敢看一下？

近期，PaddleOCR开源了Style-Text数据合成工具。https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/StyleText/README_ch.md项目主页https://github.com/PaddlePaddle/PaddleOCR到底多强结合GAN，输入一串文本和一个风格图片就可以生成对应的场景的图片！！！！！项目开源直接使用无需训练！！！！效果⬇️该工具可以批量合成大量与目标场景类似的图像，如下图所示。Styl

2020-12-16 17:51:26 356

原创深度学习图像分类常见问题以及训练技巧

图像分类常见问题以及训练技巧写在前面图像分类作为计算机视觉的基础任务，包含的很多问题其实也是CV领域的共性问题，分类的训练或者预测技巧也可以很好地迁移到其他任务中去，本文主要就是总结了图像分类在基础知识、数据、训练、预测等各个方面的常见问题，同时也提供了PaddleClas这个图像分类repo在使用过程中遇到的常见问题解答。当然，你也可以完全把这篇文章当做CV求职面经哈哈哈PaddleClas repo地址：FAQ: https://github.com/PaddlePaddle/Paddle

2020-10-22 02:20:29 7767

转载 PP-OCR: 3.5M超轻量中英文OCR模型详解(四) 文本识别优化瘦身策略

PP-OCR: A Practical Ultra Lightweight OCR System论文地址：https://arxiv.org/abs/2009.09941代码地址：https://github.com/PaddlePaddle/PaddleOCR本文主要介绍PP-OCR中文本识别优化瘦身策略，首先会介绍实验环境，然后介绍超轻量骨干网络选择，数据增强，余弦学习率，增大特征图分辨率，正则化参数，预热学习率，头部轻量化，预训练大模型和PACT 量化的基本思路和消融实验。下图是PP-OCR中.

2020-09-26 00:05:22 1242

转载 PP-OCR: 3.5M超轻量中英文OCR模型详解(三) 文本方向分类器优化瘦身策略

PP-OCR: A Practical Ultra Lightweight OCR System论文地址：https://arxiv.org/abs/2009.09941代码地址：https://github.com/PaddlePaddle/PaddleOCR本文主要介绍PP-OCR中文本方向分类器优化瘦身策略，首先会介绍实验环境，然后介绍超轻量骨干网络选择、数据增强、增大输入分辨率和PACT 量化的基本思路和消融实验。1. 实验环境文本方向分类器的消融实验采用的是全量数据训练和评估。识别准确.

2020-09-25 23:28:44 1913

转载 PP-OCR: 3.5M超轻量中英文OCR模型详解(二) 文本检测优化瘦身策略

PP-OCR: A Practical Ultra Lightweight OCR System论文地址：https://arxiv.org/abs/2009.09941代码地址：https://github.com/PaddlePaddle/PaddleOCR本文主要介绍PP-OCR中文本检测优化瘦身策略，首先会介绍实验环境，然后介绍超轻量骨干网络选择、头部轻量化、SE模块的断舍离、余弦学习率、预热学习率以及使用FPGM模型裁剪器的基本思路和消融实验。下图是PP-OCR中使用的文本检测算法DB的结.

2020-09-25 23:22:21 2036

转载 PPOCR-3.5M超轻量中英文OCR模型详解-(一) 简介、方案概览和数据

PP-OCR: A Practical Ultra Lightweight OCR System论文地址：https://arxiv.org/abs/2009.09941代码地址：https://github.com/PaddlePaddle/PaddleOCR一、简介PP-OCR是一个实用的超轻量中英文OCR系统，是针对中英文OCR问题，对最新的文本检测算法 Differentiable Binarization (DB) 和经典的文本识别算法CRNN的能力充分挖掘，虽然没有理论创新，但是从骨干.

2020-09-25 23:07:51 9330

原创 faster RCNN中的anchor generator分析

faster RCNN简介faster rcnn属于两阶段目标检测，所谓两阶段目标检测，指的就是对检测框做两次边框回归，首先使用RPN网络，生成anchor，挑选出positive anchors，并对这些anchor进行第一次回归，再经过nms，得到初步的proposal；在RCNN阶段，对于这些proposal，提取对应区域的feature map，并使用RoiAlign或者RoiPooling等方法，将这些proposal变成统一的大小（否则之后没法接FC等层了），经过各种卷积或者fc操作之后，对

2020-06-19 01:25:56 3584 1

原创 PaddleClas-图像分类中的常用移动端系列模型

简介这里主要介绍PaddleClas中已经开源的常用移动端系列模型，PaddleClas的github repo：https://github.com/PaddlePaddle/PaddleClas。PaddleClas中包含了ShuffleNetV2以及MobileNet等移动端系列模型。MobileNet系列在MobileNetV1中，主要是使用了深度可分离卷积去减少计算量，提升精度；在V2中，则是引入了线性瓶颈块以及逆残差模块，防止网络中特征的退化；MolbileNetV3中，也是使用了大

2020-06-06 19:43:13 1231

原创 PaddleClas-图像分类中的常用服务器端系列模型

简介这里主要介绍PaddleClas中已经开源的常用系列模型，PaddleClas的github repo：https://github.com/PaddlePaddle/PaddleClas。PaddleClas中包含了ResNet、HRNet、Inception、Res2Net等系列模型，这篇博客主要是介绍其主要系列模型。AlexNet、VGG这些网络其实都属于十分经典的网络，但是由于这些网络最近用的已经越来越少了，因此在这里也没有进行展开。ResNet系列之前的深度神经网络，比如Ale

2020-06-06 19:00:39 1174

原创 PaddleClas-图像分类中的8种数据增广方法(cutmix, autoaugment,..)

本文主要来源于PaddleClas这个代码仓库中的数据增广文档：https://github.com/PaddlePaddle/PaddleClas/blob/master/docs/zh_CN/advanced_tutorials/distillation/distillation.md一、数据增广在图像分类任务中，图像数据的增广是一种常用的正则化方法，常用于数据量不足或者模型参数较多的场景。PaddleClas中将对除 ImageNet 分类任务标准数据增广外的8种数据增广方式进行简单的介绍和对.

2020-05-26 00:44:09 5035 5

原创 PaddleClas-图像分类模型TensorRT预测评估

简介在之前介绍分类模型的时候，大家除了比较精度之外，一般还会比较flops和params这两个参数，flops表示计算量，可以间接反映推理速度，params表示参数量，可以反映存储大小。但是有一个问题，flops相同的两个网络，它们的推理速度并不一定是相同的，因为可能有内存拷贝、通道拆分操作等其他差异。因此最好的方法就是直接在机器上预测，统计下耗时。T4 GPU是可用于模型推理的GPU显卡，支持TensorRT、FP32/FP16等多种推理类型，PaddleClas在其文档中给出了T4 GP上不同模型

2020-05-17 02:16:36 2578 1

原创 PaddleClas-SSLD知识蒸馏方法梳理（82.4%ResNet50系列模型养成之路）

简介PaddleClas是PaddlePaddle最近开源的图像分类代码库，里面包括了目前比较常用的分类模型，ResNet、HRNet、DenseNet、ResNeXt等，配置文件里也提供了这些模型的训练脚本，总共大概是117个模型，当然pretrained model权重文件也都给出来了，github地址在这里：https://github.com/PaddlePaddle/PaddleClas模型库其实还是比较丰富，不过里面最吸引人的可能还是ImageNet1k val数据集上**top1 acc

2020-05-16 17:38:33 3756 5

原创 PaddleDetection中一些特色模型介绍

CBNet论文题目：CBNet: A Novel Composite Backbone Network Architecture for Object Detection论文地址：https://arxiv.org/abs/1909.03625骨干网络对于检测网络的模型性能至关重要，但是大部分的骨干网络设计完成之后都需要首先在imagenet数据集上训练，得到的模型作为检测网络的预训练模型，该论文中，作者基于已有的骨干网络进行组合，最终实现一种新的骨干网络，同时验证了它在目标检测任务中的性能，在coc

2020-05-16 14:05:58 2190

原创计算机视觉算法&面试准备

这个文档是我之前在求职时总结的一些知识点，总体来说十分琐碎，可以在没事的时候看一下，如果希望更好地理解知识，建议还是看一些其他的书籍或者总结性比较好得博客~数据结构与算法排序常见的稳定的排序算法有：（1）直接插入排序，（2）冒泡排序，（3）归并排序，（4）基数排序；常见的不稳定的排序算法有：（1）简单选择排序，（2）希尔排序，（3）快速排序，（4）堆排序。回溯法与分支定界法...

2018-12-09 13:14:13 8469 1

原创 deformable convnets V1&V2讲解

deformable convnets V1&V2讲解deformable convets主要是针对conv kernel形状固定的问题提出了解决方案，使得网络去自动学习这种kernel的形变，从而提升detection性能。我之前做了一些总结，具体讲解如下。也欢迎关注我的github：https://github.com/littletomatodonkey/littletomato...

2018-12-03 18:11:13 2861

原创深度学习过程中的优化算法

深度学习过程中的优化算法BGD（batch gradient descent） & SGD（stochastic gradient descent） & mini-batch GDBGD是每次迭代的时候，使用所有的样本进行梯度下降，这种方法可以找到全局最优解，但是容易陷入局部最优，而且在数据量很大的时候难以进行（对内存的要求太高了，计算很慢）。SGD是每次只使用一个样本进行...

2018-11-27 14:47:29 403

原创统计分布的距离/相似性计算

统计分布的距离/相似性计算KL散度（Kullback-Leible divergence）KL散度可以用于描述两个分布之间的距离，假设p(x)p(x)p(x)与q(x)q(x)q(x)是随机变量X的分布，则它们的KL散度为D(p∣∣q)=∫−∞+∞p(x)logp(x)q(x)dxD(p||q) = \int_{ - \infty }^{ + \infty } {p(x)log\frac...

2018-11-25 00:37:05 12388

原创 CNN-batch normalization讲解

batch normalzationintroductionBN主要是为了解决NN训练过程中难以收敛的问题，可以在一定上推迟过拟合的发生（注意：有些博客中说BN可以防止过拟合，但是论文（https://arxiv.org/pdf/1611.03530.pdf）中验证了BN只是有抑制作用，使得过拟合在更多的epoch之后出现，但是并不能阻止）在机器学习过程中，最理想的状态就是特征或者数据是独...

2018-10-11 17:05:28 5216

原创记一次图森电话面试

说明这次面试可能是我秋招以来面试中难度最大的一场，主要是涉及到太多的论文细节以及代码细节。感想：问的东西特别全，什么都要会，没做过的方向也需要知道大概有哪些主流的方法；面试的主要节奏就是：(1)挑一个你最熟的项目，问到你不会为止，基本上是基于论文来问，从网络结构到训练过程到测试过程到影响精度的因素等；(2)对于一些流行的深度学习方向，说一下主流的结构以及他们之间的区别与联系，说完之后再从网络...

2018-09-28 19:10:18 3871 1

机器学习实战书籍+源代码

机器学习实战书籍+源代码，代码用python2编写，包括测试图片等

2017-11-28

编程珠玑源代码

编程珠玑第二版的源代码，里面主要是以C语言和C++为主

2017-11-28

matlab 经验模态分解

matlab经验模态分解举例，EMD经验模态分析是目前比较常用的数据分析方法，不同于之前的傅立叶分析和小波分析，它直接从数据中分析特征。

2017-09-25

串口调试助手 V1.0.0

串口调试助手支持汉子的接收和发送

2016-05-08

emgucv基础工程

emgucv的基础配置工程，基于此可以开发debug、release、X86、X64的项目

2016-05-08

空间圆滑插补

matlab实现了空间圆弧插补，里面有参考的论文，此程序是从别人的程序中加以修改得到

2016-05-05

获取局域网的ip地址和主机名

获取局域网内的ip地址，通过异步的方法，使得在要数据的时候界面不会发生卡死的情况。

2016-04-29

Cuda性能测试

基于VS2013得威cuda的性能测试，比较了不同规模运算时的cpu和gpu的运算时间，gpu在大规模运算更具优势

2016-04-28

cuda7.5+VS2013工程

windows7下在VS2013中配置cuda7.5

2016-04-28

cuda7.5+VS2013配置工程

基于Win7，在VS2013下配置cuda7.5的开发环境

2016-04-27

K60点亮LED灯的示例程序

K60开发的配置工程，之后可以在此基础上添加文件即可，这是基于山外的库进行配置得到的工程。

2016-04-26

摄像头图像读取、显示、录制

对于有摄像头的电脑，如笔记本等，可以支持实时查看摄像头的数据，也可以录制视频并保存，也可以播放视频

2016-04-25

串口调试助手新版

该串口调试助手可以自动识别串口号，可以以字节或者字符串的形式发送数据，同时可以以10进制、16进制或者字符串的形式显示接收到的数据。作为自己的小项目的一部分，该串口调试助手也可以同时发送6个舵机的角度值给下位机，如果仅需要进行串口的简单的数据收发工作，则不操作这个即可（下面有发送文本框中字符串的按钮）

2016-04-25