清风2022-CSDN博客

原创【扩散模型系列1】扩散模型背景|DDPMs|LDM

扩散模型：和其他生成模型一样，实现从噪声（采样自简单的分布）生成目标数据样本。前向扩散过程和反向生成过程前向扩散过程是对一张图像逐渐添加高斯噪音直至变成随机噪音；反向生成过程是去噪音过程，我们将从一个随机噪音开始逐渐去噪音直至生成一张图像，这也是我们要求解或者训练的部分。去噪过程一般采用UNet或者ViT，使用t步的结果和条件输入预测t-1步增加的噪声，然后使用DDPM可以得到t-1步的分布，经过多步迭代就可以从随机噪声还原到有实际意义的信号。

2024-03-04 17:01:11 784

原创【扩散模型系列3】DiT开源项目

开源项目仅能下载DiT-XL模型微软开源了DiT-B模型，下载链接。

2024-03-04 17:27:43 715 2

原创【扩散模型系列2】DiT 《Scalable Diffusion Models with Transformers》论文阅读

论文提出了一类使用transformer的扩散模型。将其中的主干网络U-Net用替代，以获取更好的效果。实验证明了transformer架构在扩散模型上的scalability能力，分析发现 DiTs速度更快（Gflops更高），并且始终具有较低的FID（FID是反应生成图片和真实图片的距离，数据越小越好1GLOPs=10亿次浮点运算。是Paper里比较流行的单位。FID是反应生成图片和真实图片的距离，数据越小越好最大的模型DiT-XL/2在ImageNet。

2024-03-04 17:21:59 1184

原创模型蒸馏distill /模型剪枝论文汇总

预训练语言模型，如BERT，已被证明在自然语言处理(NLP)任务中非常有效。然而，在训练中对计算资源的需求很高，因此阻碍了它们在实践中的应用。为了缓解大规模模型训练中的这种资源需求，本文提出一种Patient知识蒸馏, 将原始(老师)模型变成同样有效的轻量级浅网络(学生)。以往的知识蒸馏方法：只使用教师网络的最后一层的输出。不同于之前的方法，本文中学生模型耐心地从教师模型的多个中间层中学习，以实现增量知识提取，遵循以下两种策略:(i) PKD-Last: 从最后k个中学习层;

2024-02-07 10:56:25 941

原创 transformer剪枝论文汇总

预训练提高了模型在分类和生成任务的精度，但缺点是成本较高，性能慢；剪枝是一种减少模型大小的有效方法；论文引入了块剪枝方法，为了得到小且快的模型。通过将任意大小的块剪枝集成到运动剪枝微调范式中；实验在分类和生成任务，得到剪枝后的模型2.4x更快，74%更小的BERT在SQuAD v1，F1仅下降1%，与其他蒸馏模型相比速度更快，与其他剪枝模型相比模型更小。

2024-02-06 17:34:27 1824

原创模型压缩开源项目：阿里-tinyNAS/微软NNI/华为-vega

完备的AutoML能力：涵盖HPO(超参优化, HyperParameter Optimization)、Data-Augmentation、NAS(网络架构搜索， Network Architecture Search)、Model Compression、Fully Train等关键功能，同时这些功能自身都是高度解耦的，可以根据需要进行配置，构造完整的pipeline。

2024-02-06 16:34:04 1105

原创 Hardware-Aware-Transformers开源项目笔记

本文是基于论文《HAT: Hardware-Aware Transformers for Efficient Natural Language Processing》同步开源的项目整理的，如需更详细的内容，请移步至项目https://github.com/mit-han-lab/hardware-aware-transformers。种群大小 125，母种群大小 25，重组 (Crossover) 种群大小 50，突变 (Mutation) 种群大小 50，0.3 突变几率。

2024-01-18 16:41:40 963

原创 NAS入门（学习笔记）

使特征学习自动化使自动化自动化机器学习 (automated machine learning) 是一种自动化的数据驱动方法, 并做出一系列决策。按模型类型划分，分为以下两类：：传统机器学习模型的自动化学习，包括基础算法的选择和超参数优化以及机器学习pipeline的自动合成等。。

2024-01-16 19:47:30 1052

原创 EPE-NAS: Efficient Performance Estimation Without Training for Neural Architecture Search（论文精读）

神经网络结构搜索Neural Architecture Search (NAS) 在计算机视觉领域中模型结构设计方面展现出卓越的效果。NAS通过自动架构设计和工程减轻了人工定义网络的需求。然而，NAS方法往往很慢，因为它们需要大量的GPU计算。这种瓶颈主要是由于模型评估策略，它需要重新训练生成的模型架构，来评估其性能。本文提出EPE-NAS，一种高效的性能估计策略，缓解了评估网络的耗时问题，通过对未训练的网络进行评分，并创建该评分与模型训练表现的关联性。

2024-01-02 16:44:03 887

原创各类注意力机制Attention——可变形注意力

注意力机制，Attention

2023-09-04 21:17:10 444

原创 OPT-IML:Scaling Language Model Instruction MetaLearning through the Lens of Generalization 论文阅读笔记

当前的指令微调取得了较好的效果，但微调的数据集如何选择？微调目标如何设计？对训练效果有怎样的影响？还缺乏一个统一的基准，因此本文主要有两点贡献：一是提供了OPT-IML基准，针对指令元学习的基准：2000个NLP任务整合成8个已有基准的任务类别；并从3个方面评估模型泛化能力。1）未见的任务类别2）已见任务类别的保留任务3）已见任务中的保留实例二是根据在OPT模型上指令元学习的洞察，训练了OPT-IML。OPT-IML是OPT的指令微调版本，效果相比OPT 泛华能力更好。

2023-06-05 16:09:46 287

原创《Roller: Fast and Efficient Tensor Compilation for Deep Learning》

当前编译为了产生高效的kernel时，搜索空间大，通常使用机器学习的方法找到最优的方案，导致编译器时间长，通常需要几天甚至几周的时间。ROLLER，使用基于构造的方法产生kernel，速度快，仅需要数秒。提出rTile, 一种新的tile抽象，封装了tensor shape, 和底层加速器关键特征一致。使用基于rTile的算法递归构造rProgram就是对输入进行分块以适应硬件的内存结构。

2023-03-01 17:49:13 1201 1

原创 OCR调研报告

本文简要概述了OCR的概念和应用场景，以及OCR常用算法解决方案。最主要的是调研并对比了几个github上star较多的开源项目。现阶段推荐百度开源的项目paddlocr，可直接使用其预训练模型进行演示，并且支持docker部署（实践通过）。可以支持身份证，车牌号，信用卡号识别。并且paddleocr 支持重新训练模型，以及图像标注工具。扩展性强。

2022-10-08 10:22:29 4045 4

原创 TinyBERT 数据增强

关于tinyBERT论文的解读已经有很多文章了，本文仅仅说明数据增强的步骤。

2022-09-20 16:35:50 522

原创【论文翻译】Rethinking Network Pruning—under the Pre-train and Fine-tune Paradigm

预训练与微调范式下网络稀疏修剪的再思考

2022-09-15 16:03:33 662

原创【论文翻译】S4: a High-sparsity, High-performance AI Accelerator

S4: 高稀疏、高性能的AI 加速器论文翻译

2022-09-14 13:55:06 962

原创 Yolov5

以Yolov5模型结构

2022-08-04 17:24:44 3788 2

原创 YoloV1~YoloV4

YOLOV1 YOLOV2 YOLOV3 YOLOV4

2022-07-11 21:11:27 2783

原创 rasa action 服务并发

使用rasa 构建机器人逐渐到了商用阶段，那么如何保证action 服务的并发, 写成异步IO的形式进行请求

2022-06-06 14:24:15 610 1

原创南京NLP算法岗中小厂汇总

背景2021年各大厂裁员新闻给许多打工者内心带来一大片乌云。自己身处南京，也观望一下南京的工作机会，顺便也当做市场调研了，整理一下公司，以及在脉脉，知乎和看准网上的评价，真实可查，并非杜撰。反向背调公司，提供一丝参考。调研思路如下：步骤一boss上看到岗位后，会在天眼查看公司性质，公司官网，主营业务。步骤二在知乎，脉脉APP（职言），看准网，上查看面试经验，公司评价，以及公司宣传信息最终整理如下，但仅限NLP算法岗，不包含大厂，并非完全手册，只是看过的公司，想记录下来，能帮一个是一个。

2022-05-09 11:29:30 998

原创 rasa会话数据存储 RedisTrackerStore 连接哨兵

rasa RedisTrackerStore 连接哨兵

2022-04-12 17:08:31 2146 1

翻译 Rasa3 domain官方文档翻译

rasa3 domain 部分官方文档翻译

2022-04-07 17:48:14 1081

原创 Thresh — 基于JS的Flutter动态化方案

Thresh — 基于JS的Flutter动态化方案最新开源的标题项目，含金量很高哦

2021-01-04 10:33:45 706

原创 ELECTRA

ELECTRA一、 ELECTRA是什么ELECTRA是谷歌提出的一种预训练模型。全称（Efﬁciently Learning an Encoder that Classiﬁes Token Replacements Accurately.）论文：ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS使用判别式而非生成式的预训练文本编码器。二、 ELECTRA模型结构...

2020-12-30 14:46:35 2344

原创 Differentiable Reasoning Over a Virtual Knowledge Base 基于虚拟知识库的可微推理

《Differentiable Reasoning Over a Virtual Knowledge Base》中文名《基于虚拟知识库的可微推理》简称：DrKIT会议：ICLR2020作者：卡耐基梅隆大学谷歌研究院论文地址github关键词：虚拟知识库端到端迭代外部编码前言传统知识库When was the Grateful Dead’s lead singer born需要从知识库中检索三个实体：Grateful Dead lead singer

2020-06-01 10:30:07 580 1

原创小白能看懂等Tacotron 中文语音合成实践

简介参考博客1:基于Tacotron汉语语音合成的开源实践参考博客2：Tacotron中文语音合成通过调研发现，针对TTS的开源项目主要是针对英文的。而中文方面资料相对较少。上面两个为本项目的主要参考，同时感谢乐于分享的博主。使用谷歌提出的Tacotron模型，进行真正端到端的TTS系统。以下是从头实现的步骤以及踩过的坑，正所谓前人栽树后人乘凉，操作步骤step1下载...

2020-03-20 11:23:26 3549 7

原创分词工具汇总

分词工具汇总常见分词工具介绍：jieba（结巴分词）免费使用HanLP（汉语言处理包）免费使用SnowNLP（中文的类库）免费使用FoolNLTK（中文处理工具包）免费使用Jiagu（甲骨NLP）免费使用pyltp（哈工大语言云）商用需要付费THULAC（清华中文词法分析工具包）商用需要付费NLPIR（汉语分词系统）付费使用...

2019-07-19 18:17:33 2824

转载 mac linux windows 换行符之不同

具体细节请移步博客https://www.linuxidc.com/Linux/2012-11/74725.htm以下是三种系统不同换行符的转换

2019-07-16 15:45:29 196

原创国内外语音合成公司调研

国内语音合成服务提供商语音合成简称TTS，以下是语音合成公司清单阿里云标贝科技思必驰京东腾讯云云知声科大讯飞百度开放平台捷通华声2. 国外语音合成服务提供商微软：提供英文，中文，中英文混合亚马逊：支持多语言3. 国内各大厂商定价对比猎户星空不提供TTS服务腾讯云内测期间，暂时未公开报价...

2019-07-02 14:15:32 2396

原创 Mac 安装 Neo4j

1. 下载Neo4j 社区版MacOS安装社区版Neo4j（图数据库）https://blog.csdn.net/huacha__/article/details/81123410问题：在下载JDK时需要Oracle 登陆账号解决方法：https://blog.csdn.net/qq_39409110/article/details/898566312. 下载Neo4j de...

2019-06-25 10:58:05 3682 1

原创 python 结合 Flask 的html页面嵌入for 语句

近期有个项目，使用python和Flask框架，渲染页面后，需要使用循环显示不定长的数据，由于Flask是基于python的web框架，因此可以在html页面中直接使用{% %}嵌套python语法。官方示例如下：https://dormousehole.readthedocs.io/en/latest/quickstart.html#id10<!doctype html&gt...

2019-05-23 17:03:20 4608

原创 echarts+flask+mysql 从mysql 数据库中检索数据，进行异步报表展示

说明从mysql数据库中检索出数据，通过echarts 在html中进行展示。选择语言python。实验来源：静态Echarts 首先接触的是echarts, 可以在echarts官网中进行学习查看，根据官网给出的样例，上手一个BI展示真的不过几分钟而已，当然这是静态数据的展示，数据是写死在html代码脚本中的。只要将如下代码保存为html文件，使用浏览器打开即可展示。...

2019-04-10 10:58:01 2420

原创 TFIDF Sklearn 代码调用

sklearn官方文档ttps://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.htmlclass sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf...

2019-03-14 19:41:56 713

原创 linux 上安装anaconda tensorflow

1.下载在anaconda 官网上下载适合python2 的环境，我选择的是python2.7 64位系统Anaconda2-2018.12-Linux-x86_64.sh2. 安装下载后将文件放入linux自定义目录中，进入该目录下，使用命令bash Anaconda2-2018.12-Linux-x86_64.sh安装后记录安装目录，比如为/home/anaconda2/b...

2019-03-12 13:37:26 135

原创 tensorflow errors_impl.InvalidArgumentError

tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[49] = 60000 is not in [0, 60000)在做文本分类的模型预测语句中报错如上所示：这样的报错是因为，模型输入的embedding不符合规范，而不是模型的错误，应该从embedding的过程中去定位问题，比如使用的词向量不...

2019-03-04 10:55:47 3858 5

原创利用pandas处理文本大数据训练样本随机化

前言从事的是自然语言处理的工作，之前做的demo都是小于100万的数据集，使用强大的excel可轻松handle现遇到了大约200万的训练样本，要随机化处理。虽然知道sklearn有可以随机划分训练集测试集的函数，也是一种方法。但这里采用的是一种可自由设置数据格式的方法pandas，先上代码，很简洁的。import numpy as npimport randomimport c...

2019-02-28 18:24:45 702

原创 neo4j学习资料整理

1. 官网：https://neo4j.com/2. 官方论坛：neo4j.com.cn3. github资料： https://github.com/wennie911/Atom_notebook/blob/master/public/2018/07-09_neo4j.md#clean-up-删除电影数据 ...

2018-12-14 10:42:27 510

原创在cento7上安装mongoDB, 并使用window10远程连接

主要参考博客：https://blog.csdn.net/junshangshui/article/details/79371316菜鸟教程：http://www.runoob.com/mongodb/mongodb-tutorial.html根据自己的环境配置需要注意的两点。1.MongoDB 各平台下载地址：https://www.mongodb.com/download-cent...

2018-12-13 10:32:42 153

原创使用word2vec工具对指定数据集聚类

参考博客https://blog.csdn.net/accumulate_zhang/article/details/52662144 一.数据准备阶段采用2018年蚂蚁金服举办的竞赛“金融大脑”初赛的数据集，约10万条。（其实可以使用自定义的数据集，这里仅仅是用来做实验）。进行数据清洗：过滤字母，数字和标点符号。使用结巴分词，效果如下图所示：代码如下所示：环境pyt...

2018-09-19 19:10:05 3438

SQLProforSQLite-2019-07-08.dmg

semantic.db

空空如也