Wangsong1995-CSDN博客

原创基于MindStudio完成ResNeXt101_32x8d开发

点击Add Python SDK后，将弹出下图所示的界面，点击左侧的SSH Interpreter，如下图所示，首先选择使用哪一个Deployment，这是刚刚我们配置过的。点击 Change。下一步，设置项目目录映射关系，点击Mappings，然后选择本地的项目目录和远程的项目目录（最好是提前创建好文件夹），接下来跑代码的时候MindStudio会保证这两个目录文件的同步。模型转换主要分为两步，第一步是将原有的pth模型转换为通用的onnx模型，第二步是将onnx模型转化为npu适用的om模型。

2022-12-19 18:09:57 292

原创基于MindStudio完成SPNASNet_100开发

除此之外，MindStudio具有远端环境，运行任务在远端实现，对于近端的个人设备的要求不高，用户交互体验很好，可以让我们随时随地进行使用。点击Add Python SDK后，将弹出下图所示的界面，点击左侧的SSH Interpreter，如下图所示，首先选择使用哪一个Deployment，这是刚刚我们配置过的。下一步，设置项目目录映射关系，点击Mappings，然后选择本地的项目目录和远程的项目目录（最好是提前创建好文件夹），接下来跑代码的时候MindStudio会保证这两个目录文件的同步。

2022-12-18 11:43:23 125

原创使用MindStudio进行xlnet模型训练

先看第 1 行，因为在新的排列方式中 1 在最后一个，根据从左到右 AR 方式，1 就能看到 234 全部，于是第一行的 234 位置是红色的（没有遮盖掉，会用到），以此类推。具体实现方式是，通过随机取一句话的一种排列，然后将末尾一定量的词给“遮掩”（和 BERT 里的直接替换 “[MASK]” 有些不同）掉，最后用 AR 的方式来按照这种排列依次预测被“遮掩”掉的词。我们可以发现通过随机取排列（Permutation）中的一种，就能非常巧妙地通过 AR 的单向方式来习得双向信息了。

2022-12-12 20:55:59 119

原创使用MindStudio进行xlm模型训练

（mBERT）在各种跨语言的我们的模型被称为 XLM-R，在各种跨语言的基准测试中，XLM-R 明显优于多语言 BERT（mBERT），包括在 XNLI 上的平均准确率+14.6%，在 MLQA 上的平均 F1 得分+13%，以及+2.6%。XLM-R、在低资源语言上的表现特别好，在 XNLI 上提高了 15.7%的准确率。作者在一百种语言上训练了一个基于 Transformer 的屏蔽式语言模型，使用超过 2TB 的CommonCrawl 过滤数据，对一百种语言进行了训练。

2022-12-12 20:54:50 141

原创使用MindStudio进行squeezebert模型训练

基于 BERT 的编码器中的每个块都有一个具有 3 个 PFC 层的自注意模块，以及另外 3 个称为前馈网络层（FFN1，FFN2 和 FFN3）的 PFC 层。在自我注意模块的所有 PFC 层以及 FFN2 和 FFN3 层中，使用 G = 4 的分组卷积。已经说明了如何使用卷积在自我注意网络中实现昂贵的 PFC 层，可以将有效的分组卷积合并到自我注意网络中。通常包含在卷积层中(注意，G = 1 的分组卷积与普通卷积是相同的)。和类似的自注意网络的 PFC 层，而不改变网络的数值性质或行为。

2022-12-12 20:53:04 39

原创使用MindStudio进行roberta模型训练

git clone {repository_url} # 克隆仓库的代码cd {repository_name} # 切换到模型的代码仓目录git checkout {branch/tag} # 切换到对应分支。git reset --hard {commit_id} # 代码设置到对应的 commit_id（可选）整个模型的结构还是依照了 BERT 的骨架，采用了 Transformer 以及 GELU 激活函数。cd {code_path} # 切换到模型代码所在路径，若仓库下只有该模型，则无需切换。

2022-12-12 20:50:33 111

原创使用MindStudio进行reformer模型训练

随后，Reformer 根据类别重排序列，使在一个类别的 query 在序列中是相邻的。最后，Reformer 将序列分成若干子序列，在每段子序列上执行局部自注意力，得到每个 query 的自注意力表示，并还原序列的顺序。Reformer 将原序列分成若干子序列，在每段子序列上执行 FFN，因此减少了中间表示的大小，从而缓解处理长序列时显存不足的问题。从注意力模块得到的序列的中间表示在 FFN 中做了一次线性变换之后，会使得这个中间表示的词嵌入维度大幅升高，这一操作非常消耗显存容量。列长度非常长时，一个。

2022-12-12 20:33:26 47

原创使用MindStudio进行mpnet模型训练

这些模型，如 BERT，通常是在大规模的语料上经过精心设计的预训练任务，然后在下游任务上进行微调，以提高准确率。其中，BERT 中采用的是 Masked Language Modeling（MLM）和 XLNet 中采用的 Permuted Language Modeling（PLM）是两种具有代表性的预训练任务。因此，微软亚洲研究院的研究人员继去年提出 MASS 用于语言生成后，又提出了一种全新的预训练模型 MPNet，它继承了 MLM 和 PLM 的优点，避免了它们的局限性。

2022-12-12 20:31:46 124

原创使用MindStudio进行mobilebert模型训练

（“task-specifically”），这些工作的一般流程是首先将预训练的 BERT 模型在具体任务中进行 fine-tune，然后再进行蒸馏来获得小模型。BERT 在 NLP 领域的地位是举足轻重的，其预训练模型，在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时，BERT 也受困于其庞大的模型参数和较慢的运行速度，尤其是在于一些资源受限的移动端部署任务中，BERT 的实际应用是非常受限的。在预训练的阶段来进行知识蒸馏，获得一个压缩版的小 BERT(mobileBERT)，能够达到可。

2022-12-12 20:29:34 88

原创使用MindStudio进行mbart模型训练

与从头开始训练的多语言模型相比，从预训练的模型开始与从头开始训练的多语言模型相比，从预训练的模型开始，包含了大量未标记的单语言数据的好处，这对资源少的语言特别重要。SQuAD2.0 组合了 SQuAD1.1 中的 10 万个问题，并增加了超过 5 万个无法回答的问题，这些问题由众包工作者以对抗（adversarially）的方式设计，看起来与可回答的问题相似。这是一个阅读理解数据集，由众包工作者在一组维基百科文章上提出的问题组成，其中每个问题的答案都是相应文章中的一段文本，某些问题可能无法回答。

2022-12-12 20:28:38 219

原创使用MindStudio进行longformer模型训练

基于 Transformer 的模型无法处理长序列，因为它们的自注意力操作，它的序列长度是之前的四倍。Longformer 的注意力机制是对标准自我注意力的直接替代替换了标准的自我注意，并结合了局部窗口式注意力和任务驱动的全局注意力。开发运行场景（共部署形态）：在昇腾 AI 设备上安装 MindStudio、Ascend-cann-toolkit 开发套件包、npu-firmware 安装包、npu-driver 安装包和 AI 框架（进行模型训练时需要安装）。optim，前后处理等与论文基本一致。

2022-12-12 20:26:34 150

原创使用MindStudio进行ibert模型训练

iBERT 模型是 RoBERTaibert-roberta-base 的仅整数量化版本，并在本文中进行了介绍。特别是，I-BERT 将Transformer 架构（例如，MatMul、GELU、Softmax 和 LayerNorm）中的所有浮点运算替换为非常近似的整数运算。然后可以将通过量化感知微调搜索的最佳模型参数导出（例如，到TensorRT），用于模型的仅整数部署。整个模型的结构还是依照了 BERT 的骨架，采用了 Transformer 以及 GELU 激活函数。

2022-12-11 20:35:51 130

原创使用MindStudio进行funnel模型训练

Funnel-Transformer 提出另一种简单但有效的提高 Transformer 处理长序列效率的方法：随着模型加深，使用池化操作压缩在序列方向上的长度，让模型变窄，从而节约高层的参数量，直到最后得到单个向量（或几个，取决于任务）。为此，本文又在最后加上一个 Decoder，将最后得到的单个向量上采样，从而恢复到原来的序列长度。这样一来，将相当于压缩了整个模型的中间部分，而保持开始和结束层的长度不变，也就可以像原始 Transformer 一样用于各类任务了。

2022-12-11 20:34:16 96