Muasci-CSDN博客

原创 [java]——数据结构基础

前言听丰哥的，先利用每天的一小时，把菜鸟教程过一遍~道阻且长~java数据结构概述Java Stack 类Stack<Integer> st = new Stack<Integer>();st.push(new Integer(1)); // 把项压入堆栈顶部。Integer a = st.peek(); // 查看堆栈顶部的对象，但不从堆栈中移除它。int place = st.search(1); // 从栈顶往下搜索，返回对象在堆栈中的位置，以 1 为基数。I

2021-03-06 14:33:11 187 2

原创 BILSTM+CRF用于NER原理与代码详解(+并行化的理解)

前言:命名实体识别命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。本次实验中，使用Conll2003dataset数据集，其中含有三个文件:数据集共包含:B-MISC\B-ORG\B-LOC\I-MISC\I-ORG\I-LOC\I-PER\O，这8类实体类型。原理介绍:接下来将介绍BILSTM+CRF用于NER,模型用李宏毅老师课中一张生动图表示为:下层是RNN、LSTM等序列模型，输入单词序列，输出

2020-07-30 23:12:22 3562 4

原创如何访问arxiv上的paper

使用中科院arxiv的镜像地址:click here就可以搜paper了或者把要访问 arxiv 链接中的 https://arxiv.org替换成http://xxx.itp.ac.cn就比如原来我要访问:https://arxiv.org/pdf/1810.04805.pdf将它改成:http://xxx.itp.ac.cn/pdf/1810.04805.pdf就可以访问到了芜湖~...

2020-07-09 00:09:21 492

原创 pip conda jupyter常见指令

pip查看pip版本pip --version升级pip版本python -m pip install --upgrade pipconda查看conda安装了哪些包conda list查看当前存在哪些虚拟环境conda env list 或 conda info -e更新conda版本conda update conda创建虚拟环境conda create -n env_name python=python_version激活虚拟环境activate env_name关闭虚

2020-06-06 11:22:03 344

原创 [huggingface]—离线加载数据集

服务器没网，需要手动下载，离线加载数据。

2023-12-18 13:31:41 1071

原创 [机器翻译]——pivot-based zero-shot translation based on fairseq

由于any2en和en2any的同时训练，一方面，encoder端将不同语种编码成国际语（靠近英语？）；另一方面，decoder具备把encoder输出翻译成任意一种语言的能力，因此，multilingual translation model具备any2any的翻译能力。由于实际并没有使用除了以英语为中心以外的平行语料进行训练，这种翻译又被称为zero-shot translation。把de的语料翻译成en对翻译得到的en做预处理，并和fr的语料组成平行语料。

2022-11-21 18:04:05 996 3

原创 [fairseq] 报错：TypeError: _broadcast_coalesced(): incompatible function arguments

我通过👇复写了模型的state_dict方法，具体就是给其增加了dynamic_mask（字典类型，里面是tensor），allocated_neuron_num（整型）。结果报错：解决不使用报错中显示的DistributedDataParallel。根据文档，这个在fairseq中体现为–ddp-backend参数。报错时–ddp-backend=（默认），改为、都不会再报错。https://fairseq.readthedocs.io/en/latest/command_line_tools..

2022-07-01 00:54:01 782

原创 [NLP]—sparse neural network最新工作简述

ICLR 2019 best paper《THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS》提出了彩票假设（lottery ticket hypothesis）：“dense, randomly-initialized, feed-forward networks contain subnetworks (winning tickets) that—when trained in isolationreach t

2022-06-29 17:10:28 1305

原创 [文献阅读] Sparsity in Deep Learning: Pruning and growth for efficient inference and training in NN

论文地址：https://arxiv.org/abs/2102.00554sparse model的精确度和计算性能随稀疏程度的变化，分别如下图的绿\红所示。实现模型稀疏化需要存储的数据格式，如下面的bitmap就是存储一个模型参数个数大小的0/1矩阵，作为mask。前三种如下图所示。略略模型的稀疏模式视输入样本而定略computers和brains的不同：略《Soft Threshold Weight Reparameterization for Learnable Sparsity》......

2022-06-29 16:39:56 1344

原创 [linux] 报错信息重定向

我程序遇到一个bug，就是执行之后会卡住。然后ctrl+C之后，会打印出非常多的错误信息，如果只是打印到控制台，我就看不到全部。另外，如果要把标准输出和错误信息存入同一个文件，则：如果只要保存错误信息，则：如果只要保存标准输出，则：后台运行程序输入输出重定向等一些问题...

2022-06-28 17:00:57 518

原创 [机器翻译]—BLEU值的计算

最近还卡在复现工作的结果这一环节上。具体来说，我使用那篇工作提供的脚本，使用的是fairseq-generate来完成的结果的评估。然后我发现我得到的结果和论文中的结果完全不一致。首先，在预处理阶段，如记一次多语言机器翻译模型的训练所示，我是用moses的tokenizer完成的tokenize，然后又使用moses的lowercase完成的小写化，最后用subword-nmt bpelearn和apply的子词。当然，一方面，小写化不利于模型性能的比较（来自师兄）；另一方面，可以使用sentencepi

2022-06-17 22:58:45 2362 4

原创 [机器翻译] multilingual fairseq-preprocess的两种做法

前言fairseq给出的preprocess代码只支持一个语言对的binarize，而笔者在[机器翻译] 记一次多语言机器翻译模型的训练想要对多个语言对同时进行binarize，过程中能够创建一个共享的词典。和师兄交流之后，实现这一结果有两种方式：1. 在学习bpe之后，就会得到一个共享词表，需要对这个词表进行一些修改，然后作为binarize的参数；2. 不使用bpe得到的词表，而是做两次binarize，第一次是为每一个语言对进行一次binarize，然后得到不同的词表。接着将这些词表进行合并，作为

2022-05-30 23:57:16 1332

原创 [linux] NVIDIA RTX A6000 with CUDA capability sm_86 is not compatible with the current PyTorch ins

问题描述NVIDIA RTX A6000 with CUDA capability sm_86 is not compatible with the current PyTorch ins.问题解决得用conda：conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch参考https://forums.developer.nvidia.com/t/nvidia-rtx-a6000-with-cuda-capa

2022-05-30 01:34:58 2678 1

原创 [机器翻译] 记一次多语言机器翻译模型的训练

前言本文记录笔者复现LaSS工作的步骤，主要记录数据准备的步骤。数据准备实验使用iwslt 14中的8个以英语为中心的语言对，完成16个方向的多语言机器翻译。目前使用该数据集是因为其数据量相对较小，模型训练速度较快，笔者觉得比较适合用于机器翻译上手、比较不同模型性能的优劣。数据集的统计信息如下图所示：下面介绍数据的下载和预处理。假设现在的所在目录为/data/syxu/data/data_store/iwslt14数据下载从https://wit3.fbk.eu/2014-01链接中下载得到2

2022-05-30 00:45:48 1987 1

原创 [机器翻译-数据集] 批量获取所有WMT数据（初步解决方案）

前言WMT是机器翻译和机器翻译研究的主要活动。该会议每年与自然语言处理方面的大型会议联合举行。2006年，第一届机器翻译研讨会在计算语言学协会北美分会年会上举行。2016年，随着神经机器翻译的兴起，WMT成为了一个自己的会议。机器翻译会议仍然主要被称为WMT[1]。有些机器翻译工作会使用历年WMT公开的数据集作为他们的数据集[2]，如下图所示：当笔者想要复现工作结果时，首先需要收集得到这样的数据集。而以WMT13[3]为例。如下图所示，笔者需要手动点击下载上面公开的每一个子数据集，然后汇总得到整

2022-05-25 01:48:06 5440 11

原创 [文献阅读]—Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges

前言论文链接：https://arxiv.org/abs/1907.05019v1背景介绍多语言机器翻译虽然能够1. 减少计算、部署成本；2. 对低、零资源语言产生正向迁移，但也存在容量不足、参数干扰的问题。从映射的角度看，m2o翻译是multi-domain问题；o2m翻译是multi-task问题。考虑一个语种，在一个多语言模型中，该语种受两个力的影响：1. transfer：相似语种之间的正向迁移；2. interference：模型容量、参数干扰带来的负面影响。低资源语种往往1>2，

2022-01-03 15:28:37 665

原创 [文献阅读]—Deep Transformers with Latent Depth

前言论文地址：https://proceedings.neurips.cc/paper/2020/file/1325cdae3b6f0f91a1b629307bf2d498-Paper.pdf前人工作&存在问题由于transformer在多语言MT、跨语言PT、和多任务上的应用，模型容量需要被扩大。然而，transformer不是越深越好（梯度消失）。具体的，在多语言\任务上，如何增大模型容量，同时保证语言、任务之间有正向的迁移，是一个开放的命题。本文贡献训练隐变量，用隐变量的采样来选

2021-12-25 23:51:31 1520

原创 [文献阅读]—An Empirical Investigation of Word Alignment Supervision for Zero-Shot Multilingual NMT

前言论文地址https://aclanthology.org/2021.emnlp-main.664.pdf前人工作&存在问题在多语言机器翻译中，前人通过1. 在source端开头加入language tag；2. 给token embedding加上language embedding来给模型提供语种信息。有两个缺点：语言信息不强，被忽略之后，target端翻译出错误的语种。（原文说的是对于没有见过的语言对的off-target问题）训练的稳定性不强本文贡献本文考虑langua

2021-12-17 15:40:43 173

原创 [文献阅读]—Revisiting Language Encoding in Learning Multilingual Representations

前言论文地址：https://arxiv.org/abs/2102.08357代码地址：https://github.com/lsj2408/XLP前人工作&存在问题在多语言机器翻译中，前人通过1. 在source端开头加入language tag；2. 给subword embedding加上language embedding来给模型提供语种信息。经过本文实验发现，之前的方法不能很好地描述单词-语种之间的交互，而是反映了一个单词在一个语种中的出现频率。具体来说：language

2021-12-17 14:25:31 552

原创 [文献阅读]—Importance-based Neuron Allocation for Multilingual Neural Machine Translation

前言代码地址：https://github.com/ictnlp/NA-MNMT论文地址：https://aclanthology.org/2021.acl-long.445.pdf前人工作&存在问题在多语言上训练的MNMT描述了常识（general knowledge），而忽略了语言独立的知识。为了达到平衡，前人：language-specific模块（缺点：1. 增加了模型参数；2. 需要人工定制化，所以可用性不强）：attention模块解耦的encoder、decoder

2021-12-10 00:46:58 1772

原创 [文献阅读]—一篇不错的低资源机器翻译综述(Neural Machine Translation for Low-Resource Languages: A Survey)

前言论文地址：https://arxiv.org/abs/2106.15115v1时间线1947：Warren Weaver提出了机器翻译的可能性1954：IBM发明了word-for-word翻译系统技术数据增强（data augmentation）主要包含：1. 基于单词和短语替换产生伪平行语料的方法；2. 基于回译产生伪平行语料的方法；3. 基于多语言预训练模型挖掘平行语料的方法基于单词、短语替换的数据增强（坑1）利用双语词典，替换选定句子的所有单词或稀有词，产生对应翻译[119]

2021-12-06 12:00:28 3043

原创 [文献阅读]—Probing Pretrained Language Models for Lexical Semantics

前言论文地址：https://aclanthology.org/2020.emnlp-main.586.pdf前人工作&存在问题预训练模型包含丰富信息，但问题是：预训练模型中的单词是否还包含了单词独立的、single的、type-level的、lexical的信息？关于这一点的探究工作较少。本文贡献本文使用5个词汇任务来探究预训练模型中的词汇信息：lexical semantic similarity(LSIM)：单语，斯皮尔曼系数，计算单词对的人为评估和cosine相似度之间的相关

2021-11-27 16:52:05 729

原创 [文献阅读]—Explicit Cross-lingual Pre-training for Unsupervised Machine Translation

前言论文地址：https://aclanthology.org/D19-1071.pdf代码地址：https://github.com/Imagist-Shuo/CMLM(空)前人工作&存在问题初始化对UNMT很重要，最近的预训练模型基于共享的BPE，以一种不显式、局限的方式学习跨语言信息，具体表现在：以BPE为单位的预训练完成了BPE级别的对齐，n-gram可能不对齐不同语种的BPE共享情况不同本文贡献使用外部的n-gram对齐工具创建n-gram对齐table；使用mask

2021-11-27 14:29:01 758

原创 [文献阅读]—Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT

前言论文地址：https://aclanthology.org/2020.emnlp-main.214.pdf代码地址：https://github.com/alexandra-chron/relm_unmt前人工作&存在问题对于高单语资源(HMR)和低单语资源(LMR)之间的UNMT，直接在共享词表上做预训练初始化效果不好。本文贡献通过先在HMR上预训练，再在LMR+HMR上"fine-tune"的方式，完成UNMT的初始化。具体方法第一步：在HMR上预训练LM第二步：在HMR

2021-11-25 23:29:01 337

原创 [文献阅读]—Improving the Lexical Ability of Pretrained Language Models for Unsupervised NMT

前言论文地址：https://aclanthology.org/2021.naacl-main.16.pdf代码地址：https://github.com/alexandra-chron/lexical_xlm_relm前人工作&存在问题在双语翻译情境中，前人工作发现BLI指标(bilingual lexicon induction)和翻译结果关系很强，而《Probing Pretrained Language Models for Lexical Semantics》一文发现静态的cro

2021-11-25 22:16:24 346

原创 [文献阅读]—Unsupervised Neural Machine Translation with Universal Grammar

前言论文地址：https://aclanthology.org/2021.emnlp-main.261/前人工作&存在问题UNMT：使用iterative BT来构造伪并行语料，而BT所产生的并行语料质量是UNMT训练的一个关键。UG(universal grammar)：不同语种的句子共享句法结构，可能会给UNMT训练带去更好的监督。共享constituent labelconstituent label的重叠(overlap)MLM:mlm可以和句法结合起来(constM

2021-11-22 11:18:12 897

原创 [文献阅读]—When and Why is Unsupervised Neural Machine Translation Useless?

前言论文地址：https://aclanthology.org/2020.eamt-1.5.pdf前人工作&存在问题先前的UNMT方法都是在高资源的语言对上评估，没有实际意义。前人UNMT的主要框架：Initialization:在单词级别，使用cross-lingual词嵌入初始化；在句子级别，使用cross-lingual的序列训练初始化的整个encoder-decoder对模型初始化DAE:初始化后，BT之前，模型需要、但缺少reorder(attention层)和g

2021-11-22 09:37:44 258

原创 [文献阅读]—MASS: Masked Sequence to Sequence Pre-training for Language Generation

前言论文地址：https://arxiv.org/abs/1905.02450代码地址：https://github.com/microsoft/MASS前人工作&存在问题预训练+微调可以缓解特定下游任务语料不足的缺陷，如ELMO\GPT\BERT。但是BERT模型是为NLU任务设计的。也有一些为NLG任务设计的预训练模型，如：利用一个语言模型或者自编码器来预训练encoder和decoder(效果没有BERT好)；设计了一个句子重排任务(只为encoder做预训练)；XLM为e

2021-11-19 15:51:56 934

原创 [文献阅读]—SHARE OR NOT? LEARNING TO SCHEDULE LANGUAGE-SPECIFIC CAPACITY FOR MULTILINGUAL TRANSLATION

前言论文地址：https://openreview.net/forum?id=Wj4ODo0uyCF代码地址：https://github.com/bzhangGo/zero/blob/iclr2021_clsr前人工作&存在问题早期的研究关注于增加模型share(迁移、transfer)的能力：做法在one2many translation中共享encoder在many2one translation中共享decoder在many2many translation中共享sub

2021-11-18 21:04:26 504

原创 [文献阅读]—Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation

前言论文地址：代码地址：前人工作&存在问题本文贡献具体方法具体实验

2021-11-18 14:19:59 457 1

原创 [文献阅读]—Learning Language Specific Sub-network for Multilingual Machine Translation

前言论文地址：https://arxiv.org/pdf/2105.09259v1.pdf代码地址：https://github.com/NLP-Playground/LaSS前人工作&存在问题前人发现：多语言NMT的一大问题是模型容量的不足(参数冲突(parameter interference))，特别是高资源的语言对的性能会下降。对于这个问题有以下改善策略：扩大模型容量定义language-aware的模型组成部分把隐藏层细胞分成共享的、语言独立的适应层(adaption

2021-11-12 13:09:22 1024

原创 [文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation

前言论文地址：https://arxiv.org/pdf/1611.04558v1.pdf代码地址：无233前人工作&存在问题前人实现multilingual NMT的方法：为每一个target语言定义一个单独的decoder和attention(one2many)为每一个source语言定义一个单独的encoder和attention(many2one)为每一个source语言定义一个encoder，每一个target语言定义一个decoder，使用一个shared attent

2021-11-11 17:25:19 1485

原创 [文献阅读]—Language Models are Good Translators

前言论文地址：https://arxiv.org/abs/2106.13627前人工作&存在问题encoder更有效：TSN19去掉了encoder-decoder中的encoder，发现encoder对于NMT是很关键的；WLX+19和WTSL20发现增大encoder的容量比decoder更有效。但还是基于encoder和decoder的架构。encoder和decoder的对齐：KBCF19发现多语言NMT中encoder和decoder的边界是模糊的；HTX+18共享了encode

2021-11-02 14:16:49 326

原创 [文献阅读]—Unsupervised Cross-lingual Representation Learning at Scale

前言论文地址：https://arxiv.org/pdf/1911.02116v1.pdf代码地址：https://github.com/facebookresearch/XLM前人工作&存在问题前人工作使用跨语言的模型迁移，在NLI\QA\NER等benchmark上取得好的结果；预训练词向量->上下文的表示->跨语言的理解（即：单个模型能够同时处理多种语言）。但它们都在维基百科上做的预训练，语料还是不够大。和本文最像的工作是：Massively Multilingual

2021-10-24 21:06:58 661

原创 [文献阅读]—Cross-lingual Language Model Pretraining

前言论文链接：https://arxiv.org/abs/1901.07291代码链接：https://github.com/facebookresearch/XLM前人工作与存在问题预训练语言模型（transformer encoder）对下游任务有帮助：分类任务：Improving Language Understanding by Generative Pre-TrainingBERT: Pre-training of Deep Bidirectional Transformers

2021-10-21 20:32:18 411

原创 [文献阅读]—UNSUPERVISED MACHINE TRANSLATION USING MONOLINGUAL CORPORA ONLY

前言代码链接：https://github.com/facebookresearch/UnsupervisedMT引言背景：monolingual data很多。前人工作：拥有部分的parallel databack-translation（data argumentation）加强target端的decoder（language model）auto-encoding task，即：A先被翻译到B，B作为输入，训练目标是重构到Azero-shot NMT利用其它languag

2021-10-10 16:46:00 132

原创 [夏令营]——东南大学计科院&PALM实验室夏令营随笔

学院面试自我介绍英文口语>>>常见问题的进一步整理+从哪里来+为什么选择东南大学+简历上的对所选方向的了解介绍项目专业课>>>数学算法数据结构操作系统PALM面试PPT自我介绍6-7分钟基于PPT的问答项目>>>所有项目都要熟悉机器学习相关算法>>>李航算法>>>算法导论中的常见算法的思路闲聊前期准备项目经历相关知识的进一步整理+英语相关问题英语常见问题的进一步扩

2021-09-28 14:02:16 6705 16

原创我的保研经历

前言本人情况：苏州大学计科院AI班，前五个学期绩点排名3/70，前六个学期绩点排名5/70。两个水国奖，一篇一作中文核心。夏令营期间：入营了上海科技大学信息学院（面试没过）、天津大学智算学部（面试过）、南京大学计科院（笔试没过）、山东大学计科院（机试过、面试过）、华东师范大学计科院（机试过、面试过）、东南大学计科院（面试没过）、南理工（面试过）预推免期间：入营了苏州大学计科院（面试过）、天津大学新媒体与传播学院（面试过）、中科院计算所（笔试机试过，面试没过）、厦门大学人工智能研究院（面试过）、中科院信

2021-09-27 16:00:52 2278 2

原创 [夏令营]——南理工夏令营随笔

8月3日面试南理工孙晋老师负责的面试，南理工是报名了系统，然后私下里面试的。先让我做了个自我介绍what is your research plan？which programming language are you most good at？How do you rate your python skill from one to ten?神经网络中的激活函数是干嘛的？有监督学习和无监督学习的区别？交叉验证有什么用？怎么做的？微信发红包，怎么设置？项目问题说完老师就说能发off

2021-09-27 15:52:57 1108 2

原创 [预推免]——中科院计算所

笔试数学：基本都不会。有：二元函数求最大值、求二重定积分等。算法设计：给定一个明确时间复杂度的算法，一台电脑在单位时间能处理n规模的输入。现在电脑的速度变成了原来的64倍，为能处理多大规模的输入。如果时间复杂度改变，那结果会发生什么样的改变。英语：英译中、中译英、读一段英文然后自己用英文和中文总结。机器学习专业知识：基本都不会。有聚类算法、pagerank。智力题：略。机试字符串是否是回文最大和连续子序列给你一个数组，问所有 a+b+c=0的位置三元组数字转罗马数字，很简单就是映射一下

2021-09-27 15:42:31 982

空空如也

空空如也