- 博客(500)
- 资源 (29)
- 收藏
- 关注
原创 从零实现深度学习框架【实现自己的PyTorch】
本着“凡我不能创造的,我就不能理解”的思想,此系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。
2021-12-19 15:38:18 4572
原创 [论文笔记]LLaMA: Open and Efficient Foundation Language Models
⭐ 作者提出了LLaMMA系列模型,可以说天不生LLaMMA,开源大模型万古如黑夜。比较详细的介绍了模型实现细节,重要的是开源了实现代码。除了提供了在模型实现优化上的思路外,还给出了提高训练(推理)效率的方法。
2024-03-14 20:33:11 540
原创 [论文笔记]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
本篇论教你如何训练一个强化学习模型来斗地主
2024-03-11 19:00:31 363
原创 Transformer从菜鸟到新手(一)
从本文开始回顾一下Transformer的原理与实现细节,包括分词算法BPE的实现。最终利用从零实现的Transformer模型进行英中翻译。
2024-01-02 21:30:00 1070
原创 RE2文本匹配调优实战
在的最后,博主说过会结合词向量以及其他技巧来对效果进行调优,本篇文章对整个过程进行详细记录。其他文本匹配系列实战后续也会进行类似的调优,方法是一样的,不再赘述。本文所用到的词向量可以在文末找到,免费提供下载。完整代码在文末。
2023-12-11 19:11:29 1171
原创 [论文笔记]MatchPyramid
⭐ 作者将文本匹配看作是图像识别任务。将两端文本单词之间的匹配矩阵当成是图像,然后应用分层卷积网络捕获丰富的匹配模式。
2023-11-23 20:00:00 1068
原创 [论文笔记]BGE
⭐ 作者发布了C-Pack,一套推进中文文本嵌入领域的资源包。包含中文文本嵌入基准C-MTEB、大规模文本嵌入数据集C-MTP和多个规模的嵌入模型BGE。同时还发布了完整的训练方法。
2023-10-31 22:18:41 844
原创 [论文笔记]RetroMAE
⭐ 作者提出了一种掩码自编码框架RetroMAE,用于预训练面向检索的语言模型:输入句子在编码器和解码器中被随机遮盖,然后将句子嵌入与解码器的遮盖输入拼接起来,重构原始输入。
2023-10-31 21:48:28 785
原创 [论文笔记]GTE
⭐ 本篇工作提出了一个两阶段对比学习方法,通过一个改进的对比学习目标,在固定的批次大小下能够有效地扩大负样本池,在无监督预训练阶段采用在网上公开的数据构建出大量的弱监督文本对,在有监督微调阶段也从大量任务和领域中收集数据进行微调,结合这两个阶段训练了一个统一的文本嵌入模型。
2023-10-28 09:09:47 1561
原创 [论文笔记]E5
⭐ 作者提出了E5模型,以带弱监督信号的对比学习方式训练。提出了一种新的数据集CCPairs,在这个新的数据集上E5得到了不错的性能。
2023-10-28 09:08:22 715
原创 [论文笔记]MobileBERT
⭐ 作者提出了MobileBERT,是一种任务无关的BERT变体,仅需简单的微调就能广泛地应用于不同的下游任务。MobileBERT被设计成和BERT-large一样深,是一种深而窄的结构,通过采用瓶颈结构与在自注意力和前馈网络之间的平衡来窄化每层。提出了替换层归一化和改用relu激活来提升模型的速度,但会有一定程度上(一个点左右)的性能下降。
2023-10-23 20:00:00 403
原创 [论文笔记]NEZHA
⭐ 本篇工作,作者主要提出了功能相对位置编码技术,可以使模型具有更强的扩展性,当遇到比训练中序列长度更长的序列时,依然可以发挥作用。
2023-10-22 22:29:15 609 3
原创 [论文笔记]GPT-2
⭐ 作者提出了GPT-2,针对GPT-1进行了一些修改,基于无监督训练。使用Pre-LN的层归一化方法;在最后一个自注意力块后添加了一个额外的层归一化;修改了残差层权重缩放因子;扩充了词汇表;将上下文大小从512扩充到了1024;使用了更大的批次512。作者开始注意到零样本设定下的表现,观察到语言模型的容量对性能至关重要。给最终性能超群的175B参数GPT-3一个启发。
2023-10-21 10:00:01 589
原创 [论文笔记]GPT-1
⭐ 作者提出了GPT(1代),一种基于大量无标签文本数据上进行语言建模任务预训练,然后通过进行与任务匹配的较小修改来进行微调,取得了不错的效果。
2023-10-20 20:00:00 788
原创 [论文笔记]Sentence-BERT[v2]
⭐ 作者提出了SBERT,通过孪生/三胞胎网络结构来微调BERT,然后对BERT的输出求平均可以得到包含语义信息的句向量。能用于语义搜索、聚合以及大规模语义相似度比较等场景。具体使用什么网络结构取决于数据集。
2023-10-19 21:14:29 749
原创 [论文笔记]SimCSE
⭐ SimCSE是一个简单的对比学习框架,它可以通过无监督和有监督的方式来训练。对于无监督方式,仅利用Dropout的随机性,对同一个句子输入两次得到的不同嵌入做为对比学习的正样本对。对于有监督方式,采用NLI中的前提和蕴含做为正样本对,前提和矛盾作为困难负样本对。该方法可以解决BERT/RoBERTa模型句嵌入各向异性问题,推进了SOTA的结果。
2023-10-14 15:38:35 740
原创 [论文笔记]Poly-encoder
:star: 通过引入了code向量来改造BERT提出了Poly-encoder模型,它结合了Bi-encoder和Cross-encoder的优点,可以用于生产部署。
2023-10-07 19:22:02 404
原创 [论文笔记]BitFit
⭐ 作者提出仅对基于Transformer模型的偏置项进行高效微调的方法——BitFit——就能达到和全量微调媲美(大多数情况下略逊,少数情况下超越)的性能。
2023-10-03 09:52:59 578
原创 [论文笔记]GLM
⭐GLM通过将不同类型的下游任务的预训练目标统一为自回归填空目标,得到了一个可以同时用于自然语言理解和自然语言生成的通用框架,还取得了较好的性能。
2023-10-02 15:42:14 443
原创 [论文笔记]UNILM
⭐ 提出了一个新的统一预训练语言模型UniLM,可以同时用于自然语言理解和生成任务的微调。该模型基于三种语言建模任务来进行预训练:单向、双向和序列到序列预测。通过使用共享的Transformer网络和特定的自注意力掩码控制预测所依赖的上下文来实现统一建模。
2023-10-01 19:40:54 506 1
原创 [论文笔记]MacBERT
⭐ 作者基于RoBERTa提出了MacBERT,在多个方面改进了RoBERTa,采用纠错型掩码语言模型(MLM as correction,Mac)的掩码策略,并用SOP任务替换了原始BERT中的NSP任务。通过实验正面了MacBERT在中文各大任务上表现最佳。
2023-09-29 13:35:25 807
英文-中文机器翻译数据集
2022-07-21
bert_sentence_classification.7z
2021-09-25
词性标注traindata.rar
2020-08-29
RocketMQ实战与原理解析【清晰版】
2018-11-03
Java网络编程第4版英文版
2018-07-03
Dubbo与Zookeeper、SpringMVC整合和使用
2017-05-13
安卓实现选择联系人
2014-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人