nghuyong-CSDN博客

原创 Flan-T5: One Model for ALL Tasks

论文：Scaling Instruction-Finetuned Language Models论文地址：https://arxiv.org/abs/2210.11416公开模型：google/flan-t5-xxl · Hugging Face1. Flan-T5是什么Flan-T5是Google最新的一篇工作，通过在超大规模的任务上进行微调，让语言模型具备了极强的泛化性能，做到单个模型就可以在...

2022-11-05 23:16:43 603

原创试试在transformers中调用ERNIE

ERNIE是什么ERNIE发展路径文心大模型ERNIE是百度发布的产业级知识增强大模型，涵盖了NLP大模型和跨模态大模型。在中文场景下，ERNIE有明显的优势，目前已经发布了一系列模型，包括ERNIE1.0, ERNIE2.0, ERNIE3.0, ERNIE-Gram, ERNIE-Doc等，并且一直在持续更新中。ERNIE官方的代码和模型是PaddlePaddle版本的，具体可以参见：Padd...

2022-10-30 22:36:58 1431 1

原创基于FAQ的智能问答(二): 召回篇

背景基于FAQ的智能问答本质是一个信息检索的问题，所以可以简单划分成：召回+精排两个步骤。召回的目标是从知识库中快速的召回一小批与query相关的候选集。所以召回模型的评价方法，主要侧重于响应时间和 top@n的召回率两个方面。本文将分享我们召回模型的逐步迭代过程，从最基础的“ES字面召回”到 “ES字面召回和向量召回”的双路召回模式。基于ES的简单召回在第一篇分享"基于FAQ的智能问答(...

2022-10-30 15:33:52 1092

原创基于FAQ的智能问答(一): Elasticsearch的调教

背景对话领域是当前最热门的一个NLP的方向之一，无论在学术界还是在工业界。由此衍生出来的产品包括通用形态的苹果siri，微软小冰，小米的小爱同学等，以及各个行业领域的智能助手，智能客服等。这些产品基本可以看成下一代人机自然语言交互的雏形。具体而言人机对话又可以拆分为以下几种形式：(1) FAQ-Bot: 基于常见问答对的问答，也是运用最为广泛的智能问答技术，可以认为是最朴素的一种对话。抽象出来是...

2022-10-30 15:03:13 1088 1

原创文本纠错的论文看这一篇就够了

Github: nghuyong/text-correction-papers专门开了一个仓库来持续追踪文本纠错相关的论文，包括「中文拼写检查Chinese Spell Checking (CSC)」和「语法纠错 Grammatical Error Correction (GEC)」。推荐直接移步Github查看，每篇论文有tag标记，体验更佳。欢迎提PR，来一起完善。2022Non-Au...

2022-07-15 11:06:51 404

原创统计机器学习方法 for NLP：基于LDA的主题模型

前言最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍隐含狄利克雷分布，即LDA，并基于LDA完成对论文主题提取的任务。隐含狄利克雷分布是什么？隐含狄利克雷分布(Latent Dirichlet Allocation, LDA) 由戴维·布雷(David Blei)、吴恩达（对...

2022-06-25 17:54:25 332

原创统计机器学习方法 for NLP：基于LSA的主题模型

前言最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍潜在语义分析LSA（绝对给你一次讲明白）并基于LSA完成一个主题模型提取的任务。潜在语义分析是什么潜在语义分析(Latent Semantic Analysis, LSA)是一种无监督的机器学习方来，通过分析文本内容来获取文...

2022-06-18 19:58:33 342 1

原创统计机器学习方法 for NLP：基于HMM的词性标注

前言最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍隐马尔可夫模型HMM（绝对给你一次讲明白）并基于HMM完成一个中文词性标注的任务。HMM是什么隐马尔可夫模型（Hidden Markov Model, HMM) 是做NLP的同学绕不过去的一个基础模型，是一个生成式模型，通过...

2022-06-18 16:39:06 871

原创统计机器学习方法 for NLP：基于CRF的词性标注

前言最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍条件随机场CRF（绝对给你一次讲明白）并基于CRF完成一个词性标注的任务。CRF是什么条件随机场(Conditional random field, CRF)是一个NLP领域广泛使用的模型，即使在深度学习时代也是如此。尤其在...

2022-06-18 16:38:49 502

原创 Transformers多机多卡的炼丹实践

前言随着预训练语言模型的快速发展，很多问题可以通过堆数据和堆模型参数简单粗暴的有效解决。所以亲自训练一个大模型一定是每个NLPer都想尝试的事，这时候就需要进行多机多卡的分布式训练了。本文是一篇踩坑后的总结，介绍如何基于huggingface的transformers库来快速实现。注意：本文仅涉及数据并行，而不涉及模型并行。所以参考本文可以自己从零训练一个bert，bert-large等，但想训练...

2022-01-28 15:39:09 3058 4

原创手算KN-based ngram语言模型

什么是ngram语言模型语言模型是NLP中最最基础的模块，从传统基于统计的ngram语言模型，再到基于深度学习的CNN，RNN语言模型，再到现在基于tranformer的预训练语言模型，每次语言模型的发展都能给整个NLP领域带来巨大推动。由于传统的ngram语言模型具备原理简单，推断速度快等特点，所以至今依然在广泛应用在众多NLP任务中，尤其在计算资源受限的移动端。本文将系统介绍ngram语言模型...

2021-10-18 15:21:16 294

原创基于FAQ的智能问答(三): 精排篇

在上一篇<基于FAQ的智能问答(二):召回篇>中已经介绍了，给定一个用户的query如何从知识库中快速准确的召回一小批相关的问题，本篇将继续介绍如何对这一小批问题进行精排，最终构建出answer返回给用户。任务描述给定一个用户的问题q，和一批召回的问题d，对每个d进行相关性的打分计算，并根据相关性进行评价。同时根据top1打分的不同，客户端执行不同的操作：(1) 如果top1的评分"很...

2021-10-16 19:16:32 340

nghuyong的博客