自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

W&J

  • 博客(19)
  • 收藏
  • 关注

原创 大模型应用-作业1

由于BERT是一个强大的语言表示学习模型,并且能够捕捉句子的语义和上下文信息,因此在生成任务中,使用BERT的微调版本是可以取得不错的效果的。单向注意力:在GPT中,解码器的自注意力机制是单向的,也就是说,它只能注意到当前位置之前的词语,而不会考虑到后面的词语。这个任务主要用于训练BERT模型。Masking:由于GPT是自回归模型,为了确保在生成每个词语时不会依赖后面的词语,解码器在生成第i个词语时会被掩盖(mask)第i个位置后面的所有信息,这样在当前生成的时刻只能看到之前已生成的内容。

2023-07-19 16:47:24 656

原创 贝叶斯——三门问题

贝叶斯:三门问题

2022-10-12 10:13:31 1779 1

原创 Attention is all you need (一)

本篇是读Transformer模型的论文《attention is all you need》的第一个部分,读摘要、结论,浅看模型结构图和实验对比表

2022-09-08 15:13:36 195

原创 Rabin Karp 算法详解及Python实现

字符串模式匹配:rabin karp 算法介绍 及 Python 实现 leetcode 模板题 28.实现strStr()

2022-08-03 12:03:42 583

原创 NLP中的对比学习:ConSERT\EsimCSE

NLP,用对比学习框架训练句向量,在STS任务上获得更好的表现

2022-07-05 14:22:37 1199

原创 BERT 读论文

论文地址:https://arxiv.org/abs/1810.04805Abstract1、Bert,一个基于Transformer的双向编码表示器.2、从无标签的文本中,通过对所有层进行上下文联合学习,对深度双向表示进行预训练。3、预训练好的bert模型,仅需要一层额外的输出层进行finetune训练一、Introduction1、将预训练语言模型应用于下游任务有两种策略:feature-based,例:ELMo,有特定任务的网络结构、预训练的表示层作为其额外的特征..

2021-08-10 16:30:42 180

原创 Attention is all you need(二)

本篇是读Transformer模型的论文《attention is all you need》的第二篇,细度Introduction, Background, Model Achitecture, Why Self-Attention, Training, 和Result

2021-08-09 15:39:55 149

原创 Flask 写接口中文乱码踩坑记

Flask 写接口中文乱码踩坑记在经历了与编码报错和乱码的斗智斗勇后,写下此记~万恶的报错信息 :json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)出现此报错信息出现问题的地方可能在于以下两点:dict 和 json 不一样! 不一样!! 不一样!!!dict 是数据类型, json 是字符串...

2019-08-27 19:32:11 2332

原创 python 实现关键词提取

Python 实现关键词提取这篇文章只介绍了Python中关键词提取的实现。关键词提取的几个方法:1.textrank 2.tf-idf 3.LDA,其中textrank和tf-idf在jieba中都有封装好的函数,调用起来十分简单便捷。常用的自然语言处理的库还有nltk,gensim,sklearn中也有封装好的函数可以进行SVD分解和LDA等。LDA也有人分装好了库,直接pip insta...

2019-02-10 13:42:12 33272 4

原创 Python的复制、浅拷贝、深拷贝

Python的复制、浅拷贝、深拷贝在python中,对象复制实际上是对象的引用。当创建一个对象,然后把它赋给另一个变量的时候,Python并没有拷贝这个对象,而只是拷贝了这个对象的引用。赋值a = [1,2,3,4,5]b = aprint(a, b)>>>[1,2,3,4,5] >>>[1,2,3,4

2019-02-10 12:04:13 206

原创 无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver重启服务器之后就出现连接不上NVIDIA驱动的情况。这个时候tensorflow还是可以运行的,但只是在用cpu跑。安装gpu版的TensorFlow时,也显示已安装。nvidia-smiNVIDIA-SMI has failed becau...

2019-01-21 12:09:34 108157 105

原创 leetcode 896. 单调数列 (python)

leetcode 896. 单调数列 – python题目:如果数组是单调递增或单调递减的,那么它是单调的。如果对于所有 i <= j,A[i] <= A[j],那么数组 A 是单调递增的。 如果对于所有 i <= j,A[i]> = A[j],那么数组 A 是单调递减的。当给定的数组 A 是单调数组时返回 true,否则返回 false。示例 1:输入:[1,..

2019-01-18 14:26:51 522

原创 leetcode 961. 重复N次的元素(python)

leetcode 961. 重复N次的元素 —python第一道击败了100%用户的题,纪念一下。题目:在大小为 2N 的数组 A 中有 N+1 个不同的元素,其中有一个元素重复了 N 次。返回重复了 N 次的那个元素。示例 1:输入:[1,2,3,3]输出:3示例 2:输入:[2,1,2,5,3,2]输出:2示例 3:输入:[5,1,5,2,5,3,5,4]输出:5...

2019-01-17 12:05:16 670

原创 python实现HMM做中文分词-----有监督模型

隐马尔科夫模型的简单介绍: 五个元组: 1、初始化π 2、状态转移矩阵 A N*N (N为所有可能的状态q数) 3、观测概率分布 B N*M(M为所有可能的观测值) 4、观测值序列 O {o1,o2……oT} 5、状态值序列 I {i1,i2……iT}以中文分词为例状态值的取值有四个{B,E,M,S} B: begin 起始词 E:end 结尾词 M: mi...

2018-04-17 18:37:29 2586 1

原创 Seq2Seq Tensorflow 实现之数据处理

一、数据处理代码地址:https://github.com/Wang-Anna (稍后会上传代码)1、实现中文、英文的分词 2、创建字典、以实现单词和索引之间的转换1.英文分词:WORD_SPLIT= r'[,.!?/\':;\")(]'def en_tokenize(sentence): """split the sentence with WORD_SPLI...

2018-04-15 20:14:14 532

原创 python 自然语言处理 第五章

分类和标注词汇

2017-06-10 10:20:36 869

原创 python 自然语言处理 第三章

处理原始文本

2017-06-07 19:21:47 619

原创 python 自然语言处理 第二章

获得文本语料和词汇资源i

2017-06-07 19:03:30 482

原创 Python 自然语言处理 第一章

语言处理与python

2017-06-07 18:56:02 522 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除