自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 尝试用bert做文本聚类

尝试用bert做文本聚类以前文本聚类多以TF-IDF构建词权重的方法进行,在本文中尝试用bert提取的向量做文本聚类。对于bert模型,尝试提取不同层的特征,尝试对bert做fun-tune,观察相应特征对应的文本聚类的效果数据数据使用的是百度2020语言比赛的数据,该数据是标注并分类好的,所以在聚类的情况下,省去了聚类时对k值的搜索,同时可以可以根据标注好的数据和聚类得到的数据比较,从侧面评价聚类的效...

2020-06-14 19:22:38 12973 39

原创 ChatGLM-6b 多任务微调

ChatGLM-6b微调和Bert类预训练模型微调的效果相近。如果采用多任务设计,ChatGLM-6b的效果会更好我们将实体识别和实体边界检测作为两个独立的任务,这在训练过程中,不仅帮助模型更好地理解实体的概念,而且使其更清晰地了解实体的边界。同时在预测时,模型可以输出对实体判段的结果,增加了结果的可解释性,我们可以更快更针对性的增加数据集,提高训练效果。t=N4P3。

2023-06-04 11:05:37 1003 1

原创 利用bert4keras实现多任务学习

使用bert4keras实现多任务学习的例子

2022-09-06 11:07:59 975 6

原创 置信学习寻找噪音样本(noisy label)在NLP任务中的实践

置信学习寻找噪音样本(noisy label)在NLP任务中的实践

2022-05-06 11:43:09 2333 13

原创 基于Prompt的MLM文本分类 bert4keras实现

基于Prompt的MLM文本分类 bert4keras实现

2021-10-17 15:58:39 2229 22

原创 基于深度主动学习的命名实体识别的代码实现及实验

在很多问题中,获取标注准确的大量数据需要很高的成本,这也往往限制了深度学习的应用。而主动学习通过对未标注的数据进行筛选,可以利用少量的标注数据取得较高的学习准确度。本文将提供代码实现,展示实验效果及一些思考。代码地址:https://github.com/hgliyuhao/ActiveLearing4NER参考论文:Deep Active Learning for Named Entity Recognition 2018Subsequence Based De...

2021-07-07 10:24:31 1813 8

原创 『2021语言与智能技术竞赛』- 关系抽取任务 pipline方案

『2021语言与智能技术竞赛』- 关系抽取任务 pipline方案本文的代码地址https://github.com/hgliyuhao/LIC2021_EE_baseline任务描述信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。事件抽取的目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定...

2021-05-31 14:08:12 1483 8

原创 『2021语言与智能技术竞赛』- 关系抽取任务 官方baseline bert4keras实现

『2021语言与智能技术竞赛』- 关系抽取任务 官方的baseline是将关系抽取任务转换成序列标注任务,使用Paddle实现。 本文将提供bert4keras的实现本文的代码地址https://github.com/hgliyuhao/LIC2021_EE_baseline可以参考的其他baseline关系抽取官方baseline:https://aistudio.baidu.com/aistudio/projectdetail/1639963苏神关系抽取baseline:http..

2021-03-26 15:04:48 1588 2

原创 bert4keras使用中的一些问题

bert4keras.__version__ = 0.10.0如何定位tokenizer后的实体位置?frombert4keras.tokenizersimportTokenizerdict_path= 'D:/Ai/model/electra-small/vocab.txt'tokenizer=Tokenizer(dict_path,do_lower_case=True)token_ids,segment_ids=tokenizer.encode(text,max...

2021-03-24 09:57:40 1515 3

原创 用bert4keras实现 span-level NER

用bert4keras实现 span-level NER什么是span-level NERspan-level NER 是一种应对嵌套实体任务的方法,基于片段排列的方式,提取所有可能的片段排列,通过SoftMax对每一个Span进行实体类型判断,将原来的序列标注问题转化成分类问题数据集 百度2020比赛的数据集https://pan.baidu.com/s/1Va3AbtPiNiW4tXsNGWOqfA 提取码 vu02思路举个例子,针对下面的case:《邪少兵王》是冰...

2021-01-26 14:31:22 3426 32

原创 使用python更精确的解析PDF文件

最近的工作主要是对一些pdf格式的非结构化数据,通过自然语言处理,机器学习的算法提取出结构化的数据。其中对PDF文件中的文本信息提取,是整个工程中的基础,直接决定了整个算法抽取的效果。本文会分享一些工作中的尝试。PDF转TXTpip install pdfminer3k使用pdfminer...

2020-12-21 14:14:12 807

原创 Windows环境 tensorflow 2.1 安装及问题解决

Windows环境 tensorflow 2.1 安装及问题解决特殊时期,中国加油,武汉加油!TensorFlow 2.1.0 正式发布后 它是支持Python 2的最后一个TF版本在使用pip安装时也和之前的版本有一定的区别,下面将介绍安装过程,及安装过程中可能遇到的问题1. 使用pip install tensorflow,现在pip默认安装的是GPU支持的版...

2020-02-04 19:44:44 9195 9

原创 解决Error with transformClassesWithDesugarForDebug 和finished with non-zero exit value 1的问题

    网上有很多关于finished with non-zero exit value 1的解决方案,事实上不同的问题都会报出这个问题。我们应该针对不同的报错去解决相应的问题。比如Error with transformClassesWithDesugarForDebug  和Error:Execution failed for task‘:app:transformClassesWithDex...

2018-05-03 18:56:51 4871

原创 升级AndroidStudio3.0 Unable to resolve dependency for ':app@betaUnitTest/compileClasspath问题解决

AndroidStudio3.0升级报了下面的错误:Error:Unable to resolve dependency for ':@debug/compileClasspath',Could not resolve project 造成这个错误的原因是app下build.gradle里面的buildtypes配置和module下build.gradle中的buildtypes配置不一样。下面是...

2018-03-30 03:06:57 15333 10

原创 使用NLTK对中文文本进行简单分析

本文会介绍nltk自带中文语料库的使用,用nltk分析自己中文语料的方法,以及在应用过程中python3.x与python2代码不同的问题。

2017-12-08 20:10:39 3758 1

原创 Python与自然语言处理搭建环境

搭建自然语言处理环境,Python、NLTK、NLTK-Data的安装

2017-11-29 17:12:07 734

翻译 Gradle files have changed since last project sync.问题的解决办法

Gradle files have changed since last project sync.问题的解决办法

2016-11-13 15:53:15 3648

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除