自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

转载 2024激活Typora,最新版本的1.8.10.0可用

实测可用日期为:2024-02-11目前最新版本 1.8.10.0 也是可以实现激活的注:免修改注册表、不用修改时间,更不需要破解补丁。

2024-04-17 13:18:15 5

原创 【Linux】将程序的输出显示到屏幕,同时写入到log文件

nohup 放在命令的开头,表示不挂起(no hang up),也即,关闭终端或者退出某个账号,进程也继续保持运行状态,一般配合&符号一起使用。2>&1 也就表示将错误重定向到标准输出上。2表示标准错误,1表示标准输出。这里的&相当于转义字符,如果不加&则会变成把标准错误2输出到名为1的文件中。加上-u(unbuffered)参数后,表示python执行时,会强制其标准输出也同标准错误一样不通过缓存直接打印到屏幕。& 放在命令到结尾,表示后台运行,防止终端一直被某个进程占用,这样终端可以执行别到任务。

2024-02-29 15:55:59 449

转载 实战中,BERT如何处理篇章级长文本?

如果考虑性能、只能使用一个Pooling的话,就使用Max-Pooling,因为捕获的特征很稀疏、Max-Pooling会保留突出的特征,Mean-Pooling会将特征打平。通过统计,该任务与主题相关的句子,不到总字数的60%,40%的时间都是在浪费在这些"糟粕"上,同时这些冗余文本也会带来一些噪声,不利于模型的学习。压缩法的宗旨是选取“精华”,去除“糟粕”。

2024-02-21 10:08:07 249

转载 基于 chinese-roberta-wwm-ext 微调训练中文命名实体识别任务

是基于RoBERTa架构下开发,其中wwm代表,即对整个词进行掩码处理,通过这种方式,模型能够更好地理解上下文和语义关联,提高中文文本处理的准确性和效果。与原始的BERT模型相比,在训练数据规模和训练步数上做了一些调整,以进一步提升模型的性能和鲁棒性。并且在大规模无监督语料库上进行了预训练,使其具备强大的语言理解和生成能力。它能够广泛应用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等。我们可以使用这个模型作为基础,在不同的任务上进行微调和迁移学习,以实现更准确、高效的中文文本处理。进到。

2024-02-19 14:21:21 202

原创 linux搭建jupyter

查看虚拟环境进入虚拟环境。

2024-02-01 18:04:47 710

原创 深度学习优化器

优化器用来寻找模型的最优解。

2023-08-15 09:55:10 553

转载 bert+crf可以做NER,那么为什么还有bert+bi-lstm+crf ?

但由于BERT本身就是all-attention,就是全局的Attention,不存在说哪个token谁离我远,我就注意不到了(BERT原来较LSTM吹的,也是这一点,attention全局建模)。因为对于序列标注问题,假设已经知道前面一个token标签为B-Location, 则下一个token标签大概率是I-Location,而不是O, 这样的问题下,CRF对于前后有依赖(也就是题主说的surrounding predictions),全局的概率转移建模估计更加的合理。关于加上BiLSTM有没有用?

2023-08-02 11:31:07 319

原创 Transformer 模型详解

红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到。编码器组件和解码器组件中分别为连续 N(在 Transformer模型中 N = 6)个具有相同结构的编码器和解码器,每个编码器的结构都是相同的,但是它们使用不同的权重参数。(4)残差结构(Residuals)

2023-07-11 15:49:10 1307

原创 ChatGLM2-6B的P-Tuning微调

注:ChatGLM2-6B官网给的环境P-Tuning微调报错。可复用ChatGLM-6B(上述部署教程),即。

2023-07-05 12:48:26 3919 9

转载 ChatGLM-6B的P-Tuning微调详细步骤及结果验证

P-Tuning是一种较新的模型微调方法,它采用了参数剪枝的技术,可以将微调的参数量减少到原来的0.1%。具体来说,是基于的升级版,主要的改进在于采用了更加高效的剪枝方法,可以进一步减少模型微调的参数量。的原理是通过对已训练好的大型语言模型进行参数剪枝,得到一个更加小巧、效率更高的轻量级模型。具体地,首先使用一种自适应的剪枝策略,对大型语言模型中的参数进行裁剪,去除其中不必要的冗余参数。然后,对于被剪枝的参数,使用了一种特殊的压缩方法,能够更加有效地压缩参数大小,并显著减少模型微调的总参数量。总的来说,

2023-07-04 16:51:32 1491 1

原创 ChatGPT中 top_p 和 temperature 的作用机制

可以看到,当 temperature 更大时,模型的选择更加随机(每个 token 的概率更加接近), 给予原本低概率的 token 更大的选择机会,从而产生更多样化和创意的输出。相反, temperature 更小使模型的选择更加确定,给予原本高概率的 token 更大的选择机 会,从而产生更集中和一致的输出。考虑 a$,他的概率是 0.25 ,加上前面的所有概率得到 0.75。时,模型在每次选择 token时只选择概率最大的那一个,于是我们每次询 问 (同样的prompt) 都会得到完全相同的回答。

2023-06-30 15:46:01 4038 2

转载 全网最新版ChatGLM-6B开源模型环境详细部署及安装——如何在低显存单显卡上面安装私有ChatGPT GPT-4大语言模型

ChatGPT的爆火让许多公司和个人都想要开发自己的大型语言模型,但是,由于算力和语言模型开发能力等诸多方面的限制,许多人最终都只能在开发的早期阶段止步不前。然而,近期清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University)发布了对话机器人ChatGLM-6B的开源版本,这一切都变得更加容易了。这个中英文语言模型拥有千亿参数规模,并且对中文进行了优化。

2023-06-19 10:05:04 1761

原创 神经网络/深度学习(二)

在 1 vs N 结构中,我们只有一个输入 x,和 N 个输出 y1, y2, …可以有两种方式使用 1 vs N,第一种只将输入 x传入第一个 RNN 神经元,第二种是将输入 x 传入所有的 RNN 神经元。每个神经元接受的输入包括:前一个神经元的隐藏层状态 h(用于记忆) 和当前的输入 x (当前信息)。上图是RNN 模型的一种 N vs N 结构,包含 N 个输入 x1, x2, …, xN,和 N 个输出 y1, y2, …(1)序列分类任务,一段语音、一段文字的类别,句子的情感分析。

2023-04-12 14:41:14 1035 1

原创 神经网络/深度学习(一)

深度学习/神经网络

2023-04-11 11:44:28 2543 2

原创 linux创建用户

创建用户名为aaa的用户-m:自动建立用户的登入目录sudo是允许系统管理员让普通用户执行root命令的一个工具(获取权限)这里会需要输入管理员的密码(不是你想给新用户设置的密码!!!输入用户aaa的密码。

2023-03-22 09:33:34 1372

原创 centos误删python2后怎么重新安装

centos误删python2、yum后怎么重新安装

2023-02-20 12:46:50 951

原创 Python地理位置信息库geopy的使用:根据中心点坐标,方向,距离计算坐标; 利用两点经纬度计算地理空间距离

Python地理位置信息库geopy的使用:根据中心点坐标,方向,距离计算坐标; 利用两点经纬度计算地理空间距离

2023-01-30 10:37:03 1203 1

原创 目标检测算法的评估指标:mAP和IOU,python

目标检测算法的评估指标:mAP和IOU,python

2023-01-13 14:05:54 461

转载 ARIMA(p,d,q)模型原理及其实现 --------python

ARIMA(p,d,q)模型原理及其实现 --------python

2022-11-18 15:47:50 4140

原创 arm64麒麟安装paddlehub(国产化)

arm64麒麟安装paddlehub,onnx

2022-08-01 10:09:42 735

原创 python从PDF文件中提取文本和文本坐标

python从PDF文件中提取文本和文本坐标

2022-07-11 15:55:00 1252

原创 python doc转docx

import osfrom win32com import clientimport timebase_dir = r"E:\xx\xxx\xxxx"for root, dirs, files in os.walk(base_dir): n = 1 for file in files: if file.endswith(".doc"): time.sleep(5) print(file) #w

2022-03-11 14:58:42 1350 1

原创 nltk分句、分词

使用 nltk 遇到错误from nltk.tokenize import sent_tokenize1.Resource punkt not found.Please use the NLTK Downloader to obtain the resource:

2022-02-22 18:17:41 1347

原创 英文段落分句

做nlp的时候,我们数据往往是一篇文章或者一大段文字,在进行其他处理之前,你需要先对文章进行切割或者处理(去除多余字符、特殊符号,分句和分词),或者是分句以句子级别为最小单位进行后续处理。那么如何进行分句呢?比如有下面一段文本:First, it takes time to accomplish a task —— the earlier you begin,the more likely you will reach your goal earlier. Otherwise you call neve

2022-02-22 18:02:10 391

原创 Python XML 解析

<!-- movies.xml --> <collection shelf="New Arrivals"><movie title="Enemy Behind"> <type>War, Thriller</type> <format>DVD</format> <year>2003</year> <rating>PG</rating> <s

2021-12-15 15:32:40 122

原创 高德地图-添加一个或多个覆盖物

https://lbs.amap.com/demo/jsapi-v2/example/common/add-several-overlay添加如下,可显示点、线面map.add([marker, polyline, polygon]);点线:面:注:

2021-12-06 17:23:37 684

转载 Rasa中文聊天机器人开发指南(3):Core篇

文章目录 1. 对话管理1.1 多轮对话1.2 对话管理 2. Rasa Core2.1 Stories2.2 Domain2.3 Responses2.4 Actions2.5 Policies2.6 Slots2.6.1 Slots Type2.6.2 Slots Set2.6.3 Slots Get 2.7 Form2.8 Interactive Learning 3. 改进ChitChatAssistant项目3.1 config.yml3.2 weather_stories....

2021-12-01 14:22:02 1460

转载 Rasa中文聊天机器人开发指南(2):NLU篇

文章目录 1. 什么是NLU2. NLU训练数据2.1 NLU样本格式2.2 验证数据有效性2.2.1 使用命令2.2.2 使用代码 2. Rasa NLU Components2.1 词向量资源(Word Vector Sources)2.1.1 MitieNLP2.1.2 SpacyNLP 2.2 分词(Tokenizers)2.2.1 WhitespaceTokenizer2.2.2 JiebaTokenizer2.2.3 MitieTokenizer2.2.4 SpacyTo...

2021-12-01 11:54:38 1802 1

转载 Rasa中文聊天机器人开发指南(1):入门篇

文章目录 1. Rasa简介与安装1.1 Rasa简介1.2 Rasa安装(v1.9.4)1.1 Ubuntu 16.04环境1.2 Windows10环境 2. Rasa使用--构建简单聊天机器人2.1 构建NLU样本2.1.1 nlu.md 2.2 构建Core样本2.2.1 stories.md2.2.2 domain.yml 2.3 训练NLU和CORE模型2.3.1 config.yml2.3.2 模型训练 2.4 配置Http和Action2.3.1 cred...

2021-12-01 11:07:27 6510 3

原创 postman生成各种编程语言的代码

postman生成各种编程语言的代码

2021-11-24 11:40:18 141

原创 将chrome中接口参数copy到postman中调试

在chrome中找到请求的接口,点击右键-copy-选择copy as cURL(bash)在postman中导入import-Raw text - paste最后点击提交,请求的接口就导入到了postman中直接点击请求即可

2021-11-24 11:03:23 250

原创 Python判断字符串是否为字母或者数字

str_1 = "123"str_2 = "Abc"str_3 = "123Abc"isdigit函数判断是否数字print(str_1.isdigit())Tureprint(str_2.isdigit())Falseprint(str_3.isdigit())Falseisalpha判断是否字母print(str_1.isalpha()) Falseprint(str_2.isalpha())Ture print(str_3.isalpha()) F

2021-11-24 10:51:05 15763

原创 pandas to_csv 字符串过长被强制换行

数据写入csv,当某个字符串过长时,发现生成的csv被强制换行了,print的数据没有问题使用to_excel之后就解决了,并不会强制换行,但是生成的速度相对而言就会变。excel会丢弃后面的内容

2021-11-24 10:33:10 1415 4

原创 python去除html标签

# -*- coding:utf-8 -*-from bs4 import BeautifulSouptext='<br/>一、<br/><p>&nbsp;</p><h6><strong>项目概况</strong></h6>'soup = BeautifulSoup(text,'html.parser')参考:https://www.cnblogs.com/zhangyafei/p/10285

2021-11-24 08:59:57 656

原创 python读取excel超链接

表格存在两种格式 .xls 和 .xlsx,所以python存在两种库分别读取这两种格式表格超链接。openpyl针对.xlsx格式,xlrd针对.xls文件。1. xlsx–openpyxl# coding=utf-8import openpyxlmain_book = openpyxl.load_workbook("excel_test.xlsx")main_sheet = main_book.activeprint(main_sheet.cell(1, 1).value)print(m

2021-11-22 17:38:47 2349

原创 botpress使用中文模型&duckling

botpress默认使用英文模型1. 安装语言服务语言服务用于提供运行 NLU 所需的语言模型。默认情况下,Botpress 将语言服务器配置为获取单词的100个维度。如果计划在生产中使用该语言服务器,强烈建议将维度设置为 300。安装语言库下载与您语言相对应的bpe与embeddings文件。例如,对于法语,下载位于remoteUrl下的bp.fr.bp .model文件,以及同样位于remoteUrl下的bp.fr.300.bin。https://botpress-public.nyc

2021-11-22 17:25:55 2101 2

原创 botpress使用第 3 方 NLU(rasa)

一、启动 rasa 服务启动 rasa 服务,其api接口及返回为{ "intent": { "name": "restaurant_search", "confidence": 0.391780148893826 }, "entities": [ { "entity": "food", "value": "火锅", "start": 2,

2021-11-17 11:54:02 946

原创 botpress集成(api)

1、聊天机器人对话窗口地址:http://[id]:[port]/s/{botId}botId:(1)/data/bots/BOTNAME,然后打开bot.config.json最后两行将指定 bot id(2)或点击机器人页面的config选项2、公共API2.1.1 功能描述与聊天机器人交互并获得回答2.1.2 输入No.namedescriptiontypecheck1type类型(text)String非空2text文本String

2021-11-17 11:11:06 941

原创 botpress修改数据库为PostgresSQL

在根目录下新建.env文件内容为DATABASE_URL=postgres://login:[email protected]:5432/your-db-nameDATABASE_URL=postgres://postgres:postgres@localhost:5432/postgres

2021-11-17 10:49:28 573

原创 Rasa 聊天机器人Rasa_NLU_Chi

一、RasaRasa是一个开源机器学习框架,用于构建上下文AI助手和聊天机器人。Rasa有两个主要模块:Rasa NLU :用于理解用户消息,包括意图识别和实体识别,它会把用户的输入转换为结构化的数据。Rasa Core:是一个对话管理平台,用于举行对话和决定下一步做什么。Rasa X是一个工具,可帮助您构建、改进和部署由Rasa框架提供支持的AI Assistants。 Rasa X包括用户界面和REST API。![在这里插入图片描述](https://img-blog.csd

2021-11-12 11:04:40 2864 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除