- 博客(71)
- 收藏
- 关注
转载 2024激活Typora,最新版本的1.8.10.0可用
实测可用日期为:2024-02-11目前最新版本 1.8.10.0 也是可以实现激活的注:免修改注册表、不用修改时间,更不需要破解补丁。
2024-04-17 13:18:15 5
原创 【Linux】将程序的输出显示到屏幕,同时写入到log文件
nohup 放在命令的开头,表示不挂起(no hang up),也即,关闭终端或者退出某个账号,进程也继续保持运行状态,一般配合&符号一起使用。2>&1 也就表示将错误重定向到标准输出上。2表示标准错误,1表示标准输出。这里的&相当于转义字符,如果不加&则会变成把标准错误2输出到名为1的文件中。加上-u(unbuffered)参数后,表示python执行时,会强制其标准输出也同标准错误一样不通过缓存直接打印到屏幕。& 放在命令到结尾,表示后台运行,防止终端一直被某个进程占用,这样终端可以执行别到任务。
2024-02-29 15:55:59 449
转载 实战中,BERT如何处理篇章级长文本?
如果考虑性能、只能使用一个Pooling的话,就使用Max-Pooling,因为捕获的特征很稀疏、Max-Pooling会保留突出的特征,Mean-Pooling会将特征打平。通过统计,该任务与主题相关的句子,不到总字数的60%,40%的时间都是在浪费在这些"糟粕"上,同时这些冗余文本也会带来一些噪声,不利于模型的学习。压缩法的宗旨是选取“精华”,去除“糟粕”。
2024-02-21 10:08:07 249
转载 基于 chinese-roberta-wwm-ext 微调训练中文命名实体识别任务
是基于RoBERTa架构下开发,其中wwm代表,即对整个词进行掩码处理,通过这种方式,模型能够更好地理解上下文和语义关联,提高中文文本处理的准确性和效果。与原始的BERT模型相比,在训练数据规模和训练步数上做了一些调整,以进一步提升模型的性能和鲁棒性。并且在大规模无监督语料库上进行了预训练,使其具备强大的语言理解和生成能力。它能够广泛应用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等。我们可以使用这个模型作为基础,在不同的任务上进行微调和迁移学习,以实现更准确、高效的中文文本处理。进到。
2024-02-19 14:21:21 202
转载 bert+crf可以做NER,那么为什么还有bert+bi-lstm+crf ?
但由于BERT本身就是all-attention,就是全局的Attention,不存在说哪个token谁离我远,我就注意不到了(BERT原来较LSTM吹的,也是这一点,attention全局建模)。因为对于序列标注问题,假设已经知道前面一个token标签为B-Location, 则下一个token标签大概率是I-Location,而不是O, 这样的问题下,CRF对于前后有依赖(也就是题主说的surrounding predictions),全局的概率转移建模估计更加的合理。关于加上BiLSTM有没有用?
2023-08-02 11:31:07 319
原创 Transformer 模型详解
红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到。编码器组件和解码器组件中分别为连续 N(在 Transformer模型中 N = 6)个具有相同结构的编码器和解码器,每个编码器的结构都是相同的,但是它们使用不同的权重参数。(4)残差结构(Residuals)
2023-07-11 15:49:10 1307
原创 ChatGLM2-6B的P-Tuning微调
注:ChatGLM2-6B官网给的环境P-Tuning微调报错。可复用ChatGLM-6B(上述部署教程),即。
2023-07-05 12:48:26 3919 9
转载 ChatGLM-6B的P-Tuning微调详细步骤及结果验证
P-Tuning是一种较新的模型微调方法,它采用了参数剪枝的技术,可以将微调的参数量减少到原来的0.1%。具体来说,是基于的升级版,主要的改进在于采用了更加高效的剪枝方法,可以进一步减少模型微调的参数量。的原理是通过对已训练好的大型语言模型进行参数剪枝,得到一个更加小巧、效率更高的轻量级模型。具体地,首先使用一种自适应的剪枝策略,对大型语言模型中的参数进行裁剪,去除其中不必要的冗余参数。然后,对于被剪枝的参数,使用了一种特殊的压缩方法,能够更加有效地压缩参数大小,并显著减少模型微调的总参数量。总的来说,
2023-07-04 16:51:32 1491 1
原创 ChatGPT中 top_p 和 temperature 的作用机制
可以看到,当 temperature 更大时,模型的选择更加随机(每个 token 的概率更加接近), 给予原本低概率的 token 更大的选择机会,从而产生更多样化和创意的输出。相反, temperature 更小使模型的选择更加确定,给予原本高概率的 token 更大的选择机 会,从而产生更集中和一致的输出。考虑 a$,他的概率是 0.25 ,加上前面的所有概率得到 0.75。时,模型在每次选择 token时只选择概率最大的那一个,于是我们每次询 问 (同样的prompt) 都会得到完全相同的回答。
2023-06-30 15:46:01 4038 2
转载 全网最新版ChatGLM-6B开源模型环境详细部署及安装——如何在低显存单显卡上面安装私有ChatGPT GPT-4大语言模型
ChatGPT的爆火让许多公司和个人都想要开发自己的大型语言模型,但是,由于算力和语言模型开发能力等诸多方面的限制,许多人最终都只能在开发的早期阶段止步不前。然而,近期清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University)发布了对话机器人ChatGLM-6B的开源版本,这一切都变得更加容易了。这个中英文语言模型拥有千亿参数规模,并且对中文进行了优化。
2023-06-19 10:05:04 1761
原创 神经网络/深度学习(二)
在 1 vs N 结构中,我们只有一个输入 x,和 N 个输出 y1, y2, …可以有两种方式使用 1 vs N,第一种只将输入 x传入第一个 RNN 神经元,第二种是将输入 x 传入所有的 RNN 神经元。每个神经元接受的输入包括:前一个神经元的隐藏层状态 h(用于记忆) 和当前的输入 x (当前信息)。上图是RNN 模型的一种 N vs N 结构,包含 N 个输入 x1, x2, …, xN,和 N 个输出 y1, y2, …(1)序列分类任务,一段语音、一段文字的类别,句子的情感分析。
2023-04-12 14:41:14 1035 1
原创 linux创建用户
创建用户名为aaa的用户-m:自动建立用户的登入目录sudo是允许系统管理员让普通用户执行root命令的一个工具(获取权限)这里会需要输入管理员的密码(不是你想给新用户设置的密码!!!输入用户aaa的密码。
2023-03-22 09:33:34 1372
原创 Python地理位置信息库geopy的使用:根据中心点坐标,方向,距离计算坐标; 利用两点经纬度计算地理空间距离
Python地理位置信息库geopy的使用:根据中心点坐标,方向,距离计算坐标; 利用两点经纬度计算地理空间距离
2023-01-30 10:37:03 1203 1
原创 python doc转docx
import osfrom win32com import clientimport timebase_dir = r"E:\xx\xxx\xxxx"for root, dirs, files in os.walk(base_dir): n = 1 for file in files: if file.endswith(".doc"): time.sleep(5) print(file) #w
2022-03-11 14:58:42 1350 1
原创 nltk分句、分词
使用 nltk 遇到错误from nltk.tokenize import sent_tokenize1.Resource punkt not found.Please use the NLTK Downloader to obtain the resource:
2022-02-22 18:17:41 1347
原创 英文段落分句
做nlp的时候,我们数据往往是一篇文章或者一大段文字,在进行其他处理之前,你需要先对文章进行切割或者处理(去除多余字符、特殊符号,分句和分词),或者是分句以句子级别为最小单位进行后续处理。那么如何进行分句呢?比如有下面一段文本:First, it takes time to accomplish a task —— the earlier you begin,the more likely you will reach your goal earlier. Otherwise you call neve
2022-02-22 18:02:10 391
原创 Python XML 解析
<!-- movies.xml --> <collection shelf="New Arrivals"><movie title="Enemy Behind"> <type>War, Thriller</type> <format>DVD</format> <year>2003</year> <rating>PG</rating> <s
2021-12-15 15:32:40 122
原创 高德地图-添加一个或多个覆盖物
https://lbs.amap.com/demo/jsapi-v2/example/common/add-several-overlay添加如下,可显示点、线面map.add([marker, polyline, polygon]);点线:面:注:
2021-12-06 17:23:37 684
转载 Rasa中文聊天机器人开发指南(3):Core篇
文章目录 1. 对话管理1.1 多轮对话1.2 对话管理 2. Rasa Core2.1 Stories2.2 Domain2.3 Responses2.4 Actions2.5 Policies2.6 Slots2.6.1 Slots Type2.6.2 Slots Set2.6.3 Slots Get 2.7 Form2.8 Interactive Learning 3. 改进ChitChatAssistant项目3.1 config.yml3.2 weather_stories....
2021-12-01 14:22:02 1460
转载 Rasa中文聊天机器人开发指南(2):NLU篇
文章目录 1. 什么是NLU2. NLU训练数据2.1 NLU样本格式2.2 验证数据有效性2.2.1 使用命令2.2.2 使用代码 2. Rasa NLU Components2.1 词向量资源(Word Vector Sources)2.1.1 MitieNLP2.1.2 SpacyNLP 2.2 分词(Tokenizers)2.2.1 WhitespaceTokenizer2.2.2 JiebaTokenizer2.2.3 MitieTokenizer2.2.4 SpacyTo...
2021-12-01 11:54:38 1802 1
转载 Rasa中文聊天机器人开发指南(1):入门篇
文章目录 1. Rasa简介与安装1.1 Rasa简介1.2 Rasa安装(v1.9.4)1.1 Ubuntu 16.04环境1.2 Windows10环境 2. Rasa使用--构建简单聊天机器人2.1 构建NLU样本2.1.1 nlu.md 2.2 构建Core样本2.2.1 stories.md2.2.2 domain.yml 2.3 训练NLU和CORE模型2.3.1 config.yml2.3.2 模型训练 2.4 配置Http和Action2.3.1 cred...
2021-12-01 11:07:27 6510 3
原创 将chrome中接口参数copy到postman中调试
在chrome中找到请求的接口,点击右键-copy-选择copy as cURL(bash)在postman中导入import-Raw text - paste最后点击提交,请求的接口就导入到了postman中直接点击请求即可
2021-11-24 11:03:23 250
原创 Python判断字符串是否为字母或者数字
str_1 = "123"str_2 = "Abc"str_3 = "123Abc"isdigit函数判断是否数字print(str_1.isdigit())Tureprint(str_2.isdigit())Falseprint(str_3.isdigit())Falseisalpha判断是否字母print(str_1.isalpha()) Falseprint(str_2.isalpha())Ture print(str_3.isalpha()) F
2021-11-24 10:51:05 15763
原创 pandas to_csv 字符串过长被强制换行
数据写入csv,当某个字符串过长时,发现生成的csv被强制换行了,print的数据没有问题使用to_excel之后就解决了,并不会强制换行,但是生成的速度相对而言就会变。excel会丢弃后面的内容
2021-11-24 10:33:10 1415 4
原创 python去除html标签
# -*- coding:utf-8 -*-from bs4 import BeautifulSouptext='<br/>一、<br/><p> </p><h6><strong>项目概况</strong></h6>'soup = BeautifulSoup(text,'html.parser')参考:https://www.cnblogs.com/zhangyafei/p/10285
2021-11-24 08:59:57 656
原创 python读取excel超链接
表格存在两种格式 .xls 和 .xlsx,所以python存在两种库分别读取这两种格式表格超链接。openpyl针对.xlsx格式,xlrd针对.xls文件。1. xlsx–openpyxl# coding=utf-8import openpyxlmain_book = openpyxl.load_workbook("excel_test.xlsx")main_sheet = main_book.activeprint(main_sheet.cell(1, 1).value)print(m
2021-11-22 17:38:47 2349
原创 botpress使用中文模型&duckling
botpress默认使用英文模型1. 安装语言服务语言服务用于提供运行 NLU 所需的语言模型。默认情况下,Botpress 将语言服务器配置为获取单词的100个维度。如果计划在生产中使用该语言服务器,强烈建议将维度设置为 300。安装语言库下载与您语言相对应的bpe与embeddings文件。例如,对于法语,下载位于remoteUrl下的bp.fr.bp .model文件,以及同样位于remoteUrl下的bp.fr.300.bin。https://botpress-public.nyc
2021-11-22 17:25:55 2101 2
原创 botpress使用第 3 方 NLU(rasa)
一、启动 rasa 服务启动 rasa 服务,其api接口及返回为{ "intent": { "name": "restaurant_search", "confidence": 0.391780148893826 }, "entities": [ { "entity": "food", "value": "火锅", "start": 2,
2021-11-17 11:54:02 946
原创 botpress集成(api)
1、聊天机器人对话窗口地址:http://[id]:[port]/s/{botId}botId:(1)/data/bots/BOTNAME,然后打开bot.config.json最后两行将指定 bot id(2)或点击机器人页面的config选项2、公共API2.1.1 功能描述与聊天机器人交互并获得回答2.1.2 输入No.namedescriptiontypecheck1type类型(text)String非空2text文本String
2021-11-17 11:11:06 941
原创 botpress修改数据库为PostgresSQL
在根目录下新建.env文件内容为DATABASE_URL=postgres://login:[email protected]:5432/your-db-nameDATABASE_URL=postgres://postgres:postgres@localhost:5432/postgres
2021-11-17 10:49:28 573
原创 Rasa 聊天机器人Rasa_NLU_Chi
一、RasaRasa是一个开源机器学习框架,用于构建上下文AI助手和聊天机器人。Rasa有两个主要模块:Rasa NLU :用于理解用户消息,包括意图识别和实体识别,它会把用户的输入转换为结构化的数据。Rasa Core:是一个对话管理平台,用于举行对话和决定下一步做什么。Rasa X是一个工具,可帮助您构建、改进和部署由Rasa框架提供支持的AI Assistants。 Rasa X包括用户界面和REST API。![在这里插入图片描述](https://img-blog.csd
2021-11-12 11:04:40 2864 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人