自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

薰珞婷紫小亭子的博客

志在大家一起互相交流、学习

  • 博客(399)
  • 资源 (6)
  • 收藏
  • 关注

原创 有用的知识点

张俊林:对比学习在微博内容表示的应用 Click Here !!!

2021-09-10 16:50:10 128

原创 常见Linux命令

一些常见Linux命令(持续跟新中……)查看当前目录命令:pwd查看当前目录下的所有文件或文件夹命令:ls复制一个文件夹或文件到另一个目录下命令:cp -r 源目录 目标目录 eg:cp -r /data1/qtxu/Pre_train /home/qtxu (/data1/qtxu/Pre_train:源目录 /home/qtxu:目标目录 )注意:要-r表示递归,如果没有则只能传递文件,不能传递文件夹移动一个文件夹或文件到另一个目录下(源文件仍在原处,只不过,多了一个复制)命令:mv -r

2021-09-01 10:18:53 3815 1

原创 论文阅读笔记篇

ALL PAPERS

2021-08-29 18:14:29 629 1

原创 NLP一些常见的专有名词

NLP一些常见的专有名词词性是词语在句子中扮演的语法角色,也被称为词类(Part-Of-Speech,POS)词性标注(POS Taging)任务是给定一个句子,输出句子中每个词相应的词性。句法分析(Syntatic Parsing)的主要目标是给定一个句子,分子句子的句法成分信息,例如主谓宾定状补等成分。最终的目标是将词序列表示的句子转换成树状结构,从而有助于更准确地理解句子的含义,并辅助下游自然语言处理任务。词义消歧(Word Sense Disambiguation,WSD),一词多义(如,

2021-07-30 12:37:06 1040

原创 服务器怎样查看显存状态

1.nvidia-smi:可以看到服务器节点的使用情况,但是,不能查看具体的使用百分比2.gpustat:可以查看当前所在的服务器节点,每块占用百分比。也可以查看到是谁在使用当前节点

2021-07-14 10:46:32 2441

原创 python如何实现画折线图

使用python画折线图

2024-03-20 19:21:03 160

原创 如何打印一个模型的总参数,训练参数量大小

已知一个模型的具体名称,python实现如果获取这个参数量的大小,以及训练参数大小。

2024-03-18 15:14:19 198

原创 AttributeError: ‘ChatGLMTokenizer‘ object has no attribute ‘sp_tokenizer‘

再结合自己原本的虚拟环境中有trl和vllm,也对transformers有一定的限定,因此安装transformers 4.33.1解决该问题。如果没有trl和vllm的限制,只需要安装transformers<4.34即可。在使用ChatGLM+lora微调的时候,报错“AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'“导致该问题的主要原因是transformers版本的问题。

2024-03-07 20:00:03 873

原创 latex编译生成的pdf文件,图片出现浅色的线

latex编译生成的pdf文件,图片出现浅色的线

2024-03-04 21:56:17 344

原创 如何将新标注的三元组数据转换成unicoqe可以处理的格式

1. 针对多三元组的情况,需要额外考虑。2. 最后一个样本,也记得需要处理。

2024-02-23 22:27:11 242

原创 vscode 无法远程连接waiting the server log

code-->关于Visual Studio Code, 查看当前vscode版本号。使用vscode软件,远程连接曙光,一段时间没连接,再次连接发现使用vscode连接不上,但是网页版可以正常连接。可先将当前的版本卸载,重新安装低版本的vscode即可解决问题。⚠️:如果想要避免此类的问题,再次出现,可以将vscode的自动更新去掉。, 下载符合自己电脑版本的vs code,mac的点击红框链接即可。需要先将当前版本的vscode卸载。1) code-->首选项-->设置-->输入“update"

2024-02-20 21:20:23 402

原创 ModuleNotFoundError: No module named ‘torch.utils‘

【代码】ModuleNotFoundError: No module named ‘torch.utils‘

2024-01-29 21:16:47 206

原创 python 如何获取一个文件夹的创立时间

之前创建的文件夹,忘记了创建时间,如何通过程序获取第一次的创立时间呢?

2024-01-29 13:36:41 155

原创 python实现将ChatGPT生成的数据,处理成UniCOQE的格式

index从0开始计数。

2024-01-28 21:23:19 249

原创 给定一组数值,python实现计算均值和标准差(standard deviation)

给定一组实验结果,如何快速计算其平均值和标准差。

2024-01-24 10:48:54 402

原创 python实现给定两个列表,“求同存异”

给定两个列表,list1和list2。python实现求list1和list中重复的元素,以及在list1中,不在list2的元素。

2024-01-05 14:46:02 394

原创 python bad case边界不准确问题

因此想要通过jieba分词,然后调用GPT4的api判断当前的新span是否符合条件。针对bad case中,错误的主要原因是边界定位不准确问题,sub,obj抽取过短。

2024-01-04 21:02:54 351

原创 实现中文jieba分词

使用中文分词库jieba从给定的文本中提取指定范围内的前后词语。

2024-01-04 16:38:23 368

原创 python 如何获取两个span的最长公共子序列(包含中文和英文版本)

给定两个字符串,如何返回两个字符串的最长公共子序列。

2024-01-02 22:16:56 367

原创 just recode for myself 统计大模型SFT的结果与version2中text的结果bad case

利用Qwen大模型进行SFT (lora)。将生成的结果与version2版本下的中文test.txt进行bad case分析。

2024-01-01 19:04:36 393

原创 just recod for myself--将.txt格式修改成.json格式

脑子不太好使,经常写过的代码,后面需要找的时候,又找不到了,just记录下。

2024-01-01 15:30:30 449

原创 MAC 系统在vs code中,如何实现自动换行

在vscode中,有些时候,一行内容过多,如果不能自动换行,就需要拖动页面,才能看到完整的内容。若当前行,不能自动换行,按快捷键。若当前行,可以自动换行,按。, 则可实现取消自动换行。mac系统的快捷键是", 则可实现自动换行。

2023-12-06 20:45:07 1027

原创 python 如何调用GPT系列的api接口,实现想要的功能

随着各种LLMs (Large Language Models)的出现,如何调用各种LLMs的api成为了经常会遇见的问题。⚠️: 只能在本地运行,不可以在服务器上运行,并且,🪜要打开。下面仅以生成给定sentence的复述句为例,说明如何应用。data: 存放在.txt文件中,按行存放,每一行是一个句子。

2023-11-25 10:38:04 2618

原创 解决Zotero不显示标签的问题

解决Zotero不显示标签的问题

2023-11-21 22:11:04 3395 1

原创 如何解决两个不同服务器,不同账户下的虚拟环境的克隆问题

又不想重新配置完全一样的虚拟环境(或者忘记之前的虚拟环境中的具体参数),该如何办呢?⚠️:如果不使用这一步骤,只是第一步的话,可能会存在虚拟环境中的某些“关系”并未被建立。1. 首先使用scp命令,将old服务器的虚拟环境,上传到新的服务器上。env2 # env1为新环境名称 # env2为被克隆的环境名称。2. 虚拟环境传输完毕之后,可以使用clone命令,进行创建。其中,** ** 中,表示是原有创建好的虚拟环境的路径。&& &&中,表示的当前存放新虚拟环境的路径地址。

2023-11-13 10:29:36 804

原创 各种位置编码

位置编码

2023-11-08 15:01:33 1166

原创 曙光如何kill当前的进程

通过上面的查找父类的方式,找到父类的PID,使用kill命令即可(kill结束之后,可能会有几秒钟的延迟,程序才会真的歇菜~)使用上面的命令,可以查找到所有的PID,但是一个一个kill比较麻烦,可以使用查找父类进程,直接kill父类进程的方法。在使用曙光的时候,使用kkgpu(自己的缩写)命令的时候,并不能显示当前进程的PID,因此没法杀死当前的进程。若使用分布式训练的时候,会存在一个**.py对应多个进程。如一个**.py文件在三块GPU上训练。使用下面的命令,可以找到当前进程的PID。

2023-10-30 23:23:33 84

原创 多GPU训练的命令

1). 若要使用多GPU训练,使用torchrun --nproc_per_node=8 train.py指令,nproc_per_node参数为使用GPU数量。2). 如果想指定使用哪些GPU设备可在指令前加上CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)⚠️:如果在脚本文件中已经写明了第二种方式,则不支持第一种方式的指定。e.g., 在GPU的id为0和1的两张显卡上运行***.py程序。则使用下面的命令执行:(加上。

2023-10-30 21:57:10 355

原创 latex如何对.pdf格式的图片实现裁剪

注意在裁剪的时候,不建议把width=1\textwidth,这个去掉,这个去掉可能会影响图片的居中摆放效果,可能会出现左倾或者右斜。在导入latex的时候,会因为两侧的留白导致整张图片缩小。如果直接进行裁剪.pdf,可能需要开通会员。不得不感慨latex的强大,可以直接使用命令进行裁剪。即下面的方式不可取!

2023-10-12 11:20:18 1906

原创 如何将原始按照word为单位索引标识的数据集修改为以char单位

原始数据集中,数据的标注是以word为单位,且计数从1开始的。

2023-09-24 22:48:02 159

原创 一致性检验-简单Kappa

Kappa统计量(κ)用于度量分类的一致性,即两名或多名评估者之间、或一个评估者在不同时间或条件下对相同事物进行的多次分类之间的一致性。Cohen's Kappa统计量一种分类变量的定性指标,其可以评估N个受试者在k个类别上的两个评分者之间一致性;: 这是一个二维矩阵,其中行通常代表一个评估者的分类,列代表另一个评估者的分类。Kappa<0,一致性强度极差(实际情况下发生可能性较低,Poor);0.81-1.00,极强(Almost perfect)。0-0.20,微弱(Slight);

2023-09-20 16:42:58 241

原创 python如何实现从记事本读取文件,并写入到表格.xlsx中

python如何实现从记事本读取文件,并写入到表格.xlsx中

2023-09-19 13:15:35 266

原创 docker 镜像内执行命令显示:You requested GPUs: [0] But your machine only has: []

在docker 镜像环境中,执行“docker exec -it container_name /bin/bash “进入容器之后,执行对应的python命令,显示You requested GPUs: [0] But your machine only has: []。服务器为宿主机,是有GPU资源的,但是服务器上运行docker镜像环境,反而找不到可用GPU资源。问题出在,加载docker镜像的时候,未告知docker镜像,可以直接使用宿主机的gpu资源。不同于上面的执行命令,更改执行命令即可。

2023-09-13 11:33:16 389

原创 latex 源码,\section如何居左显示

一般无论是投稿期刊还是投稿会议,默认的.tex源码中的\section未必是居左显示的,有时候,需要在不更改.sty的前提下,让Section的标题居左显示,且不显示序号。注意,上述的代码,仅对局部做处理,即只控制你想要更改位置的section,其余部分不会受到影响。在section后面,加上*,如。

2023-09-12 14:42:13 2188

原创 NLP领域可以投稿的期刊或会议(不断更新中……)

NLP领域可以投稿的期刊或者会议

2023-09-11 22:59:23 1232 2

原创 显著性检验(Significance Test)

显著性检验(Significance Test)

2023-08-27 20:02:42 485

原创 Levenshtein python调用

一般来说,编辑的距离越小,两个字符的相似度越大。不难分析出,两个字符串的编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。Levenshtein距离又称作编辑距离(Edit Distance),是指两个字符之间,由一个字符转变成另一个字符所需的最少编辑操作次数。注: 在导包的时候,是pip install python-Levenshtein, 而不是pip install Levenshtein。替换,将一个字符替换成另一个字符。

2023-08-17 11:01:10 365

原创 各种PLM 参数量大小

目录t5参数量: mt5参数量:参考链接:reference 下载地址:https://huggingface.co/t5-base/tree/main参考链接:reference下载地址:https://huggingface.co/google/mt5-base

2023-08-15 16:19:47 1335

原创 docker 基础知识

docker基础知识

2023-08-15 11:08:25 433

原创 如何读取文件夹内的诸多文件,并选择性的保留部分文件

当前有一个二级文件夹,第一层是文件夹名称是“Papers(LNAI14302-14304)",第二级文件夹目录名称如下图蓝色部分所示。第三层为存放的文件,如下下图所示,每一个文件中,均存放三个文件,分别为copyright.pdf, submission.pdf, source.zip.如何python实现,读取三层目录下的文件内容,并且将最里面一层目录中的“submission.pdf"筛选,并保存。python实现读取文件夹内的内容,并筛选部分内容,写入到另外一个文件夹中。

2023-08-15 09:50:00 185

Excel2LaTex.xla

一个可以将Office EXCEL中的表格转换成LaTex的插件

2022-04-09

199801已标记词性.txt

该资源是以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。

2020-11-17

Fudanchinese_text_classification.rar

最近在学习中文的文本分类,网上找了复旦语料集,很多都要C币(我自己也是花了很多币下载的)。把此语料集低币上传,供需要的人下载。希望可以帮助到你们。

2019-12-23

mnist_10k_sprite.png.rar

想要将该资源免费共享,可是不知道怎么将币数修改为0 ,有需要的私聊我,我免费发给你。赠人玫瑰,手有余香。

2019-06-14

MNIST_data.rar

MNIST_data数据集,亲测有效,需要的可以下载,我的博客里面也有对应的程序,希望可以帮助到你。

2019-06-14

互联网软件应用于开发课件

2012年版本,杨云的互联网软件应用于开发大部分章节的课件,网上这部分的资源还是比较匮乏的。这本书一般是成人教育的课本。

2018-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除