- 博客(399)
- 资源 (6)
- 收藏
- 关注
原创 常见Linux命令
一些常见Linux命令(持续跟新中……)查看当前目录命令:pwd查看当前目录下的所有文件或文件夹命令:ls复制一个文件夹或文件到另一个目录下命令:cp -r 源目录 目标目录 eg:cp -r /data1/qtxu/Pre_train /home/qtxu (/data1/qtxu/Pre_train:源目录 /home/qtxu:目标目录 )注意:要-r表示递归,如果没有则只能传递文件,不能传递文件夹移动一个文件夹或文件到另一个目录下(源文件仍在原处,只不过,多了一个复制)命令:mv -r
2021-09-01 10:18:53 3815 1
原创 NLP一些常见的专有名词
NLP一些常见的专有名词词性是词语在句子中扮演的语法角色,也被称为词类(Part-Of-Speech,POS)词性标注(POS Taging)任务是给定一个句子,输出句子中每个词相应的词性。句法分析(Syntatic Parsing)的主要目标是给定一个句子,分子句子的句法成分信息,例如主谓宾定状补等成分。最终的目标是将词序列表示的句子转换成树状结构,从而有助于更准确地理解句子的含义,并辅助下游自然语言处理任务。词义消歧(Word Sense Disambiguation,WSD),一词多义(如,
2021-07-30 12:37:06 1040
原创 服务器怎样查看显存状态
1.nvidia-smi:可以看到服务器节点的使用情况,但是,不能查看具体的使用百分比2.gpustat:可以查看当前所在的服务器节点,每块占用百分比。也可以查看到是谁在使用当前节点
2021-07-14 10:46:32 2441
原创 AttributeError: ‘ChatGLMTokenizer‘ object has no attribute ‘sp_tokenizer‘
再结合自己原本的虚拟环境中有trl和vllm,也对transformers有一定的限定,因此安装transformers 4.33.1解决该问题。如果没有trl和vllm的限制,只需要安装transformers<4.34即可。在使用ChatGLM+lora微调的时候,报错“AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'“导致该问题的主要原因是transformers版本的问题。
2024-03-07 20:00:03 873
原创 vscode 无法远程连接waiting the server log
code-->关于Visual Studio Code, 查看当前vscode版本号。使用vscode软件,远程连接曙光,一段时间没连接,再次连接发现使用vscode连接不上,但是网页版可以正常连接。可先将当前的版本卸载,重新安装低版本的vscode即可解决问题。⚠️:如果想要避免此类的问题,再次出现,可以将vscode的自动更新去掉。, 下载符合自己电脑版本的vs code,mac的点击红框链接即可。需要先将当前版本的vscode卸载。1) code-->首选项-->设置-->输入“update"
2024-02-20 21:20:23 402
原创 ModuleNotFoundError: No module named ‘torch.utils‘
【代码】ModuleNotFoundError: No module named ‘torch.utils‘
2024-01-29 21:16:47 206
原创 python实现给定两个列表,“求同存异”
给定两个列表,list1和list2。python实现求list1和list中重复的元素,以及在list1中,不在list2的元素。
2024-01-05 14:46:02 394
原创 python bad case边界不准确问题
因此想要通过jieba分词,然后调用GPT4的api判断当前的新span是否符合条件。针对bad case中,错误的主要原因是边界定位不准确问题,sub,obj抽取过短。
2024-01-04 21:02:54 351
原创 just recode for myself 统计大模型SFT的结果与version2中text的结果bad case
利用Qwen大模型进行SFT (lora)。将生成的结果与version2版本下的中文test.txt进行bad case分析。
2024-01-01 19:04:36 393
原创 just recod for myself--将.txt格式修改成.json格式
脑子不太好使,经常写过的代码,后面需要找的时候,又找不到了,just记录下。
2024-01-01 15:30:30 449
原创 MAC 系统在vs code中,如何实现自动换行
在vscode中,有些时候,一行内容过多,如果不能自动换行,就需要拖动页面,才能看到完整的内容。若当前行,不能自动换行,按快捷键。若当前行,可以自动换行,按。, 则可实现取消自动换行。mac系统的快捷键是", 则可实现自动换行。
2023-12-06 20:45:07 1027
原创 python 如何调用GPT系列的api接口,实现想要的功能
随着各种LLMs (Large Language Models)的出现,如何调用各种LLMs的api成为了经常会遇见的问题。⚠️: 只能在本地运行,不可以在服务器上运行,并且,🪜要打开。下面仅以生成给定sentence的复述句为例,说明如何应用。data: 存放在.txt文件中,按行存放,每一行是一个句子。
2023-11-25 10:38:04 2618
原创 如何解决两个不同服务器,不同账户下的虚拟环境的克隆问题
又不想重新配置完全一样的虚拟环境(或者忘记之前的虚拟环境中的具体参数),该如何办呢?⚠️:如果不使用这一步骤,只是第一步的话,可能会存在虚拟环境中的某些“关系”并未被建立。1. 首先使用scp命令,将old服务器的虚拟环境,上传到新的服务器上。env2 # env1为新环境名称 # env2为被克隆的环境名称。2. 虚拟环境传输完毕之后,可以使用clone命令,进行创建。其中,** ** 中,表示是原有创建好的虚拟环境的路径。&& &&中,表示的当前存放新虚拟环境的路径地址。
2023-11-13 10:29:36 804
原创 曙光如何kill当前的进程
通过上面的查找父类的方式,找到父类的PID,使用kill命令即可(kill结束之后,可能会有几秒钟的延迟,程序才会真的歇菜~)使用上面的命令,可以查找到所有的PID,但是一个一个kill比较麻烦,可以使用查找父类进程,直接kill父类进程的方法。在使用曙光的时候,使用kkgpu(自己的缩写)命令的时候,并不能显示当前进程的PID,因此没法杀死当前的进程。若使用分布式训练的时候,会存在一个**.py对应多个进程。如一个**.py文件在三块GPU上训练。使用下面的命令,可以找到当前进程的PID。
2023-10-30 23:23:33 84
原创 多GPU训练的命令
1). 若要使用多GPU训练,使用torchrun --nproc_per_node=8 train.py指令,nproc_per_node参数为使用GPU数量。2). 如果想指定使用哪些GPU设备可在指令前加上CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)⚠️:如果在脚本文件中已经写明了第二种方式,则不支持第一种方式的指定。e.g., 在GPU的id为0和1的两张显卡上运行***.py程序。则使用下面的命令执行:(加上。
2023-10-30 21:57:10 355
原创 latex如何对.pdf格式的图片实现裁剪
注意在裁剪的时候,不建议把width=1\textwidth,这个去掉,这个去掉可能会影响图片的居中摆放效果,可能会出现左倾或者右斜。在导入latex的时候,会因为两侧的留白导致整张图片缩小。如果直接进行裁剪.pdf,可能需要开通会员。不得不感慨latex的强大,可以直接使用命令进行裁剪。即下面的方式不可取!
2023-10-12 11:20:18 1906
原创 一致性检验-简单Kappa
Kappa统计量(κ)用于度量分类的一致性,即两名或多名评估者之间、或一个评估者在不同时间或条件下对相同事物进行的多次分类之间的一致性。Cohen's Kappa统计量一种分类变量的定性指标,其可以评估N个受试者在k个类别上的两个评分者之间一致性;: 这是一个二维矩阵,其中行通常代表一个评估者的分类,列代表另一个评估者的分类。Kappa<0,一致性强度极差(实际情况下发生可能性较低,Poor);0.81-1.00,极强(Almost perfect)。0-0.20,微弱(Slight);
2023-09-20 16:42:58 241
原创 docker 镜像内执行命令显示:You requested GPUs: [0] But your machine only has: []
在docker 镜像环境中,执行“docker exec -it container_name /bin/bash “进入容器之后,执行对应的python命令,显示You requested GPUs: [0] But your machine only has: []。服务器为宿主机,是有GPU资源的,但是服务器上运行docker镜像环境,反而找不到可用GPU资源。问题出在,加载docker镜像的时候,未告知docker镜像,可以直接使用宿主机的gpu资源。不同于上面的执行命令,更改执行命令即可。
2023-09-13 11:33:16 389
原创 latex 源码,\section如何居左显示
一般无论是投稿期刊还是投稿会议,默认的.tex源码中的\section未必是居左显示的,有时候,需要在不更改.sty的前提下,让Section的标题居左显示,且不显示序号。注意,上述的代码,仅对局部做处理,即只控制你想要更改位置的section,其余部分不会受到影响。在section后面,加上*,如。
2023-09-12 14:42:13 2188
原创 Levenshtein python调用
一般来说,编辑的距离越小,两个字符的相似度越大。不难分析出,两个字符串的编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。Levenshtein距离又称作编辑距离(Edit Distance),是指两个字符之间,由一个字符转变成另一个字符所需的最少编辑操作次数。注: 在导包的时候,是pip install python-Levenshtein, 而不是pip install Levenshtein。替换,将一个字符替换成另一个字符。
2023-08-17 11:01:10 365
原创 各种PLM 参数量大小
目录t5参数量: mt5参数量:参考链接:reference 下载地址:https://huggingface.co/t5-base/tree/main参考链接:reference下载地址:https://huggingface.co/google/mt5-base
2023-08-15 16:19:47 1335
原创 如何读取文件夹内的诸多文件,并选择性的保留部分文件
当前有一个二级文件夹,第一层是文件夹名称是“Papers(LNAI14302-14304)",第二级文件夹目录名称如下图蓝色部分所示。第三层为存放的文件,如下下图所示,每一个文件中,均存放三个文件,分别为copyright.pdf, submission.pdf, source.zip.如何python实现,读取三层目录下的文件内容,并且将最里面一层目录中的“submission.pdf"筛选,并保存。python实现读取文件夹内的内容,并筛选部分内容,写入到另外一个文件夹中。
2023-08-15 09:50:00 185
Fudanchinese_text_classification.rar
2019-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人