桐原因-CSDN博客

原创【大模型】开源大模型汇总以及微调策略

自从ChatGPT出世以来，各个大厂/研究院都纷纷推出自己的大模型，大模型领域发展一日千里。随着“百模大战”热度的降低，有必要梳理一下目前主流的大模型以及其变种模型，回顾一下。注：汇总开源模型。

2023-06-10 11:11:42 6373 1

原创考研调剂问题-应届生调剂到非全的一些问题

随着考研逐渐“高考化”，千军万马过过独木桥，大多数应届生都不能如意上榜。随着而来的一个问题—调剂，（），是选择调剂一个普通高校的全日制，还是调剂到较为优异的学校的非全专业。一些应届同学对非全既渴望又担心，渴望是能够拿到研究生的入场券，但也担心非全的权益是否能得到保证。基于此，再加上我的亲身经历，今天尝试回答一下，关于应届生调剂非全的一些问题。

2023-04-02 13:27:42 871 1

人工智能发展的历程如上图所示，从基于规则统计方法到机器学习的方法使用了近40年的时间，从机器学习到深度学习花费了20年的时间，而基于Transoformer预训练模型的发展时间大概是5年，而类ChatGPT模型的推出又将深度学习向前推进一步。在自然语言处理领域根据对语言的处理方式的不同，可分为**自然语言理解（NLU）**和 **自然语言生成(NLG)**两个子方向，自然语言理解：是理解语言、文本，从中提取出有用的信息，用于下游任务中，也就是让自然语言结构化。如：文本分类、信息抽取、信息检索等任务；

2023-03-20 17:53:32 5446 2

原创【深度学习框架-Paddle】丝滑安装PaddlePaddle,无缝衔接使用多卡

但是，PaddlePaddle安装问题一直都困扰着我，什么````C++```报错了、什么不能使用多卡了，不同Linux环境安装后报错也各不相同。怎么样，才能让Paddle安装像torch那么丝滑，开箱即用，而不是陷入各种报错当中，在不断摸索的过程中，也渐渐看到了方向。某一天，在PaddleNLP文档上查看资料，看到PaddleCloud开源了基于Paddle的镜像，可开箱即用。出现了上面的结果，说明安装成功，但是只能使用单卡，虽然不能使用多卡，但是勉强用着吧，，说明Paddle完全安装成功，没有问题了。

2023-01-30 14:50:10 1981

原创【maven】Unable to find javadoc command: The environment variable JAVA_HOME is not correctly set.

当使用自己不熟悉的工具，出现报错，大概率都是入门级的报错。一定不要紧张，debug打开，一步步看具体在哪里报错，看看是由什么问题引起的。你说你看不懂debug的日志，那你一定是太着急了，总想着赶紧解决报错，而不想弄清楚报错的问题是什么，这时候需要一定的耐心。...

2022-08-31 15:58:59 2561

原创【深度学习框架-Paddle】ExternalError: CUDNN error(4), CUDNN_STATUS_INTERNAL_ERROR.报错原因

别看排查问题步骤写的很简单，但是花费了3个小时进行解决。太让人泪目了。不过，这次问题解决也让我明白了，报错无非是由三个方面出现的，1）逻辑错误、矩阵运算错误，2）版本（环境配置），3）计算资源当然只是简单的划分，其实每一类都存细小的分类。后面，可以按照这个思路总结一下，自己遇到问题的类别，这样bug就会越来越少了，嘻嘻嘻嘻。......

2022-08-15 16:25:47 2867 1

原创【深度学习框架-torch】torch.norm函数详解用法

torch版本1.6

2022-08-14 13:28:53 10063

原创【Leetcode】438. 找到字符串中所有字母异位词

给定两个字符串 s 和 p，找到 s 中所有 p 的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。异位词指由相同字母重排列形成的字符串（包括相同的字符串）。

2022-08-09 10:47:03 104

原创【Linux】Linux终端执行docker内部shell脚本

但是不是所有的docker容器，容器的状态和服务是绑定的。需要在linux终端去执行docker内部的脚本。因为docker是使用/bin/bash执行命令的，所以对应的脚本的解析器也需要换成/bin/bash的。因为需要将服务器上的所有docker服务定时关闭、定时启动，所以需要写定时任务脚本，完成任务。所以需要使用**-d**参数，让其在后台执行命令。执行完成第一个服务后，第二个服务就不会执行了。-d让容器在后台，以守护进程的方式执行。但我所执行的脚本中，有两个服务，使用。...

2022-07-27 20:37:19 5273

原创《Parallel Instance Query Network for Named Entity Recognition》论文阅读

来源：ACL 2022论文认为存在的问题：当前的NER任务被转换为MRC任务，但是存在以下问题：每次一个问题只能抽取到一种类型的实体，效率不够高不同实体之间抽取是分割，没有考虑到实体之间的依赖性问题构造依赖于外部知识库，当存在上百个实体，MRC模式很难应用于因此，提出了PIQN(Parallel Instance Query Network)模型，设定全局和可学习的实例查询语句，同时可并行从句子抽取各类实体。方法对比：这里的 Instance Query 并不是真实的句子文本，而是q.

2022-05-26 23:43:43 1001 1

原创《Multi-hop Reading Comprehension through Question Decomposition and Rescoring》论文阅读

Multi-hop Reading Comprehension through Question Decomposition and Rescoring作者：Sewon Min、Victor Zhong机构：University of Washington、AI2期刊：ACL2019简介多跳阅读理解需要根据问题聚合多个段落的信息回答问题，因此作者提出了将复杂多跳问题分解为多个简单问题，利用400条语料训练可直接使用单跳阅读理解模型进行答案抽取。同时引入global rescoring appr.

2022-05-15 23:15:54 308

原创【linux】定时任务：mysql构建存储过程，查询数据库结果

将shell脚本变量传入sql语句中

2022-05-11 15:39:03 604

原创【Linux】sh脚本，将需要的路径下的文件复制到指定的文件夹下

由于线上文件比较多，选择特定的文件拿下线下进行语料标注，如果指定的文件数量太多，一个个复制就很麻烦。所以写一个shell脚本进行批量操作。首先把需要下载的文件路径写入txt文件中，如果需要路径补全，则在每条路径上加上*号，这样就很简单cd到对应的目录下，（就这个小点，花费了我很久时间）如图所示：然后就是遍历txt文件进行路径下操作，cat 2022-05-07_path.txt | while read linedo#echo $linedir=根目录/"$line"echo $file_

2022-05-07 17:06:45 4023

原创【linux】定时任务-删除指定路径下的文件和文件夹

项目中存在一定的中间数据，可能是由于当时写代码忘记考虑中间文件的清理，导致中间数据占用了大量空间。因此，需要对特定目录下的中间文件进行定时清理。我采用了shell脚本的命令进行删除命令如下：echo 'start remove files'time1=$(date)echo $time1starttime=`date +'%Y-%m-%d %H:%M:%S'`find /home/myproject/data/upload -maxdepth 1 -mtime +1 ! -name 'up

2022-04-30 16:52:55 3298

原创【pandas】三行代码优雅实现删除连续重复的多行

写代码中遇到的一点小问题，如果快速删除连续重复的多行并且类型是可选择的，重复的数量也是可选择的。比如：df=pd.DataFrame.from_dict({'id':[1,2,3,4,5,6,7,8,9,10,11,13,14,15,16,17,18,19,20,21,22,23],'value'['equal','equal','insert','equal','equal','equal','equal','delete','delete','delete','equal','delete','

2022-04-28 18:18:00 3103 1

原创《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读

DuReaderretrieval: A Large-scale Chinese Benchmark for PassageRetrieval fromWeb Search Engine作者：Yifu Qiu机构：百度简介当前现存段落检索数据集存在以下两个问题：False Negative，错误标注semantically similar questions，训练集、验证集中存在相似问题，导致数据泄露问题基于此，提出了DuReader Retrieval 数据集，弥补以上两个问题，.

2022-04-17 16:25:37 1349

原创【代码复现】知识表示学习MHGRN预处理操作（四）

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering将外部知识融入模型进行推理学习，在CommonsenseQA数据集中取得SOTA的效果。采用的外部知识为conceptNet代码分为5步：下载相关数据集对数据集进行预处理超参数搜索（可选）训练评估本部分主要讲解第2部分----数据集预处理。上一部分，解析了有关csqa训练数据相关处理流程，由于有关解析csqa内容较为繁多，.

2022-04-12 22:49:18 1275

原创【transformers】ModuleNotFoundError: No module named ‘transformers.utils.modeling_auto_mapping

最近更新了transformers的版本到4.10.0发现之前旧版本一些import出错了版本更新会导致部分文件路径更换名录，所以会报错如果出现上述错误，可以修改为from transformers.models.auto.modeling_auto大部分之前modeling_auto_mapping的函数或者常量都迁移到modeling_auto下面了...

2022-04-12 09:15:07 2550 3

原创【代码复现】知识表示学习MHGRN预处理操作（三）

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering将外部知识融入模型进行推理学习，在CommonsenseQA数据集中取得SOTA的效果。采用的外部知识为conceptNet代码分为5步：下载相关数据集对数据集进行预处理超参数搜索（可选）训练评估本部分主要讲解第2部分----数据集预处理。上一部分，解析了有关csqa训练数据相关处理流程，本节继续解析该部分内容基于con.

2022-04-09 23:12:03 866

原创【代码复现】知识表示学习MHGRN预处理操作（二）

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering将外部知识融入模型进行推理学习，在CommonsenseQA数据集中取得SOTA的效果。采用的外部知识为conceptNet代码分为5步：下载相关数据集对数据集进行预处理超参数搜索（可选）训练评估本部分主要讲解第2部分----数据集预处理。上一部分，解析了有关词向量common预处理操作，本节主要解析CommonsenseQ.

2022-04-05 23:42:55 1122

原创【深度学习训练流程】浅析深度学习训练流程

深度学习训练流程是一套固定的模板optimizer定义，选择不同的optimizer，权重衰减，梯度更新。scheduler定义，选择不同的scheduler，进行学习率的更新。（可选，可不使用scheduler进行学习率更新，设为None，则学习率为恒定值）model初始化，选择使用GPU训练还是CPU训练loss选择优化函数，for epoch in range(epochs):# 训练几个epoch for batch_data in range(train_data):

2022-04-05 14:49:10 3979

原创【代码复现】知识表示学习MHGRN预处理操作（一）

*** Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering ***将外部知识融入模型进行推理学习，在CommonsenseQA数据集中取得SOTA的效果。采用的外部知识为conceptNet代码分为5步：下载相关数据集对数据集进行预处理超参数搜索（可选）训练评估本部分主要讲解第2部分----*** 数据集预处理 *** 。def load_vectors(path, skip_h

2022-04-04 22:07:24 1843 4

原创【分布式训练】多gpu训练出现负载不均衡，尝试DistributedDataParallel分布式训练

某次训练深度学习模型时，使用*** roberta-large 模型作为基础模块，起初使用 DataParallel *** 的方式，进行单机多卡训练，卡数为2，每张卡显存为10G。训练期间发现，无法使用较大的batch_size，batch_size最大为4。同时，训练时间增加到3个小时一个epoch，时间开销太大。观察GPU利用显存率，0卡占用显存明显比1卡占用的要多，这也是*** DataParallel *** 这种模式的弊端。*** DataParallel *** 数据传输过程包括：1.

2022-04-04 19:31:31 3282

原创【代码复现】NER之GlobalPointer解析

前言在NER任务中，主要分为三类实体：嵌套实体、非嵌套实体、不连续实体，今天分享方法以end-to-end的方式解决前两个问题，GlbalPointer，它利用全局归一化的思路来进行命名实体识别（NER），可以无差别地识别嵌套实体和非嵌套实体，在非嵌套（Flat NER）的情形下它能取得媲美CRF的效果，而在嵌套（Nested NER）情形它也有不错的效果。核心思想GlobalPointer是一种基于span分类的解码方法，它将首尾视为一个整体去进行判别，所以它更有“全局观”（更Global）。而且

2022-03-20 13:12:34 9768 26

空空如也

空空如也