自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘,无需重装transformers和torch

如https://github.com/baichuan-inc/Baichuan2/issues/204。注意需要把模型文件download到本地后修改模型文件中的tokenization_baichuan.py。修改下 tokenization_baichuan.py ,把 super() 修改到最后执行。

2023-11-01 15:34:03 3730 1

原创 decapoda-research/llama-7b-hf 的踩坑记录

将tokenizer_config.json中LLaMATokenizer改为LlamaTokenizer。使用transformers加载decapoda-research/llama-7b-hf的踩坑记录。替换原本的tokenizer_config.json。

2023-10-23 20:31:33 1427 1

原创 解决报错RuntimeError: Failed to import transformers.trainer_seq2seq because of the following error

参考:https://github.com/huggingface/transformers/issues/23340。需要升级accelerate包。

2023-10-17 14:22:04 1683

原创 解决docker使用pandarallel报错OSError: [Errno 28] No space left on device

在使用pandarallel报错OSError: [Errno 28] No space left on device,根据上述issue发现确实默认使用的MEMORY_FS_ROOT为 /dev/shm,而在docker环境下这个目录大小只有64M,完全不够处理数据。一开始已经加了参数而而在pandarallel/core.py中依旧没有被覆盖改写,后来经过打印os.environ发现传入的参数没有覆盖成功,需要将上述代码。放在执行文件的最上面即可成功覆盖参数。

2023-10-14 17:51:31 714 2

原创 【论文笔记】LLM-Augmenter

github:https://github.com/pengbaolin/LLM-Augmenter(暂无处readme外其他文件)![在这里插入图片描述](https://img-blog.csdnimg.cn/24cba6213c0f4c00a5646eb9007b3aa2.png#pic_center。

2023-10-13 17:53:02 593

原创 【论文笔记】A Survey of Hallucination in “Large” Foundation Models

基础模型(Foundation Models)指的是通过自监督学习在大量未标记数据上训练的大规模AI模型,能够在各种各样的任务中表现出色。在基础模型的背景下,幻觉(Hallucination)是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。

2023-10-07 19:56:28 97

原创 大模型面试基础+八股文【持续更新中】

来源:https://redian.news/wxnews/488452一些参考:https://zhuanlan.zhihu.com/p/643560888https://zhuanlan.zhihu.com/p/643829565https://zhuanlan.zhihu.com/p/558286175https://zhuanlan.zhihu.com/p/632102048https://github.com/5663015/LLMs_train论文《Finetuned Language

2023-08-14 10:23:44 3282

原创 解决from conda.cli import main Module NotFoundError: No module named ‘conda‘问题,无需重装

这里写自定义目录标题最近遇到问题from conda.cli import main Module NotFoundError: No module named 'conda'查了一圈资料,发现是在安装包的时候也更新了python版本,导致conda中python版本与实际python版本不一致,一个可行的解决办法是可以只重装anaconda不重装环境https://blog.csdn.net/u011331731/article/details/89407914但由于我并不知道自己的ana

2022-03-06 20:25:15 4091

原创 On the Calibration and Uncertainty of Neural Learning to Rank Models 论文笔记

摘要:根据概率排名原则(PRP),按照文档的相关概率递减的顺序对文档进行排名,可以为临时检索提供最佳的文档排序。当满足两个条件时,PRP成立:[C1]模型已经很好地校准,并且[C2]报告了有把握的相关概率。但是,我们知道,深度神经网络(DNN)通常没有得到很好的校准,并且具有多种不确定性来源,因此神经排序器可能无法满足[C1]和[C2]。鉴于L2R方法的成功-尤其是基于BERT的方法-我们首先分析确定性的情况,即输出点估计,神经排序器被校准。然后,根据我们的发现,我们使用两种技术来建模神经排序器的不确定性,

2021-09-22 00:21:59 131

原创 First Order Motion Model for Image Animation 阅读笔记

定义图像动画是指通过将从源图像提取的外观与从驱动视频导出的运动模式相结合来自动合成视频的任务。研究现状传统的图像动画和视频重定位方法是针对特定领域设计的,如人脸、人体轮廓或手势,并且需要对动画对象有很强的先验知识。例如,在人脸动画中,Zollhofer等人的方法产生了逼真的结果,但在许多应用中,这样的模型是不可用的。目前,生成性对抗网络(GANs)和可变自动编码器(VAE)已被用于在视频中转换人类对象之间的面部表情或运动模式。然而,这些方法通常依赖于预训练模型来提取特定于对象的表示,例如关键点位置。而

2021-09-22 00:21:14 754

原创 Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记

问题:因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差。且字节2020在EMNLP上的On the Sentence Embeddings from Pre-trained Language Models一文证明了BERT 更加依赖词汇重叠来确定短语和句子的相似性。先前提出的解决方法:在预训练阶段预测跨度而不是单词(Joshi 等人,2019 年),在较短文本上微调 BERT(Reime

2021-09-22 00:16:48 363

转载 解决AttributeError: module ‘tensorflow_core.activations‘ has no attribute ‘swish‘

今天使用transformers遇到这个错误,查了很多都是说pytorch、tensorflow以及keras版本不对应问题。更改torch版本和transformers版本均不行,按照别人经验将tensorflow升级为最新2.3.1版也不行。看报错发现是下面这句点进去,将该激活方法注释掉即可。(前提是我没有使用到)解决!...

2021-05-08 14:52:31 985

转载 Learning to Rank(L2R)学习记录

一、什么是排序学习?Wikipedia的对排序学习的定义如下:“Learning to rank is the application of machine learning, typically supervised, semi-supervised or reinforcement learning, in the construction of ranking models for information retrieval systems. Training data consists of l

2021-01-19 16:51:10 429

原创 常用命令list

虚拟环境相关:1.新建虚拟环境conda create -n env_name python=X.X(2.7、3.6等)命令创建python版本为X.X、名字为env_name的虚拟环境。2. 查看环境conda env list 或 conda info -e(-env) 查看当前存在哪些虚拟环境。3. 激活你的虚拟环境(即切换环境)Linux: source activate env_name(虚拟环境名称)Windows: (conda) activate env_name(虚拟环境名

2020-07-27 17:15:54 377

原创 cv学习中遇到的问题及解决方法

1.解决ASSERT: “false” in file qasciikey.cpp, line 501报错方法。MobaXterm中的一种解决方法是取消选中X11设置中的“ Unix兼容键盘”。使用cv2.putText()只能显示英文字符,中文会出现乱码问题,因此使用PIL在图片上绘制添加中文,可以指定字体文件。如下: img = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB)) draw = ImageDraw.Draw(img)

2020-07-21 09:01:38 1149

原创 paddlehub使用总结

因为目前使用paddlepaddle的人数还太少,查找一些信息不方便,记录一下自己遇到的坑方便别人查找。不定时更新中...... 1. padlehub多卡训练,指定GPU编号 只需要在run_confing中设置use_cuda=True,use_data_parallel=True,然后训练时候指定gpu即可。如CUDA_VISIBLE_DEVICES=0,1,2,3 python classifier.py --module_name ernie_tiny --ckpt_di...

2020-07-19 10:26:03 3183

原创 DETR(DEtection TRansformer)的初步摸索

DETR是FIR提出的基于Transformers的端到端目标检测,没有NMS后处理步骤、没有anchor,结果在coco数据集上效果与Faster RCNN相当,且可以很容易地将DETR迁移到其他任务例如全景分割。引用知乎大佬的画来说,这种做目标检测的方法更合理。优点:1、提出了一种目标检测新思路,真正的end-to-end,更少的先验(没有anchor、nms等);2、在coco上,准确率、运行效率与高度优化的faster R-CNN基本持平。在大目标上效果比faster R-CNN好。3

2020-06-11 09:21:13 27815 7

转载 调用预训练好的XLnet词向量

调用XLnet模型训练好的词向量做W2V的方法如下:1.pip install pytorch_transformers2.下载预训练模型3.如下Getw2v()代码块获取词向量4. 使用词向量进行其他后续操作,如进行句子相似性判断,做命名实体识别等。以下代码是进行句子相似性判断的示例。from pytorch_transformers import XLNetModel,XLNetCo...

2020-04-02 16:25:05 1690 13

原创 NLP词向量介绍

全文均为笔者的理解,不权威也不一定准确,如有错误欢迎指正。NLP的核心问题,就是学习不同语境下的语义表示,所谓的语义表示呢,就是以量化的方式来表示一个单词,即我们今天要说的——词向量。词向量作为一种预训练模型在NLP领域应用非常广泛,词向量可以看作是用来表达词的语义。在这个领域,一个重要的挑战为一个单词在不同的上下文里有可能表示不一样的语义,该如何解决这个问题呢?那就是加入了上下文信息来区分同一...

2020-02-20 17:22:08 987

原创 李航统计学习方法第二版第十章习题解答

2020-02-19 08:00:33 2087 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除