xxzhix-CSDN博客

原创大语言模型peft技术

上图x轴表示的是层id，即哪一层，从embedding层到最后输出层，y轴表示的是norm值。P-tuning的缺点：1. 并不能做到在所有规模参数的模型上表现都好，超过10 billion参数的模型表现好，100 million到1 billion规模参数的模型上相比全参数微调差很多。但是，不同于让专家优化单个词，单个词容易受具体的词的影响，不同的词有不同的向量表示。在DoRA中，是对参数矩阵分解，而不是向量，矩阵的每一列参数连接了输入到输出，也就是将每一列看作向量做分解（如下图右）。

2024-04-18 17:34:34 845

原创模型预测时GPU占用不断增长

情况：pytorch框架，深度模型单GPU预测时，显存占用会不断增长，由有1G增长到5G，甚至更多。我这边排查下来的原因是卷积的输入尺寸变化，有很大尺寸的输入导致GPU占用不断增长。如果你的模型中没有使用卷积层，可以不往下阅读。如何看出显存占用不断增长？登录代码运行服务器，使用 watch -n 1 nvidia-smi ，观察显存变化预测部分代码如下：with torch.no_grad(): # 模型预测 output = self.model(**input_da

2022-04-23 17:00:39 3584 4

原创 batch normalization and batch size

batch normalization的原理解释可以看https://www.cnblogs.com/guoyaohua/p/8724433.html 我觉得写得挺清晰的实验结果：batch_size的大小会影响batch normalization的效果。当batch_size过大的时候，会使得模型效果不稳定（我做的实验是模型偏向于预测为某一个类别）。实验：模型：DPCNN，在...

2019-12-04 21:26:01 998

原创 word2vec

1. 两种word2vec模型的结构之前的神经网络语言模型结构Neural Probabilistic Language Model (NNLM)为什么采用新的结构，不使用NNLM的结构？在NNLM的结构中，有隐藏层，就是上图中tanh那层，则当单词的窗口长度为n，映射得到的词向量C的维度为D，隐藏层的维度为H时，从映射层(projection)到隐藏层(hidden lay...

2019-06-29 16:14:52 772

翻译 A Hybrid CNN-RNN Alignment Model for Phrase-Aware Sentence Classification

记录一下这篇论文。网络结构如下：有3个阶段：第一个阶段是使用CNN生成短语向量，第二个阶段结合短语向量和词向量，并使用软对齐的RNN来生成考虑词顺序的句向量，第三个阶段使用句向量来做类别预测。1. CNN句向量是句子中第i个单词对应的k维的词向量，长度为N的句子可以看作列方向上的词向量的拼接。使用一系列卷积核来学习不同长度的短语表示。表示第i步的短语向量，包含了所有...

2019-06-17 22:54:54 415

原创 TextCNN是否忽略了词的顺序？

想请教个问题：TextCNN在convolution操作后会有max pooling的操作，如果把不同的convolution操作看作是提取不同的特征，所有的convolution都是对整个句子进行的，那max pooling之后是不是就完全失去了句子的顺序？希望有人指点一二，感恩...

2019-04-22 17:55:55 368 13

原创为什么说BERT是bidirectional

BERT是一个deep bidirectional Transformer。Transformer可参考 https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc 非常详细易懂Transformer是一个encoder-decoder框架。编码器的结构：其中...

2019-04-19 20:55:19 1039

原创如何理解word2vec中的NCE

以下是自己的一些想法和提问，不一定正确，还望大家指正，感恩！word2vec为什么使用NCE？使用NCE来替代softmax，是因为softmax在类别很多很多的时候计算量大（计算每个类的得分的时候都需要对所有类求和来做分母），word2vec最后需要输出词表大小的类别，数量很大。NCE相当于将多类别分类变成多个二类分类，正类是输入词的上下文中的某个词，负类是不属于上下文的某些词。什...

2019-04-17 20:59:47 1441

原创一个LSTM层中隐向量的个数怎么理解

参考 https://www.reddit.com/r/MachineLearning/comments/87djn7/d_what_is_meant_by_number_of_hidden_units_in_an/LSTM有input gate, forget gate, output gate，这些gate都是将本时刻的输入和上一时刻的隐含状态作为输入得到的, 在计算过程中会产生3个本时刻...

2019-04-16 21:59:41 3952 3

原创 html 换行

使用django编写网页项目，当文本参数传入html时，<br>在网页上仍然显示为<br>，没有换行。解决方法：在.html文件中，将 {{error_message}} 重新写成 {{error_message|safe}}则view.py中向html传入'您好<br>请输入关键词'时，可以显示换行。...

2018-09-18 17:15:10 4474

原创 sklearn CountVectorizer 单字

在使用python sklearn.feature_extraction.text的CountVectorizer时，发现会自动剔除掉单字的中文和只有一个字母的英文。#CountVectorizer convert a collection of text documents to a matrix of token countsfrom sklearn.feature_extractio...

2018-09-13 11:41:01 1913 1

翻译命名实体识别（biLSTM+crf）

本文是翻译的github这个项目的博客https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html。为什么要用biLSTM?为了使特征提取自动化。当使用CRF++工具来进行命名实体识别时，需要自定义模板（或者使用默认的模板）。任务和数据任务是进行命名实体识别(named entity recognit...

2018-08-31 09:17:26 25911 5

原创 rasa 中文聊天机器人

环境：ubuntu 16.04主要是运行github项目https://github.com/zqhZY/_rasa_chatbot ，用来回答一些手机通信业务，项目里面有训练集。如有问题，期待大家指正，非常感谢！1.Rasa介绍rasa是开源的工具，包括rasa core和rasa nlu。官网：https://rasa.com/rasa nlu主要用于用户意图识别和实体识别...

2018-08-31 08:52:38 15425 9

原创 tensorflow多次restore模型出错

环境:python3,tensotflow在恢复了预先训练好的模型进行预测时，第一次是能够成功执行的，但我多次restore模型时，出现了以下问题：1.ValueError: Variable char_embed/char_embedding already exists, disallowed. Did you mean to set reuse=True in VarScope? O...

2018-08-23 17:18:57 7697 2

翻译 word2vec skip-gram

翻译了http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/这个链接下介绍skip-gram的word2vec。如有错误，望大家指出，非常感谢！这篇教程涵盖了word2vec的skip-gram神经网络结构。模型Word2Vec使用了在其他机器学习中也会看到的技巧。我们使用单隐藏层的简单神经网络来...

2018-08-02 19:52:27 1645

翻译神经网络 backpropagation

这是很早之前看到的cs224n lecture note 3中一篇文章，当时翻译了一部分，没有翻译完，现在好像找不到了。觉得这篇文章对理解后向传播很有用，分享一下。如有问题，还望大家指出，非常感谢！这部分介绍单层和多层神经网络，以及它们如何用于分类，并介绍如何使用分布的梯度下降（distributed gradient decent），也就是backpropagation来训练这些模型。在训练...

2018-07-20 11:18:15 1312

翻译 K-Competitive Autoencoder for Text

对论文https://arxiv.org/pdf/1705.02033.pdf中的模型部分进行记录尽管自编码器的目标是最小化reconstruction error，我们的目标是从数据中提取出有意义的特征。相比于图片数据，文本数据对自编码器更有挑战，因为文本数据高维，离散，幂律词分布。当检验用自编码器提取的特征时，发现这些特征并不是不同的。是因为在隐藏层的很多神经元分享输入神经元的相似组（往往是出...

2018-07-10 20:36:27 822

原创 uwsgi http socket

在使用uwsgi+django发布网页时，如何生成uwsgi.sock文件？在uwsgi运行的配置文件ini中，添加:socket=/home/hadoop/PycharmProjects/wxtbr/uwsgi.sock

2018-07-04 17:49:16 3807

原创 tf.gather

tf.gather(params, indices, validate_indices=None, name=None, axis=0)Gather slices from `params` axis `axis` according to `indices`.从'params'的'axis'维根据'indices'的参数值获取切片。就是在axis维根据indices取某些值。参考博...

2018-06-15 08:54:33 12399 2

原创 tensorflow 部分预处理函数

tf.split(value, num_or_size_splits, axis=0, num=None, name='split')将tensor拆分为新的tensor如果'num_or_size_splits'是一个整数'num_split'，就把'value'沿着'axis'所在的维拆分成'num_split'个更小的tensor。如果'num_or_size_splits'不是一个整数，那...

2018-06-10 16:39:57 624

原创 python hanlp

想要在python中调用hanlp进行中文实体识别，Ubuntu 16.04的系统环境1. 安装jpype1，在cmd窗口输入pip install jpype12. 下载hanlp的安装包在https://github.com/hankcs/HanLP/releases （1）.下载最新的 hanlp-1.6.4-release.zip文件，里面包含hanlp-1.6.4.jar...

2018-05-25 17:54:03 4784

转载 ubuntu 16.04 无法连接wifi

在ubuntu 16.04 LTS显示不出来任何Wifi，也就没法连接Wifi。按网上的方法，设置 "software & updates"的“Additional Drivers”为using，但仍然无效。在命令窗口输入发现Hard blocked:yes，也就是有硬件阻塞。参考点击打开链接，里面有详细说明，按FN+F2的组合键将Wifi的硬件开关打开即可。...

2018-04-08 19:46:13 2214

原创 stanford parser 中文出错 UnicodeDecodeError

win7+python3.4+nltk调用stanford parser对中文进行语法解析。有些句子成功解析，有些句子会报错，报错如下：UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte解决方法：parser = StanfordParser(model_...

2018-02-28 18:01:53 337

原创 python已存在的excel中新增表，不覆盖原数据

每月需更新某个excel表格，进行两项操作，且不覆盖原有的sheet：1. 在原来的excel表中新增sheet2. 往原有的excel表中的某张sheet新增内容基于python3，使用xlrd，xlwt，具体代码如下，亲测有效，希望对大家有帮助，谢谢！import xlwtimport xlrdfrom xlutils.copy import copy#打开需要操作的excel表wb...

2018-02-14 10:40:14 20110 6

原创访问阿里云服务器上的neo4j

在阿里云服务器上启动了neo4j，想让所有用户可以通过服务器IP来访问neo4j。

2017-12-20 14:45:02 3264 2

原创阿里云服务器如何连接阿里云数据库

如何在阿里云服务器的终端使用she'll命令连接RDS云数据库

2017-12-14 09:00:31 4415 2

原创 ubuntu pyhon版本的切换

Ubuntu 16.04 LTS，系统自带了python2.7和Python3.5。使用whereis python的命令可以看到和python有关的文件。1.如何将默认的python版本修改为3.5？（默认是2.7，可以使用 python --version 查看目前系统默认的python版本）sudo rm /usr/bin/pythonsudo ln -s /usr/bin/python3...

2017-10-11 19:54:20 247

原创 crontab 保存并退出

Ubuntu系统使用crontab定时执行python脚本crontab -e配置完成后，如何把保存并退出？1.Ctrl+O 写入2.出现“FIile name to Write...”，输入Enter3.Ctrl+x 保存输出提示“crontab:installing new crontab”表示成功。

2017-09-28 11:55:11 39159 2

原创 python 数据库查询与插入出错

python数据库查询与插入

2017-09-22 07:40:38 1106

xxzhix的博客