-柚子皮--CSDN博客

之前是写在[]里的，抽出来单独讲一下。InstructGPT/ChatGPT都是采用了GPT-3的网络结构，通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型（RM），最后通过这个奖励模型的打分来指导强化学习模型的训练。：先采样一些demonstration数据，其包括prompt和labeled answer。基于这些标注的数据，对GPT-3进行fine-tuning，得到SFT（Supervised Fine-tuning）；即使用采集的新数据，按照GPT-3的训练方式对GPT-3进行微调。

2023-10-26 11:37:55 731

原创 GPT的前世今生：从gpt1到chatgpt的能力提升

从2017年google brain提出transformer模型，到2018年基于transformer模型open ai推出了gpt1模型以及google推出了bert模型，到2019-2021年open ai陆续推出gpt2和gpt3，再到2022-2023年推出chat-gpt和gpt4，大语言模型已经发展成了一个具有3个大分支的参天大树[在这里主要写写关于gpt的那些事。

2023-10-24 15:47:00 995

原创 LLM：Transformers模型推理和加速

pipeline() 的作用是使用预训练模型进行推断。不同类型的任务所下载的默认预训练模型可以在 Transformers 库的源码]中的 SUPPORTED_TASKS 定义。

2023-07-03 17:27:06 2134

原创 LLM：预训练语言模型finetune下游任务

🤗还要安装= 0.1.92scipyprotobufevaluate。

2023-06-13 17:42:54 1182

原创 LLM：finetune预训练语言模型

用的模型AutoModelForCausalLM[examples/pytorch/language-modeling#gpt-2gpt-and-causal-language-modeling][examples/pytorch/language-modeling/run_clm.py]示例：[colab.research.google.com/Causal Language modeling][examples/pytorch/language-modeling#robertabertdistilber

2023-06-12 15:49:36 1539

原创 LLM：预训练语言模型的评估

语言模型下游任务：语言模型下游任务是指在特定任务上使用预训练语言模型进行微调，以便更好地适应该任务。通常，如果预训练语言模型在下游任务上表现良好，则说明该模型具有较好的泛化能力和语言理解能力。人类评估：人类评估是指通过人工判断预训练语言模型生成的文本是否符合语法、逻辑和语义等方面的要求。困惑度（Perplexity）：困惑度是一种常用的评估语言模型的方法，它可以用来衡量模型对新数据的预测能力。训练效率和存储空间：除了以上几个方面，评估预训练语言模型的优劣还需要考虑其训练效率和存储空间等因素。

2023-06-12 11:52:10 1139

原创 LLM：huggingface-datasets库

datasets是huggingface维护的一个轻量级可扩展的数据加载库，其兼容pandas、numpy、pytorch和tensorflow，使用简便。根据其官方简介：Datasets originated from a fork of the awesome TensorFlow Datasets，datasets是源自于tf.data的，两者之间的主要区别可参考这里。

2023-06-11 11:55:28 1491

原创 LLM：大语言模型

主要分成底层和3个分支（transformer-encoder类、transformer类、transformer-decoder类）

2023-06-07 04:00:12 169

原创 LLM：Transformers 库

Transformers 库是一个开源库，其提供的所有预训练模型都是基于 transformer 模型结构的。Transformers 库支持三个最流行的深度学习库（PyTorch、TensorFlow 和 JAX）。我们可以使用 Transformers 库提供的 API 轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本，以及节省从头开始训练模型的时间。这些模型可用于不同模态的任务，例如：文本：文本分类、信息抽取、问答系统、文本摘要、机器翻译和文本生成。图像：图像分类、目标检测和图像分割。

2023-06-02 11:55:36 3197 1

原创深度学习：初始化

高斯分布初始化：使用一个高斯分布对每个参数进行随机初始化。Xavier的基本思想是保持信息在神经网络中流动过程的方差不变。假设激活函数是关于0点对称的，且主要针对于全连接神经网络，适应于tanh和softsign。He的基本思想是正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。

2023-05-31 23:32:22 477

原创 LLM：参数有效性学习——LoRA模型

随着模型规模的不断扩大，微调模型的所有参数（所谓full fine-tuning）的可行性变得越来越低。以GPT-3的175B参数为例，每增加一个新领域就需要完整微调一个新模型，代价和成本很高。为解决微调大规模语言模型到不同领域和任务的挑战，已有多种方案，比如部分微调、使用adapters和prompting。

2023-05-31 22:43:14 1752

原创 LLM：LLaMA模型和微调的Alpaca模型

模型就是用的transformer的decoder，模型设计的不同点在于

2023-05-31 16:26:15 1488 1

原创 LLM：大模型的正则化

主流大模型使用的Normalization主要有三类，分别是Layer Norm，RMS Norm，以及Deep Norm。小模型的正则化参考：l1l2正则和dropout正则化[LN和BN归一化 [

2023-05-30 22:48:58 2232

原创 NLP：文本预处理总览

3 对于整个文本，计算所有n-gram序列的平均概率值。如果平均概率值低于某个阈值，则可以将其视为低质量内容。使用n-gram语言模型对文本进行评估，从而过滤掉低质量的内容。2 使用已经训练好的n-gram语言模型对每个n-gram序列进行评分，得到一个概率值。需要注意的是，选择合适的n值和阈值是非常重要的，需要根据具体应用场景进行调整。1 将文本分成n-gram序列，其中n是一个整数。例如，3-gram模型估计4个单词序列的概率，

2023-05-30 22:28:06 371

原创 hive:创建自定义python UDF

也可以自己构建py环境：然后通过using 'python.zip/bin/python employees.py'来使用指定py环境。构建python包的方式可能有：1 如果平台支持，直接写requirement文件自动安装并构建包2 本地打包成zip再上传。Note: 打包也许可以参考一下[打包运行环境conda-pack建议重新配置一个py环境，看哪些包是必须的，减小上传py环境大小。

2023-05-29 22:20:03 1126

原创召回：效果评估

通过该计算方法，就能算出来某一路召回的recall@ k了。

2023-04-24 17:19:55 808 1

原创 LLM：提示学习Prompt Learning

Pre-training + Fine-tuning 模式：先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-trained Language Model，PLM）（e.g. GPT、EMLO、BERT），然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调（Fine-tuning），以获得适应下游任务的模型。缺陷：在大多数的下游任务微调时，下游任务的目标与预训练的目标差距过大导致提升效果不明显，微调过程中依赖大量的监督语料等。

2023-04-23 21:41:38 3789 1

原创 hive:创建自定义函数 UDF

编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个相对复杂点：简单API： org.apache.hadoop.hive.ql.exec.UDF复杂API： org.apache.hadoop.hive.ql.udf.generic.GenericUDF如果你的函数读和返回都是基础数据类型（Hadoop&Hive 基本writable类型，如Text,IntWritable,LongWriable,DoubleWritable等等），那么UDF可以胜任。

2023-04-10 22:24:22 555

原创 hive: 常用函数

常用内置udf函数。

2023-02-22 22:35:20 467

原创 hive: 优化配置及bug查询路径

mapper数量与输入文件的split数息息相关，在Hadoop源码org.apache.hadoop.mapreduce.lib.input.FileInputFormat类中可以看到split划分的具体逻辑。如果想增大mapper数，除了降低mapred.min.split.size之外，也可以调高mapred.map.tasks。参数mapred.min.split.size（默认值1B）和mapred.max.split.size（默认值64MB）分别用来指定split的最小和最大大小。

2023-02-07 17:12:40 1559

原创 IDEA远程调试

IDEA 远程调试，像运行本地代码一样调试远程主机上的程序，以排查远程程序的BUG或代码执行流程。原理：本机和远程主机的两个 VM 之间使用 Debug 协议通过 Socket 通信，传递调试指令和调试信息。被调试程序的远程虚拟机：作为 Debug 服务端，监听 Debug 调试指令。jdwp是Java Debug Wire Protocol的缩写。调试程序的本地虚拟机：IDEA 中配置的 Remote Server，指定 Debug 服务器的Host:Port，以供 Debug 客户端程序连接。2.1

2022-07-14 14:31:39 1056

原创 CVR预估模型-ESMM

文章基于 Multi-Task Learning 的思路，提出一种新的CVR预估模型——ESMM，有效解决了真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题。Motivation不同于CTR预估问题，CVR预估面临两个关键问题：1 样本选择偏差(sample selection bias,SSB)：传统CVR模型通常以点击数据为训练集，其中点击未转化为负例，点击并转化为正例，但是训练好的模型实际使用时，则是对整个空间的样本进行预估，而非只对点击样本进行预估。即传统的推荐系统仅用.

2021-10-25 00:03:43 1129

原创距离和相似度度量方法

http://blog.csdn.net/pipisorry/article/details/45651315在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。不同距离度量的应用场景根据数据特性的不同，可以采用不同的度量方法。whi...

2021-09-24 22:18:08 102324 4

原创 Tensorflow：批归一化和l1l2正则化

Batch Nomalizationtodo-柚子皮-L2正则化tensorflow实现示例1：from tensorflow.python.keras.regularizers import l2self.kernels = [self.add_weight(name='kernel' + str(i), shape=(hidden_units[i], hidden_units[i + 1]), initial

2021-09-09 23:47:12 1167 1

原创深度学习：蒸馏Distill

Distilling the knowledge in a neural networkHinton 在论文中提出方法很简单，就是让学生模型的预测分布，来拟合老师模型（可以是集成模型）的预测分布，其中可通过用 logits 除以 temperature 来调节分布平滑程度，还避免一些极端情况影响。蒸馏时的softmax比之前的softmax多了一个参数T（temperature），T越大产生的概率分布越平滑。[Distilling the knowledge in a neural

2021-05-25 15:50:07 4582

原创 hive：基础语法

- 表的定义,gender STRING -- COMMENT '性别';-- 快速创建有数据的临时表-- 不定义，直接继承创建-- 表的插入select *,appid(相对于ddl多出一个) from a;某条数据插入UNION ALLSELECT *;-- 表的修改--删除分区，需要一个个删除分区，分区全删了，表定义还在--删除分区，不添加到回收站--删除非分区表，表定义不删除？

2021-05-13 15:00:33 433 1

原创 todotodo

todotodo。

2021-05-11 15:47:13 19

原创 PyTorch：向量相似度度量、距离度量

两个张量之间的欧氏距离即m*e和n*e张量之间的欧式距离理论分析算法实现import torchdef euclidean_dist(x, y): """ Args: x: pytorch Variable, with shape [m, d] y: pytorch Variable, with shape [n, d] Returns: dist: pytorch Variable, with shape [m, n]...

2021-04-22 14:49:33 5255

原创深度学习：胶囊网络capsule net

这里计算有点不同，pytorch代码的实现里只有这个双线性变换参数大小，没有“还需要1152个b参数矩阵和1152个c参数矩阵”。上述函数可以直接通过probs = torch.softmax(logits, dim=2)替换，效果是一样的。torch.softmax归一化]2 priors的计算也可以替代。两部分损失函数加权和。

2021-03-30 21:39:16 187

原创召回：Mind

把与用户兴趣各种相关的信息都压缩成为一个表达向量。使用类似聚类的方式来对用户的兴趣多峰分布进行表征. 那么如何高效地在神经网络内嵌入聚类过程, 将无监督的聚类过程结合到有监督的分类模型, 就是我们需要解决的关键问题. 在这里, 我们选择了使用动态路由(Dynamic Routing) 算法解决了这个问题.Capsule 让人眼前一亮的地方是它提出了一种新的 "vector in, vector out" 的传递方案, 并且向量的输出可以看成是输入的某种聚类结果. 在胶囊网络中, 只要把一个向量当作一

2021-03-17 20:40:53 129

原创 swing召回算法

现实世界中的网络大部分都可以抽象为两种，一种是user-user这种同质的网络，另一种是user-object。推荐在这两种网络中都可以归为link prediction的范畴，给定一个图G(V, E)，V是节点的集合，E是边的集合，推荐其实就是预测图中尚未存在的边。关于Link Prediction和推荐系统学术界已经有很多研究工作，比如经典的协同过滤-Collaborative Filtering，Adamic/Adar等等。

2021-03-17 14:38:43 485

原创 todotodo

from: ref:

2021-02-03 21:43:27 1123

原创 PyTorch：模型推理加速之onnx

Open Neural Network Exchange（ONNX，开放神经网络交换）格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移。ONNX是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。它使得不同的人工智能框架（如Pytorch, MXNet）可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软，亚马逊，Facebook 和 IBM 等公司共同开发，以开放源代码的方式托管在Github上。

2021-01-18 20:38:53 2386

原创 PyTorch：模型训练-分布式训练

-柚子皮-不同数据并行方案(parameter server 模式和 allreduce 模式，同步更新和异步更新)的详细介绍。分布式算法原理Parameter server 模式以参数????为同步基础，我们可以采用 master-slave 的同步模式：将 node 分成两种角色：parameter server(ps) 负责维护一份最新的参数，worker 负责利用从 ps 读到的最新参数计算出梯度(forward 和 backprop)，并对 ps 发送梯度和参数更新请求。这被

2021-01-10 23:36:16 1458

原创无重复元素的组合算法/n个列表中取n个不同的数

方法1：无重复元素的组合算法修改排列组合算法[Generate all combinations from multiple lists]private static void generatePermutations(List<List<String>> lists, List<List<String>> result, int depth, List<String> current) { if (depth >=...

2020-12-14 21:20:06 990

原创 PyTorch：可视化TensorBoard

PyTorch 1.2.0 版本开始。安装及更新pip3install --upgrade torch torchvisionpip3 install tensorboardBugs:1 AttributeError: module 'tensorflow._api.v1.io' has no attribute 'gfile'出现这个问题的根本原因在于pytorch调了Tensorflow，最后由Tensorflow报出的错误，tensorflow的新版本与旧版本的不兼容。..

2020-10-29 00:03:05 2074 1

原创 PyTorch：模型和数据的save和load

上面“保存加载整个模型”加载的 net.pt 其实一个字典，通常包含如下内容：网络结构：输入尺寸、输出尺寸以及隐藏层信息，以便能够在加载时重建模型。模型的权重参数：包含各网络层训练后的可学习参数，可以在模型实例上调用 state_dict() 方法来获取，比如只保存模型权重参数时用到的 model.state_dict()。优化器参数：有时保存模型的参数需要稍后接着训练，那么就必须保存优化器的状态和所其使用的超参数，也是在优化器实例上调用 state_dict() 方法来获取这些参数。

2020-10-29 00:02:51 5907 3

原创 PyTorch：全局函数

求tensor中某个dim的前k大或者前k小的值以及对应的index。（1）mean为张量，std为张量。（2）mean为标量，std为标量。（3）mean为标量，std为张量。（4）mean为张量，std为标量。# 生成一个4*3*2维的张量。

2020-10-29 00:02:24 565 1

原创 todotodo

from: ref:

GB2UTF8.exe utf8 gbk big5三向转换，方便您将文本文件转换到需要的格式。 utf8 gbk big5三向转换，方便您将文本文件转换到需要的格式。 utf8 gbk big5三向转换，方便您将文本文件转换到需要的格式。

2015-08-07

主题挖掘测试数据

2015-06-03

Introduction to Computation and Programming Using Python

2015-05-03

A First Course in Probability 第8版 Sheldon Ross

A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross A First Course in Probability 第8版英文版 Sheldon Ross 概率论基础教程第8版 Sheldon Ross

wps symbol fonts

wps symbol font WPS for Linux 字体缺失的解决办法启动WPS for Linux后，出现提示"系统缺失字体" 。出现提示的原因是因为WPS for Linux没有自带windows的字体，只要在Linux系统中加载字体即可。具体操作步骤如下： 1. 下载缺失的字体文件，然后复制到Linux系统中的/usr/share/fonts文件夹中。下载完成后，解压并进入目录中，继续执行： sudo cp * /usr/share/fonts 2. 执行以下命令,生成字体的索引信息： sudo mkfontscale sudo mkfontdir 3. 运行fc-cache命令更新字体缓存。 sudo fc-cache 4. 重启wps即可，字体缺失的提示不再出现。

2017-02-27

Structured PCA

Structured Principal Component Analysis, Structured PCA

2016-08-02

PCAS示例代码

PCAS 示例代码 PlaneParts showpcs

2016-08-01

KcoreVertex

KcoreVertex c++代码 graphlite+hadoop实现

2016-06-10

avg-time hadoop程序

2016-06-10

Anand.Rajaraman-Mining of Massive Datasets

Anand.Rajaraman-Mining of Massive Datasets-mmds 完整带书签文字版 Anand.Rajaraman-Mining of Massive Datasets-mmds 完整带书签文字版 Anand.Rajaraman-Mining of Massive Datasets-mmds 完整带书签文字版 Anand.Rajaraman-Mining of Massive Datasets-mmds 完整带书签文字版 Anand.Rajaraman-Mining of Massive Datasets-mmds 完整带书签文字版

2016-06-01

GIBBS SAMPLING FOR THE UNINITIATED

Philip Resnik-GIBBS SAMPLING FOR THE UNINITIATED

2016-05-30

概率图模型原理与技术科勒清华大学完整版

2016-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Parameter estimation for text analysis

pdfstudio安装文件及破解

spark机器学习示例代码

偏置方差分解推导

Bias-variance decomposition推导

milk安装包

python2 scipy安装包

pywin32 py2安装包

scikit learn py2安装包

matplotlib安装包

python pip安装包

numpy安装包

scipy安装包

scikit learn安装包

PyQt5安装包

pandas安装文件

matplotlib安装文件

SnapShot4.4.exe

get-pip.py

GB2UTF8.exe

主题挖掘测试数据

Introduction to Computation and Programming Using Python

A First Course in Probability 第8版 Sheldon Ross

GAME THEORY-Thomas

组合博弈入门.ppt

noi2002测试数据

NOI2012测试数据

NOI2011测试数据

noi2010测试数据

noi2009测试数据

noi2008测试数据

技术之瞳-阿里巴巴技术笔试心得 文字版pdf

wps symbol fonts

Structured PCA

PCAS示例代码

KcoreVertex

avg-time hadoop程序

Anand.Rajaraman-Mining of Massive Datasets

GIBBS SAMPLING FOR THE UNINITIATED

概率图模型 原理与技术 科勒 清华大学 完整版

空空如也

技术之瞳-阿里巴巴技术笔试心得文字版pdf

概率图模型原理与技术科勒清华大学完整版