- 博客(93)
- 收藏
- 关注
原创 书摘|陀思妥耶夫斯基《罪与罚》
《罪与罚》陀思妥耶夫斯基43个笔记◆ 第一部光是贫穷,人还能保住天赋的高尚感情,可是落到一贫如洗的地步,那就谁也休想保住了。一贫如洗的人甚至不是被人用棍子赶出人类社会,而是用扫帚扫出去的,为的是让他更丢脸。而且这样做是对的,因为我一旦落到一贫如洗的地步,首先就准备侮辱我自己。我之所以喝酒,就是为了在酒里寻找怜悯和感情……我喝酒是因为我有心要加倍地痛苦!不管对什么事,卑鄙的人都会习惯的!况且,不管...
2024-01-08 18:26:43 418
原创 生成式大模型的RLHF技术(一):基础
一、概述大语言模型(LLMs)在预训练的过程中通常会捕捉数据的特征,而这些训练数据通常既包含高质量的也包含低质量的,因此模型有时会产生不被期望的行为,如编造事实,生成有偏见或有毒的文本,甚至对人类有害的内容。因此,将LLMs与人类价值观(如helpful, honest, 和harmless, 即3H)对齐是非常重要的,目前采用的主流的技术即是基于人类反馈的强化学习技术(RLHF)。通常来说,RL...
2023-11-19 14:53:46 186
原创 LoRA:大模型下游任务的低秩适应
论文标题:LoRA: Low-Rank Adaptation of Large Language Models论文链接:https://arxiv.org/abs/2106.09685论文来源:NVIDIA一、概述自然语言处理中的一个重要范式是在通用域数据上进行大规模预训练,然后在特定任务或域上适配。然而随着模型规模(比如GPT-3这样规模模型的出现)越来越大,对大模型的全参数微调变得更加困难,...
2023-07-24 15:10:40 370
原创 Megatron-LM:Transformer模型专用分布式张量模型并行方法
论文标题:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism论文链接:https://arxiv.org/abs/1909.08053论文来源:NVIDIA一、概述随着自然语言处理领域预训练语言模型的规模变得越来越大,它们超过了现代处理器的内存限制,需要额外的内存管理技术,如激活...
2023-07-22 09:29:34 448
原创 思维树:大模型的复杂推理技术
论文标题:Tree of Thoughts: Deliberate Problem Solving with Large Language Models论文链接:https://arxiv.org/abs/2305.10601论文来源:arXiv一、概述语言模型(LM)比如GPT、PaLM等,虽然最初是为生成文本而设计,但它们的大规模版本已经显示出了越来越强的多任务推理能力,可以进行数学、符号、常...
2023-07-21 11:25:07 294
原创 LIMA:小规模监督数据指令微调
论文标题:LIMA: Less Is More for Alignment论文链接:https://arxiv.org/abs/2305.11206论文来源:Meta AI一、概述语言模型在大规模语料上以预测下一个token的方式预训练,使它们能够学习可迁移到几乎任何语言理解或生成任务的通用表示。为了实现这种迁移,已经提出了各种用于对齐语言模型的方法,主要包括在大型百万级示例数据集上的指令微调,以...
2023-07-17 11:37:07 185
原创 语言模型的自洽性思维链推理技术
论文标题:Self-Consistency Improves Chain of Thought Reasoning in Language Models论文链接:https://arxiv.org/abs/2203.11171论文来源:ICLR 2023一、概述尽管语言模型在一系列NLP任务中展现出了显著的成功,但它们在推理能力方面仍然面临一些限制,这种限制不能仅仅通过增加模型规模来克服。为了解决...
2023-07-15 20:21:39 484
原创 GPipe:微批量流水线并行
论文标题:GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism论文链接:https://arxiv.org/abs/1811.06965论文来源:Google一、概述如下图所示,近过去十年中,由于开发了促进神经网络有效容量扩大的方法,深度学习取得了巨大进步。这种趋势在图像分类中表现得尤为明显,就像ImageNet的模型容量增加带来的精度...
2023-07-14 11:16:57 133
原创 InstructGPT:语言模型的人类反馈指令对齐
论文标题:Training language models to follow instructions with human feedback论文链接:https://arxiv.org/abs/2203.02155论文来源:OpenAI一、概述大型语言模型(Large language models,LLMs)可以通过被prompted来执行一系列NLP任务,这通常以给出一些任务相关的样本的方...
2023-07-12 18:53:16 772
原创 高效底座模型LLaMA
论文标题:LLaMA: Open and Efficient Foundation Language Models论文链接:https://arxiv.org/abs/2302.13971论文来源:Meta AI一、概述大型语言模型(Large Languages Models,LLMs)通过大规模文本数据的训练,展示了其根据文本指令或少量样本完成新任务的能力。这种少数示例的性质首次在规模足够大的...
2023-06-20 10:18:07 740
原创 TokenGT:Transformer是强大的图学习器
论文标题:Pure Transformers are Powerful Graph Learners论文链接:https://arxiv.org/abs/2207.02505论文来源:NIPS 2022一、概述由于Transformer的完全注意力架构接收、处理和关联任意结构的输入和输出的能力,消除了将特定于数据和任务的归纳偏差融入网络架构的需要,这使得其在NLP、CV等诸多领域成为了通用架构。与...
2023-05-08 16:40:41 497
原创 思维链Prompting促进大型语言模型的推理能力
论文标题:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models论文链接:https://arxiv.org/abs/2201.11903论文来源:NeurIPS 2022一、概述近来NLP领域由于语言模型的发展取得了颠覆性的进展,扩大语言模型的规模带来了一系列的性能提升,然而单单是扩大模型规模对于一些具有挑战性的...
2023-04-27 16:44:37 841
原创 GPT-3:大语言模型小样本学习
论文标题:Language Models are Few-Shot Learners论文链接:https://arxiv.org/abs/2005.14165论文来源:OpenAI一、概述自然语言处理已经从学习特定任务的表示和设计特定任务的架构转变为使用任务无关的预训练和任务无关的架构。这种转变导致了许多具有挑战性的NLP任务的实质性进展,如阅读理解、问题回答、文本蕴涵等。虽然目前模型架构和初始表...
2023-03-31 16:33:16 1194
原创 GPT-2:无监督多任务学习语言模型
论文标题:Language Models are Unsupervised Multitask Learners论文链接:https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf论文来源:OpenAI一、概述机器学习系统现在通过使用大型数据集、高容量模型和监督学习的组合,在任务中表现出色。然而这些系...
2023-03-10 11:10:23 636
原创 GPT:通用预训练语言模型
论文标题:Improving Language Understanding by Generative Pre-Training论文链接:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf论文来源:OpenAI一、概述从无标注文本中高效学习的能力对于缓解对监督学习的依赖是很关键的。很多自然语言处理任务依赖于...
2023-03-01 16:50:35 625
原创 从图谱视角再谈图对比学习
论文标题:Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum论文链接:https://arxiv.org/abs/2210.02330论文来源:NeurIPS 2022代码链接:https://github.com/liun-online/SpCo一、概述传统图对比学习主要包括三个模块:图增强...
2023-02-08 16:35:22 583
原创 GACL:基于对抗图对比学习的社交媒体谣言检测
论文标题:Rumor Detection on Social Media with Graph Adversarial Contrastive Learning论文链接:https://dl.acm.org/doi/10.1145/3485447.3511999论文来源:WWW 2022一、概述尽管基于GNN的方法在谣言检测领域取得了一些成功,但是这些基于交叉熵损失的方法常常导致泛化能力差,并且缺...
2022-09-01 11:00:57 1179
原创 GIN:图同构网络
论文标题:How Powerful are Graph Neural Networks?论文链接:https://arxiv.org/abs/1810.00826论文来源:ICLR 2019一、概述目前的GNN框架大多遵循递归邻域聚合(或者消息传递)框架,并且已经出现各种GNN变种。然而,新的GNN设计大多基于经验直觉、启发式和实验试错。目前,对神经网络的性质和局限性的理论认识较少,对神经网络表...
2022-08-29 16:16:05 4608
原创 第二代图卷积网络:应用快速局部谱卷积的图卷积网络
论文标题:Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering论文链接:https://arxiv.org/abs/1606.09375论文来源:NeurIPS 2016之前的文章:①傅里叶级数与傅里叶变换②图神经网络中的谱图理论基础③第一代图卷积网络:图的频域网络与深度局部连接网络一、概述在将CNN泛化到图数据上的一个主要的瓶颈在于局部图卷积核的定义。本文在第一代图卷积神经网络上进行改进
2021-10-08 20:55:21 375
原创 ELECTRA:类似GAN的预训练语言模型
论文标题:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators论文链接:https://arxiv.org/abs/2003.10555论文来源:ICLR 2020一、概述目前的SOTA语言表示学习方法可以看做是在学习一个去噪自编码器(denoising autoencoder),它们选择无标注的输入序列的一小部分(通常15%),然后将这一部分mask掉(比如BERT),或者attend到这些toke
2021-05-17 16:45:06 294
原创 第一代图卷积网络:图的频域网络与深度局部连接网络
论文标题:Spectral Networks and Locally Connected Networks on Graphs论文链接:https://arxiv.org/abs/1312.6203论文来源:NeurIPS 2014本文需要的前置知识:傅里叶变换与谱图理论基础链接:①傅里叶级数与傅里叶变换②图神经网络中的谱图理论基础一、概述CNN在机器学习领域内的一些问题上取得了比较成功的效果,这主要得益于它处理的底层数据通常有一个坐标网格结构(在1,2,3维度上),因此这些数据就存在平移不
2021-05-17 16:44:26 261
原创 图神经网络中的谱图理论基础
一、图的拉普拉斯矩阵拉普拉斯算子拉普拉斯算子(Laplace Operator)是为欧几里德空间中的一个二阶微分算子,定义为梯度的散度,可以写作Δ,∇2,∇⋅∇\Delta ,\nabla ^{2},\nabla \cdot \nablaΔ,∇2,∇⋅∇这几种形式。如果函数fff是二阶可微的实函数,则fff的拉普拉斯算子可以写作:Δf=∇2f=∇⋅∇f\Delta f=\nabla ^{2}f=\nabla \cdot \nabla fΔf=∇2f=∇⋅∇f这里简单介绍一下散度的概念:散度(
2021-04-29 10:42:14 462
原创 傅里叶级数与傅里叶变换
本文有关三角函数的描述很多,忘记高中知识的可以从这个链接复习下各个概念:振幅、周期、相移和频率。一、从简单变换到傅里叶级数如下图所示,在笛卡尔坐标系中,由于我们定义了一组基ex=(1,0),ey=(0,1)e_x=(1,0),e_y=(0,1)ex=(1,0),ey=(0,1),因此坐标系中的所有点才能够被一个坐标唯一地表示:这样的好处是有了坐标以后,点与点之间就不再是相互孤立的存在,也就有了距离的关系。这个过程就是一种变换,即把坐标变换到坐标系中。这种简单的变换是将空间中的点使用一组基来表示
2021-04-22 16:16:26 1219
原创 Informer:用于长序列时间序列预测的新型Transformer
论文标题:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting论文链接:https://arxiv.org/abs/2012.07436代码链接:https://github.com/zhouhaoyi/Informer2020论文来源:AAAI 2021一、概述长序列时间序列预测问题长序列时间序列预测(Long sequence time-series forecasting,LST
2021-04-16 09:54:48 2511 2
原创 Sigmoid信念网络|机器学习推导系列(二十八)
一、概述Sigmoid信念网络(Sigmoid Belief Network,SBN)是一种有向图模型,这里的信念网络指的就是贝叶斯网络,也就是有向图模型,sigmoid指的就是sigmoid函数:σ(x)=11+exp(−x)\sigma (x)=\frac{1}{1+exp(-x)}σ(x)=1+exp(−x)1在Sigmoid信念网络中同样有两观测变量和隐变量,不过他们的连接是有向的,并且节点全部服从0-1分布,并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示:
2021-04-10 16:46:44 431
原创 近似推断|机器学习推导系列(二十七)
一、推断的动机和困难推断的动机推断问题是在概率图模型中经常遇到的问题,也就是给定观测变量vvv的情况下求解后验p(h∣v)p(h|v)p(h∣v),这里的hhh是隐变量(注意原来我们常用zzz和xxx来表示隐变量和观测变量,不过在深度学习中我们更倾向于使用hhh和vvv来表示隐变量和观测变量)。那么为什么推断问题是重要的呢?也就是说推断的动机是什么呢?推断的动机主要包括以下两个方面:①推断本身是有意义的。推断问题事实上是一种对原因的追溯,在给定观测的情况下来求解它的原因,因此推断本身是有意义的。
2021-03-28 19:30:24 215
原创 配分函数|机器学习推导系列(二十六)
一、概述对于有向概率图模型来说,由于图中存在天然的拓扑排序关系,所以有向概率图的因式分解的形式很容易写出来。而对于无向图来说就需要根据它图中的最大团来写成一个因式分解的形式,无向图模型在局部并没有表现出是一个概率模型,在整体上才表现地是一个概率模型,由此我们也就遇到了配分函数。在无向图模型的学习和评估问题中,我们会面对概率公式中的配分函数(Partition Function),往往这个配分函数是很难处理的。对于连续或离散的高维随机变量x∈Rp or {0,1,⋯ ,k}px\in \mathbb{
2021-03-25 11:59:44 893
原创 生成对抗网络-条件生成|深度学习(李宏毅)(二十五)
一、Text-to-Image概述对于原来的GAN来说,只能够输入一个随机的向量,然后得到一个产生的对象,但是我们无法控制产生什么样的对象,而我们期待用GAN来做到这件事,也就是条件生成(Conditional Generation)。以Text-to-Image任务来说,我们希望给Generator输入一段文字,然后让它来产生对应的图片:对于这样的一个任务,我们可以考虑用监督学习的方法来做,也就是给神经网络输入一段文字,来让其输出一张图片,并且要让图片与目标图片越接近越好,以此来达到条件生成的
2021-03-21 10:02:19 740
原创 高斯过程回归|机器学习推导系列(二十四)
一、概述将⼀维高斯分布推⼴到多变量中就得到了高斯网络,将多变量推⼴到无限维,就得到了高斯过程。高斯过程是定义在连续域(时间/空间)上的无限多个高斯随机变量所组成的随机过程。具体的形式化的定义如下:对于时间轴上的随机变量序列{ξt}t∈T\left \{\xi _{t}\right \}_{t\in T}{ξt}t∈T,TTT是一个连续域,如果∀n∈N+\forall n\in N^{+}∀n∈N+,t1,t2,⋯ ,tn∈Tt_{1},t_{2},\cdots ,t_{n}\in Tt1,t2
2021-03-21 10:01:19 626
原创 生成对抗网络-改进方法|深度学习(李宏毅)(二十四)
视频地址:①B站:https://www.bilibili.com/video/BV15W411i7uP?p=2②油管:https://www.youtube.com/watch?v=KSN4QYgAtao之前的博客地址:①生成对抗网络-基本概念|深度学习(李宏毅)(二十二)②生成对抗网络-理论部分|深度学习(李宏毅)(二十三)一、GAN的通用框架f-divergence之前说GAN的Discriminator的设计与JS散度有关,事实上可以设计Discriminator和任何f-div
2021-03-21 10:00:11 1358
原创 贝叶斯线性回归|机器学习推导系列(二十三)
一、概述线性回归的数据如下所示:D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋱⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1D=\left \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right \}\\x_{i}\in \mathbb{R}^{p},y_{i}\in
2021-03-21 09:58:23 876
原创 受限玻尔兹曼机|机器学习推导系列(二十五)
一、概述对于无向图模型,我们可以回忆一下它的基于最大团的因子分解(Hammersley–Clifford theorem)。给定概率无向图模型,Ci,i=1,2,⋯ ,kC_i,i=1,2,\cdots ,kCi,i=1,2,⋯,k为无向图模型上的最大团,则xxx的联合概率分布P(x)P(x)P(x)可以写为:P(x)=1Z∏i=1kψ(xCi)Ci:最大团xCi:最大团随机变量集合ψ(xCi):势函数,必须为正Z=∑x∏i=1kψ(xCi)=∑x1∑x2⋯∑xp∏i=1kψ(xCi)P(x)=\f
2021-03-15 18:13:22 316
原创 生成对抗网络-理论部分|深度学习(李宏毅)(二十三)
视频地址:①B站:https://www.bilibili.com/video/BV15W411i7uP②油管:https://www.youtube.com/watch?v=0CKeqXl5IY0之前的博客地址:生成对抗网络-基本概念|深度学习(李宏毅)(二十二)一、极大似然估计极大似然估计在GAN中,对于真实的训练样本的分布,记作Pdata(x)P_{data}(x)Pdata(x),这个分布也就是GAN试图去拟合、逼近的分布。另外有一个由参数θ\thetaθ控制的分布记作PG(x;θ
2021-03-03 11:27:59 287
原创 生成对抗网络-基本概念|深度学习(李宏毅)(二十二)
视频地址:①B站:https://www.bilibili.com/video/BV1JE411g7XF?p=72②油管:https://www.youtube.com/watch?v=DQNNMiAP5lw一、基本概念Generation生成(Generation)是指通过让机器学习的模型输入一个随机的向量,来让它产生图片或者文字等,而生成对抗网络(Generative Adversarial Network,GAN)就是用来完成生成任务的一种常用的技术:仅仅输入一个随机的向量来产生图片
2021-02-27 14:38:32 928 1
原创 异常检测|深度学习(李宏毅)(二十一)
一、概述什么是异常检测异常检测(Anomaly Detection)的目的是要让机器“知道它不知道”。具体的,对于给定的训练数据{x1,x2,⋯ ,xN}\left \{x^{1},x^{2},\cdots ,x^{N}\right \}{x1,x2,⋯,xN},我们希望训练一个Anomaly Detector来检测输入xxx是不是与训练数据时相似的,对于不相似的数据就要判定其为anomaly:对于相似度的判定,不同的方法有不同的方式。异常(anomaly)还有很多别名,比如outlier、no
2021-02-23 14:34:14 2413
原创 高斯网络|机器学习推导系列(二十二)
一、概述高斯网络是一种概率图模型,对于普通的概率图模型,其随机变量的概率分布是离散的,而高斯网络的概率分布是连续的高斯分布。高斯网络也分为有向图和无向图,其中有向图叫做高斯贝叶斯网络(Gaussian Bayesian Network,GBN),无向图叫做高斯马尔可夫网络(Gaussian Markov Network,GMN)。概率图模型的分类大致如下:Probabilistic Graphical Model{→discrete{Bayesian NetworkMarkov Network
2021-02-21 18:30:49 379
原创 无监督学习-自编码器-补充|深度学习(李宏毅)(二十)
一、最小重构代价之外的方法Using Discriminator一个自编码器学习到的隐层向量对于原来的输入来说应该是具有代表性的,就好比三玖的耳机对于三玖来说就是具有代表性的,看到三玖的耳机不会想到一花一样:评估隐层向量的代表性好不好就可以当做评估自编码器效果的指标。具体的方法就是训练一个Discriminator来评估隐层向量是不是具有代表性,在下面的例子中三玖的图片通过一个自编码器可以得到一个蓝色的向量,凉宫春日的图片通过一个自编码器可以得到一个黄色的向量:然后我们可以训练一个Discr
2021-02-20 09:50:42 291
原创 条件随机场|机器学习推导系列(二十一)
一、背景概述如上所示,分类问题分为硬分类和软分类两种。硬分类问题指的是分类结果非此即彼的模型,包括SVM、PLA、LDA等。软分类问题将概率作为分类的依据,分为概率判别模型和概率生成模型两...
2021-02-09 10:24:51 365
原创 无监督学习-自编码器|深度学习(李宏毅)(十九)
一、深度自编码器自编码器自编码器(Auto-encoder)是一种无监督学习的方法,可以用来进行数据的降维。对于我们的输入数据,可以将其通过一个Encoder来获得一个低维的code,然后将这个code通过一个Decoder来重建原来的数据,而Encoder和Decoder是一起训练。下图以手写数字数据集为例展示了这个过程:类比PCA在PCA中,我们将数据xxx乘以一个矩阵WWW然后得到低维的表示zzz,而我们将WTzW^TzWTz记作x^\hat{x}x^,通过极小化xxx与x^\hat
2021-02-05 14:08:35 1270
原创 无监督学习-邻域嵌入方法|深度学习(李宏毅)(十八)
一、概述流形学习(Manifold Learning)是指通过从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现降维或者数据可视化。拿地球举例来说...
2021-02-01 11:00:05 714
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人