自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (8)
  • 收藏
  • 关注

原创 Lora及其变体

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust AdaptationLearning to Route Among Specialized Experts for Zero-Shot GeneralizationAFLoRA: Adaptive Freezing of Low Rank Adaptation in ParameterEfficient Fine-Tuning of Large ModelsLoTR: Low Tensor

2024-03-24 16:19:47 802 1

原创 强化学习基础

1. 价值迭代是贪心更新法2. 策略迭代中,用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP,策略迭代通常很快收敛4. 对于空间较大的MDP,价值迭代更实用(效率更高)5. 如果没有状态转移循环,最好使用价值选代R%28s%29%5Cpi%5Cpi。

2023-12-16 20:42:43 772 1

原创 Actor-Critic(AC)、A2C、A3C

A3C将actor与环境的交互变成了异步的,每个worker可以分别与环境进行交互,并进行参数更新,更新完之后需要梯度更新到global network,并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络(Q函数,V函数,策略网络)优化成了只需要学习V函数和策略网络。是非常不稳定的,只有当采样丰富的样本时,才可以获得接近真实的G值,但是现实情况往往不能采样足够丰富的样本。Q值:S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。

2023-12-16 00:08:03 51 1

原创 SARSA、Q-learning

Q-learning时value-based的方法,学习的不是policy,而是critic,critic并不直接决定action,而是评估一个actor有多么的好。通过把state输入到值网络中,从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法,需要进行完整个game,然后计算某个state对应的累计奖励,然后最小化该累计奖励和值网络输出值,从而学习值网络模型。值网络的学习也可以使用Temporal-difference(TD)方法。输入到值网络得到的累计激励,与。

2023-12-15 23:03:41 416

原创 Proximal Policy Optimization(PPO)

如下图所示,q(x)分布的采样值更多的落在右半边区域,在采样次数较少的情况下,期望是正值,与p(x)采样得到的期望值是负值的结果不符,但是,当采样次数较多时,q(x)也会采样到左半边区域的值,此时p(x)/q(x)值比较大,使得计算的期望是负值,与p(x)采样得到的期望值是负值的结果相符。使用重要性采样,期望值相等,当p(x)与q(x)的分布接近时,二者方差的差异较小,因此在使用重要性采样时,两个分布的差异应当比较小。因此可以得出:当p(x)和q(x)分布差异较大时,需要更多的采样才能逼近正确的结果。

2023-12-15 17:21:45 47

原创 Policy Gradient(策略梯度)

训练时需要先初始化policy,然后采样一个episode的数据,更新policy模型参数,基于新policy采样得到新的episode数据,再更新policy模型参数,持续迭代下去。使用场景中,reward一般是正的,由于action是随机采样的,造成一些action未被采样到,那么该未被采样到的action归一化之后的概率偏低,与实际情况不符。的发生概率,即给定环境s,基于policy产生动作a,然后达到新环境,并获取一定的reward,循环执行下去,直到该episode结束,计算得到总概率。

2023-12-15 14:30:51 40

原创 LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

2023-12-08 14:12:48 2617

原创 文档理解document understanding:文档信息抽取,多模态文档理解预训练,富文档QA问答

ACL。

2023-09-23 15:37:58 337 1

原创 table understanding表格理解paper:表格信息抽取,表格问答,表格检索等

https://github.com/wenhuchen/OTT-QAhttps://github.com/microsoft/TUTA_table_understandinghttps://github.com/google-research/tapashttps://github.com/microsoft/Table-Pretraininghttps://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summaryhttps://g

2023-09-23 15:19:32 228 1

原创 基于大模型来做NLP任务

InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in the era of Large Language ModelsLarge Language Model Is

2023-07-26 22:47:53 762 1

原创 基于ChatGPT来做NLP任务的相关论文

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?Small Models are Valuable Plug-ins for Large Language ModelsGPT-NER: Named Entity Recognition via Large Language ModelsZero-Shot Information Extraction via Chatting with Cha

2023-07-21 23:19:09 235 1

原创 Chatglm系列:GLM GLM130B chatglmv1 chatglmv2

2. 预训练方式1:自编码使用blank infilling的方式训练,即提取spans,并替换成mask,使用自回归的方式预测mask,spans的双向可见性取决于spans的随机排列顺序。其通过mask spans来自回归的预测被mask的span,非span区域是互见的,span之间的可见性取决于span的随机排列顺序。5. 训练集的95%使用blank filling任务训练,分别占30%、70%,训练集的另外5%来自于各个NLP任务指令数据集,通过转化成prompt的方式构建。

2023-07-16 12:58:51 585

原创 Few-shot NER信息抽取综述

1. 使用预训练语言模型的单词预测范式来预测实体对应的label word,非实体部分预测是其本身2. label word是通过class标签映射过去的word集合,比如PER:John,Steve,POS:china,japan等3. label word的构建:通过知识库和远程监督的方法构造伪数据集,使用预训练模型获取topn的实体,然后基于统计和LM获取的实体构建label word4. 不太适合中文数据集5. label word样例:6. 模型架构图。

2023-07-16 12:47:53 342 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除