xueyongfu-CSDN博客

原创 Lora及其变体

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust AdaptationLearning to Route Among Specialized Experts for Zero-Shot GeneralizationAFLoRA: Adaptive Freezing of Low Rank Adaptation in ParameterEfficient Fine-Tuning of Large ModelsLoTR: Low Tensor

2024-03-24 16:19:47 802 1

原创强化学习基础

1. 价值迭代是贪心更新法2. 策略迭代中，用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP，策略迭代通常很快收敛4. 对于空间较大的MDP，价值迭代更实用(效率更高)5. 如果没有状态转移循环，最好使用价值选代R%28s%29%5Cpi%5Cpi。

2023-12-16 20:42:43 772 1

原创 Actor-Critic(AC)、A2C、A3C

A3C将actor与环境的交互变成了异步的，每个worker可以分别与环境进行交互，并进行参数更新，更新完之后需要梯度更新到global network，并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络（Q函数，V函数，策略网络）优化成了只需要学习V函数和策略网络。是非常不稳定的，只有当采样丰富的样本时，才可以获得接近真实的G值，但是现实情况往往不能采样足够丰富的样本。Q值：S状态下有若干个动作，每个动作的Q值，就是从这个动作之后所获得的奖励总和的期望值。

2023-12-16 00:08:03 51 1

原创 SARSA、Q-learning

Q-learning时value-based的方法，学习的不是policy，而是critic，critic并不直接决定action，而是评估一个actor有多么的好。通过把state输入到值网络中，从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法，需要进行完整个game，然后计算某个state对应的累计奖励，然后最小化该累计奖励和值网络输出值，从而学习值网络模型。值网络的学习也可以使用Temporal-difference（TD）方法。输入到值网络得到的累计激励，与。

2023-12-15 23:03:41 416

原创 Proximal Policy Optimization（PPO）

如下图所示，q(x)分布的采样值更多的落在右半边区域，在采样次数较少的情况下，期望是正值，与p(x)采样得到的期望值是负值的结果不符，但是，当采样次数较多时，q(x)也会采样到左半边区域的值，此时p(x)/q(x)值比较大，使得计算的期望是负值，与p(x)采样得到的期望值是负值的结果相符。使用重要性采样，期望值相等，当p(x)与q(x)的分布接近时，二者方差的差异较小，因此在使用重要性采样时，两个分布的差异应当比较小。因此可以得出：当p(x)和q(x)分布差异较大时，需要更多的采样才能逼近正确的结果。

2023-12-15 17:21:45 47

原创 Policy Gradient（策略梯度）

训练时需要先初始化policy，然后采样一个episode的数据，更新policy模型参数，基于新policy采样得到新的episode数据，再更新policy模型参数，持续迭代下去。使用场景中，reward一般是正的，由于action是随机采样的，造成一些action未被采样到，那么该未被采样到的action归一化之后的概率偏低，与实际情况不符。的发生概率，即给定环境s，基于policy产生动作a，然后达到新环境，并获取一定的reward，循环执行下去，直到该episode结束，计算得到总概率。

2023-12-15 14:30:51 40

原创 LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

2023-12-08 14:12:48 2617

原创文档理解document understanding：文档信息抽取，多模态文档理解预训练，富文档QA问答

ACL。

2023-09-23 15:37:58 337 1

原创 table understanding表格理解paper：表格信息抽取，表格问答，表格检索等

https://github.com/wenhuchen/OTT-QAhttps://github.com/microsoft/TUTA_table_understandinghttps://github.com/google-research/tapashttps://github.com/microsoft/Table-Pretraininghttps://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summaryhttps://g

2023-09-23 15:19:32 228 1

原创基于大模型来做NLP任务

InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in the era of Large Language ModelsLarge Language Model Is

2023-07-26 22:47:53 762 1

原创基于ChatGPT来做NLP任务的相关论文

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?Small Models are Valuable Plug-ins for Large Language ModelsGPT-NER: Named Entity Recognition via Large Language ModelsZero-Shot Information Extraction via Chatting with Cha

2023-07-21 23:19:09 235 1

原创 Chatglm系列：GLM GLM130B chatglmv1 chatglmv2

2. 预训练方式1：自编码使用blank infilling的方式训练，即提取spans，并替换成mask，使用自回归的方式预测mask，spans的双向可见性取决于spans的随机排列顺序。其通过mask spans来自回归的预测被mask的span，非span区域是互见的，span之间的可见性取决于span的随机排列顺序。5. 训练集的95%使用blank filling任务训练，分别占30%、70%，训练集的另外5%来自于各个NLP任务指令数据集，通过转化成prompt的方式构建。

2023-07-16 12:58:51 585

原创 Few-shot NER信息抽取综述

1. 使用预训练语言模型的单词预测范式来预测实体对应的label word，非实体部分预测是其本身2. label word是通过class标签映射过去的word集合，比如PER：John，Steve，POS：china，japan等3. label word的构建：通过知识库和远程监督的方法构造伪数据集，使用预训练模型获取topn的实体，然后基于统计和LM获取的实体构建label word4. 不太适合中文数据集5. label word样例：6. 模型架构图。

2023-07-16 12:47:53 342 1

fjfdg666的博客