上杉翔二-CSDN博客

原创 Nakaizura Blog Index（博文目录索引）

上杉翔二（nakaizura）的博文目标索引。整理下博客分类，只按时间分有点乱。一. 基础理论：机器学习基础，深度学习基础二. 流行技术：生成对抗，强化学习，图神经网络三. 应用领域：推荐系统，计算机视觉，自然语言处理，多媒体和多模态，金融量化四. 其他：备忘和github

2020-08-09 20:58:30 12791 3

原创 Source-Code-Notebook（源码解析和逐行笔记）

Source-Code-Notebook关于一些经典论文源码Source Code的中文笔记，尽量做到整体框架梳理和逐行源码注释。不过太早期的代码一般都模块化了，所以主要更一些后期(2017-NOW)的笔记。语言主要是pytorch和Tensorflow版本的代码，部分keras。有注解错误和思路问题欢迎讨论。大部分都在本博客里面有文章整理过吧，思路+源码一起吃能对pap...

2020-05-03 21:36:50 6685

原创基于LLMs的多模态大模型（PALM-E，ArtGPT-4，VPGTrans ）

本篇文章先放一些比较杂的延伸和应用的文章，后面形成分支了再单独开，目前主要是PALM-E，ArtGPT-4，VPGTrans 等。PALM-E是博主很关心的文章之一，它是一个562B的视觉语言模型（PaLM-540B + ViT-22B），有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中，即多模态具身智能，这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文

2023-05-26 13:00:34 2045

原创基于LLMs的多模态大模型（MiniGPT-4，LLaVA，mPLUG-Owl，InstuctBLIP，X-LLM）

前一篇博文的最后整理到KOSMOS-1，KOSMOS-1已经开始使用Unnatural Instruction进行微调，其能更好的服从用户需求，本篇博文将继续整理一堆最近出的文章们，包括粘合BLIP-2和Vicuna的MiniGPT-4模型，和一些使用Instruction Tuning来训练的文章们。

2023-05-26 12:57:03 3821

原创基于LLMs的多模态大模型（Flamingo, BLIP-2，KOSMOS-1，ScienceQA）

本篇文章将介绍一些需要训练视觉编码器来适配多模态大模型的工作们，这也是目前最为流行的研究思路。其实早在2021年DeepMind发表Frozen的时候就已经有了few-shot甚至in-context learning的思路，博主在以往的博文中也有过介绍（Multimodal Few-Shot Learning with Frozen Language Models），此处简要回顾一下，如下图所示，Frozen先将图片编码成visual tokens，然后作为prefix跟文本的tokens一起输入到L

2023-05-26 12:55:06 4747

原创基于LLMs的多模态大模型（Visual ChatGPT，PICa，MM-REACT，MAGIC）

当LLMs已经拥有了极强的对话能力后，如何使其拥有视觉和语音等多模态能力是紧接而来的热点（虽然GPT4已经有了），这个系列将不定期更新一些利用LLMs做多模态任务的文章。直觉上，如果直接训练一个类似chatgpt架构的多模态框架一定会消耗非常大的数据和计算量，此外如果每次增加一个新的模态，那现有框架都需要重新训练，这无论是对高校还是企业来说都是很难承担的代价。因此目前的文章都尝试利用一些策略或者适配的方法来连接语言模型和其他模型，特别是visual and language。

2023-05-26 12:53:37 2238

原创 LLMs的自动化工具系统（HuggingGPT、AutoGPT、WebGPT、WebCPM）

在前面两篇博文中已经粗略介绍了增强语言模型和Tool Learning，本篇文章看四篇代表性的自动化框架，HuggingGPT、AutoGPT、WebGPT、WebCPM。HuggingGPT是tool learning中tool-augmented learning的一类，具体来说，它是一个以LLMs为控制器来管理来自Huggingface社区中诸多小模型的框架，其中用户的自然语言请求将视为一个通用接口，再经过LLMs的解析和规划后，再根据Huggingface小模型工具的描述进行模型选择，执行完每个小模

2023-05-25 23:27:37 2955

原创 Toolformer and Tool Learning（LLMs如何使用工具）

ALM的两大思路是推理和工具，本篇博文整理两篇关于Toolformer或Tool Learning的论文，即如何允许模型使用多种工具如日历、计算器、搜索系统等等来帮助提升LLMs的能力。来自Meta AI。LLMs已经展现出十分出色的zero-shot和few-shot能力，特别是在规模上，但它们在基本功能方面也遇到了困难，比如算术、最新信息、幻觉

2023-05-25 23:22:56 2435

原创 Augmented Language Models（增强语言模型）

LLMs取得的巨大进展不再多说，它目前被诟病最多的问题是其会提供非事实但看似可信答案，即幻觉。这些问题可能源于LLMs的一个基本缺陷：它们基于统计语言建模，即 (i)一个单一的参数模型和（ii）一个有限的上下文。但事实上，LLMs擅长于通用的语言理解与推理，而不是某个具体的知识点。

2023-05-25 23:18:21 2111

原创 LLMs开源模型们的分布式训练和量化

这篇博文主要整理一下目前流行的训练方法和量化。使通用LLMs适应下游任务的最常见方法是微调所有模型参数或微调尾层参数（Freeze）。然而这会导致每个任务都有一份单独的微调模型参数，训练成本高。- Adapter。冻结原有参数，添加adapter层用于微调。adapter层一般先向下投影，然后非线性激活函数，再使用向上投影，最后接残差连接。

2023-05-25 22:47:02 2268

原创 LLMs开源模型们和数据集简介

本篇文章整理下目前常用的LLMs模型们和数据集简介。可以看到目前被广泛用来作为LLMs的backbone的模型有以下特点：- Backbone：基于某个开源backbone，如GLM、LLaMA、BLOOMZ（GPT-style）- Datasets：分为两类Instruction、Conversation- Tuning Strategies：分为两类SFT、RLHF- Optimization：开源项目参数规模一般都不是很大，Params 6/7B、13B

2023-05-25 22:45:04 2956

原创 HyDE、UDAPDR（LLM大模型用于信息检索）

本篇博文继续整理LLM在搜索推荐领域的应用，往期文章请往博主主页查看更多。这篇文章主要做zero-shot场景下的稠密检索，通过借助LLM的力量不需要Relevance Labels，开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法，即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档，并使用无监督检索器对其进行编码，并在其嵌入空间中进行搜索，从而不需要任何人工标注数据。

2023-05-25 22:42:32 4840 2

原创 Twitter推荐系统的可信和安全模块解析（Trust and Safety Models）

本篇文章解析一下可信和安全模块的具体实施细节。信任和安全模型（Trust and Safety Models），简称T&S，主要用于检测推特系统中不可信和不安全等违规内容。在后续架构中的多路召回模块（包括in-network召回路和out-of-network召回路），该T&S特征都能用于过滤掉不合规的内容，从而让推送给用户的推文在社交圈内外都是“绿色”的。

2023-04-12 18:42:07 1256 1

原创 Chat-REC、InstructRec（LLM大模型用于推荐系统）

虽然大型语言模型LLM已经证明了它们用于解决各种应用任务的巨大潜力，但它和推荐系统的结合点在哪？* 推荐系统旨在根据用户的偏好和行为向用户推荐项目。传统上，这些系统都依赖于用户数据，如点击流和购买历史等等。* NLP在扩大推荐系统用户数据的范围方面是有价值的。比如NLP技术可以用于分析用户生成的内容，如评论和社交媒体帖子，以深入了解用户的偏好和兴趣，提高整体用户体验和参与度。

2023-04-06 22:39:10 8406 1

原创 ChatDoctor（LLM大模型用于医疗对话）

通用领域中最近的大型语言模型 (LLM)，例如 ChatGPT，在遵循指令和产生类似人类的响应方面取得了显着的成功。在医疗领域，通过利用医患对话数据对大模型进行微调，可以显著促进该模型在医学领域的应用。特别是在医疗资源匮乏的地区，可以使用聊天医生来支持患者的初步诊断和分诊，可以显著提高现有医疗系统的效率。因此这篇文章收集了一些关于医学领域的数据集，然后基于Meta的LLaMA进行微调（毕竟chatGPT非开源）。不仅是医学领域，这篇文章的做法可以扩展到很多其他的专有领域中。

2023-04-06 21:40:05 5748 1

原创 ChatIE（LLM大模型用于信息抽取）

利用ChatGPT实现零样本信息抽取（Information Extraction，IE），看到零样本就能大概明白这篇文章将以ChatGPT作为一个基座然后补全前后端，来实现抽取任务。具体来说，ChatIE实现零样本的策略是将其任务转化为具有。对于句子：《我的爱情日记》是1990年在北京上映的中国…代码已经开源，包含了详细的前后端处理。ChatIE如下图所示，

2023-04-06 14:32:59 6582

原创 BloombergGPT（LLM大模型用于金融科技）

为了打造目前最大的金融领域数据集，彭博社收集和整理了40多年的金融语言文档，其涵盖了一系列的主题，如新闻、档案、英文财经文档等等。首先通用数据集共包含了3450亿个token，占总数据集token量的48.73%，如上图所示，占比比较大的数据集有：Pile-CC数据集， C4数据集等等等等，以保证模型对自然语言理解的通用能力。总共训练了139,200步（~ 53天），并通过训练数据（709B个token中的569B）完成0.8个epoch后结束了模型训练，原因是验证集上的损失已经不再继续下降，甚至反增。

2023-04-05 22:00:14 5114

原创 Twitter开源时间线推荐架构整理（Twitter‘s Recommendation Algorithm）

马斯克最近开源了部分 Twitter的代码，主要有两个仓库。此次发布的大部分代码是推荐算法，包括给用户在时间线上推文的机制等等。并且看起来这个github会持续更新，本篇文章也尝试理一下这部分的推荐机制。时间线推文（For You timeline）的整体框架如下图所示，

2023-04-05 20:49:26 1403

原创极限多标签学习综述（Extreme Multi-label Learning）

极限多标签学习综述（Extreme Multi-label Learning）。给定数据X和标签Y，该任务尝试学习一个函数f以映射输入x到y。y的种类通常特别大，通过按照标签y出现的频率进行排序，可以设定阈值。

2022-12-26 19:21:24 2031

原创 Instruction Tuning（FLAN、instructGPT、chatGPT）

首页最近被chatGPT刷屏，但翔二博主左看右看发现很多想法似乎都是一脉相通的，于是连夜从存档中找了一些文章尝试理一理它的理论路线。博主个人理解，它以更为embodied AI形式的指令作为输入，以训练/微调大规模的信息模型，并基于强化学习与真实世界做持续交互，已经很接近此处所提到的“数字超人”了。

2022-12-10 18:24:59 23503

原创多模态中的指令控制（InstructPix2Pix，SayCan）

整理一下关于多模态中的instruction tuning。图像的语言指令生成。目的是遵循人工指令去编辑图像，即给定输入图像和一个如何编辑它的文本指令，模型尝试遵循这些指令来编辑图像。这份论文与现有基于文本的图像编辑工作们最大的不同在于

2022-12-10 18:23:28 3728

原创具身智能综述和应用（Embodied AI）

因此为了满足AI机器人能够像人类一样在真实世界中实践型学习，具身智能（Embodied AI）逐渐成为一个热门的讨论点，或许它就是通往通用人工智能的关键钥匙。具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能，这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。

2022-12-10 18:21:00 14343 3

原创扩散模型的迁移和应用（DiffusionDet，AR-LDM，MagicVideo，RenderDiffusion，AltDiffusion，VD）

本文将整理扩散模型在诸多任务上的实施方案和效果讨论，包括其用于目标检测、图像分割、连贯故事合成、视频生成、3D场景生成和推理、多语言扩展、多模态扩展等任务。

2022-12-10 18:18:16 8057

原创扩散模型（Diffusion Model，DDPM，GLIDE，DALLE2，Stable Diffusion）

实际上扩散模型和AE、VAE很类似，一个粗略的发展过程可以认为是AE–VAE–VQVAE–Diffusion，而扩散模型也逐步从DDPM–GLIDE–DALLE2–Stable Diffusion。随着最近DALLE2和stable diffusion的大火，扩散模型的出色表现丝毫不逊色VAE和GAN，已经形成生成领域的三大方向：VAE、GAN和Diffusion，如上图可以简要看出几类主线模型的区别。DALLE2的模型结构如上图，其中扩散模型是基于GLIDE的。可以轻松使用DDPM模型。

2022-09-05 00:17:15 19950 6

原创神经开放域信息抽取OpenIE

即，给定一组标签，每个标记表示一个标记或一个标记的角色（例如参数、谓词），模型学习每个标记的标签或基于句子的跨度的概率分布，最后OpenIE系统根据预测的标签输出元组。随着深度学习技术的快速发展，许多神经OpenIE架构已经被提出，并实现了相当大的性能提高。在深度学习之前，传统的OpenIE系统要么是统计学的，要么是基于规则的，并且严重依赖于语法模式的分析。随着深度学习技术的兴起，信息抽取领域也出现了更多的可能。本篇博文整理一下IJCAI2022的一篇开放域神经信息抽取的综述(OpenIE)，先放地址，..

2022-08-29 00:59:55 2067

原创多模态信息用于推荐系统问题（PMGT，MM-Rec，MGAT，TransRec）

而在实际的推荐系统中，推荐的物品可以是各种新闻、图片或视频（如上图的source domain的来源可以是任何信息），因此基于混合模态反馈的推荐模型是实现可迁移和通用推荐的重要途径，并且可以迁移到属于任何源领域模态组合的目标域（如上图target domain可以是单模态，也可以是多模态）。MGAT (Multimodal Graph Attention Network)的模型结构如上图，分为两条通道，首先信息会在不同模态的交互图上进行信息传播，再同时利用门控注意机制捕捉用户对不同模态的喜好。...

2022-08-29 00:58:35 2334

原创提示学习用于推荐系统问题（PPR，PFRec）

提示学习用于推荐系统问题（PPR，PFRec）。推荐系统可以根据年龄给用户推荐这个时代的人喜欢的音乐，但如果用户希望跳出自己年龄的信息茧房的话，就需要给用户提供一个关于属性的公平性选择开关（如年龄），这样用户就可以主要选择哪些个人属性会被考虑/不考虑。具体来说，作者主要是提出了一种personalized soft prefix prompt，通过基于用户配置文件的提示生成器构建个性化的软预提示，再通过基于提示和基于行为的增强的面向提示的对比学习实现对提示的充分训练。用于个性化提示学习的序列推荐。...

2022-08-29 00:56:59 1897

原创 Incomplete Multimodal Learning（不完整多模态学习）

博主已经更新过很多多模态系列的文章了，专栏传送门：多媒体与多模态专栏。可以发现多模态虽然效果很好，但需要保证“多个”模态都一定要存在。但是在现实世界中，部分模态的缺失是很常见的，因此不完整/缺失多模态学习（Incomplete Multimodal Learning）任务也十分值得探索。本篇博文将整理这一研究方向中一些不错的文章。Unified subspace learning for incomplete and unlabeled multi-view data比较早期的文章，任务是跨模态检

2022-05-04 19:10:44 9848

原创图对比学习的应用（NCL，SimGRACE，ClusterSCL）

博主以往已经整理过图神经网络用于推荐系统，整理过对比学习用于推荐系统。图神经网络用于推荐系统问题（PinSage，EGES，SR-GNN）图神经网络用于推荐系统问题（NGCF，LightGCN）图神经网络用于推荐系统问题（IMP-GCN，LR-GCN）图神经网络用于推荐系统问题（SURGE，GMCF，TASRec，MixGCF）对比学习用于推荐系统问题（SSL，S^3-Rec，SGL，DHCN，SEMI，MMCLR）自监督学习用于推荐系统问题综述而图+对比学习结合的趋势也算较为明显。本期先

2022-05-04 13:57:17 4775

原创 Graph Structure Learning（图结构学习应用续篇）

博主在以往的文章中更新过图结构学习的相关概念，和北邮团队的几篇关于图结构学习的文章（主要KDD20，AAAI21，WWW21，AAAI21）。Graph Structure Learning（图结构学习综述）Graph Structure Learning（图结构学习应用）近期WWW22放榜，于是博主也继续关注了下他们的新成果。Compact Graph Structure Learning via Mutual Information Compression这篇文章的动机在于：如何定义最优

2022-05-04 13:53:41 2134

原创多模态预训练模型选用指南（Vision-Language Pre-traning）

关于预训练的诸多模型，博主已经在以往的文章中整理过：Cross-modal Pretraining in BERT（跨模态预训练）OpenAI CLIP，DALL-ECLIP在视频领域的应用（CLIPBERT，CLIP4Clip，CLIP2Video，CLIPTV）本篇整理一下最近几篇关于Vision-Language Pre-traning(VLP)的综述文章，以及一篇很不错的，关于各个组件的选用指南文章。VLP: A Survey on Vision-Language Pre-traini

2022-05-03 17:57:06 3173 1

原创对比学习的应用（SimCSE，CLEAR，DeCLUTR，DiffCSE）

前已经有博文整理过了对比学习的概念，比较重要且流行的文章，和一些已经有的应用，主要是在image或者video上的应用：Contrastive Learning（对比学习，MoCo，SimCLR，BYOL，SimSiam）对比学习的应用（CLCaption，C-SWM，CMC，SGL）对比学习的应用（LCGNN，VideoMoCo，GraphCL，XMC-GAN）本篇博文尝试整理几篇代表性的对比学习在句子表征上的文章们。SimCSE: Simple Contrastive Learning

2022-05-03 17:55:42 2171

原创提示学习用于推荐系统问题（PEPLER，P5，PRL）

推荐系统跟随这深度学习领域前沿技术的发展，也逐步发展，目前作为火热的以预训练、自监督等等方向为主。随着prompt learning在nlp的出色表现，也开始向cv，向多模态进行扩展，当然，也有不少研究人员用它来解决推荐系统问题。关于prompt learning的基础技术和相关应用，博主已经在很多文章中都已经整理，不做赘述。预训练新范式（Prompt-tuning，Prefix-tuning，P-tuning）多模态预训练中的Prompt（MAnTiS，ActionCLIP，CPT，CoOp）多模

2022-05-03 17:53:42 3797

原创自监督学习用于推荐系统问题综述

分享一篇自监督学习用于推荐系统的综述，先上link：title：Self-Supervised Learning for Recommender Systems: A Surveypaper：https://arxiv.org/abs/2203.15876code：https://github.com/Coder-Yu/SELFRec在博主之前的文章中，对比学习用于推荐系统问题（SSL，S^3-Rec，SGL，DHCN，SEMI）中曾经提到，自监督学习被引入推荐系统领域主要有以下优势：舒缓数

2022-04-29 22:09:19 2805

原创 Multi-Modal Knowledge Graph（多模态知识图谱）

本篇博文梳理一篇knowledge-based方向的文章，结合了多模态知识的多模态知识图谱。来自复旦大学。知识图谱本质上是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。知识图谱在现实生活中广泛应用，包括文本理解、推荐系.

2022-02-17 23:12:21 18002 4

原创信息检索中的花式预训练综述

目前信息检索IR几乎都是使用深度学习系列的方法，即NeuIR(neural information retrieval)。而随着预训练在深度学习领域的大放光芒，信息检索中也出现了各种预训练策略。这篇文章博主将为大家整理来自清华大学与中科院的信息检索综述，先上路径。Title：Pre-training Methods in Information RetrievalLink：https://arxiv.org/abs/2111.13853背景如上图展示的是搜索过程的分层介绍，分别从核心问题（Th.

2022-02-13 23:07:30 1851

原创 Masked Image Modelling（MAE，iBOT，Data2vec，SimMIM，CAE，BEVT）

这篇文章主要整理kaiming大神所提出的MAE，和一些有代表性的变体模型。Masked Autoencoders Are Scalable Vision Learners在iGPT和BEiT的基础上，化繁为简，找出了最关键的点，能够让BERT式预训练在CV上也能训到很好！在预训练期间，大比例的随机的图像块子集（如 75%）被屏蔽掉。编码器用于可见patch的小子集。在编码器之后引入掩码标记，并且完整的编码块和掩码标记集由一个小型解码器处理，该解码器以像素为单位重建原始图像。MAE 是一种简单的自.

2022-02-13 23:04:19 6059

原创 CLIP在视频领域的应用（CLIPBERT，CLIP4Clip，CLIP2Video，CLIPTV）

CLIP论文之后，涌现了很多任务，由于原始CLIP是为了图像设计的，因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述，可以参考博主以前的博文：大规模图文预训练模型：CLIP，DALL-ECLIPBERT来自CVPR2021。作者的motivation来自于，目前大部分预训练模型都使用提前提取好的特征提取器，然而1）固定的特征对于不同的下游任务来说不是最优的，且不同的模态的特征相互独立。2）密集的视频特征的计算量要求较高，以原视频作为输入太慢了，因此特征提取器很难参与

2022-02-13 22:58:38 7192 1

原创多模态预训练中的Prompt（ALPRO，Frozen）

继续整理几篇多模态的Prompt文章。Align and Prompt: Video-and-Language Pre-training with Entity Prompts尽

2022-02-13 22:53:39 6459 2

原创 Various Image/Video Caption（视觉字幕化新任务）

上一篇博文博主整理了最新的 Video Caption（跨模态视频摘要/字幕生成），但是我在翻文章的时候发现大家都不止满足于做普通的caption了，开始转于做各种稀奇古怪但又有一定实践价值的新任务，比如程序化caption、多样化caption、独特化caption、多视角caption、常识性caption、问题控制型caption。。。于是本篇文章，博主找了一些相关文章（主要基于ACM MM2021），来整理一下这些丰富的任务变体们。Hybrid Reasoning Network for Vid

2021-11-30 16:12:43 5595

[数据集]Hashtag Our Stories: Hashtag Recommendation for Micro-Videos via Harnessing

Hashtag our stories_ Hashtag recommendation for micro-videos via harnessing

空空如也