- 博客(69)
- 资源 (4)
- 收藏
- 关注
原创 【多模态对比学习】我遇到的坑
本文是对过去几个月来利用对比学习的思想来优化多模态学习任务的思路的总结,主要包含以下几个方面:为什么要用对比学习、跨模态中对比学习怎么用、对比的过程中负样本是不是越多越好、要不要推远所有的负样本、样本之间的语义碰撞如何缓解、什么是负样本的“逃票”现象以及最重要的问题:如何学到一个高效的表征空间?
2024-03-30 12:45:19 806
原创 InfoNCE Loss公式及源码理解
−1N∑i1Nlogexpqi⋅kiτ∑j1Nexpqi⋅kj−τ−N1i1∑Nlog∑j1Nexpτqi⋅kj−expτqi⋅kiNNN是样本的数量qiq_iqi是查询样本iii的编码向量kik_{i+}ki是与查询样本iii相对应的正样本的编码向量ki−k_{i-}ki−是与查询样本i。
2023-11-21 21:58:46 4768 2
原创 【代码实现】DETR原文解读及代码实现细节
宏观上来说,DETR主要包含三部分:以卷积神经网络为主的骨干网(CNN Backbone)、以TRM(Transformer)为主的特征抽取及交互器以及以FFN为主的分类和回归头,如DETR中build()函数所示。DETR最出彩的地方在于,它摒弃了非端到端的处理过程,如NMS、anchor generation等,以来端到端建模目标检测过程,并且将Transformer引入到目标检测中,打开新领域的大门)。
2023-09-04 21:12:47 1529 1
原创 【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
本文介绍了一种名为ALBEF的高效视觉语言模型,采用了对比学习预训练的方式,能够学习到图像和文本之间的丰富关系,为视觉问答、图像分类、图像生成等下游任务提供更好的表征。ALBEF主要由三部分组成:image encoder、text encoder&multimodal encoder、momentum model。它的预训练目标主要包括对比损失、掩码语言重建任务和图像文本匹配任务的损失函数。此外,作者还提出了一种Momentum Distillation的方法,用于从动量模型生成的伪目标中学习,以便有效学
2023-04-13 21:22:53 2239 1
原创 【备忘录】torch171+cu110配置apex
基于torch171+cu110、torchvision082+cu110和torchaudio072的apex安装教程
2023-03-14 09:41:13 1253
原创 【NLP Learning】Transformer Encoder续集之网络结构源码解读
这篇文章我们主要从Transformer的Encoder源码入手,读懂Encoder的结构
2022-11-17 09:20:17 401
原创 【PytorchLearning】NLP入门笔记之手写Transformer Encoder内部机制
本文主要从Transformer Encoder中Word embedding生成、Position embedding机制和self-attention中的mask机制三个方面的源码及原理进行解读
2022-11-01 20:16:34 499
原创 【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一
本文从原文、网络结构、代码实现三个方面系统总结了SENet、SKNET、CBAM三种注意力机制
2022-05-08 22:37:14 10050 1
原创 【视觉注意力机制集锦】引言
视觉注意力机制集锦之引言1 注意力机制1.1 注意力机制简介卷积神经网络具有很强的拟合数据的能力,但是由于优化算法和计算能力的限制,在实践中,卷积网络很难达到通用近似的能力。特别是在处理规模较大的输入数据,实现复杂任务时,计算能力仍可能成为模型的瓶颈。卷积网络中的局部连接的卷积结构、池化层等设计本身可以用来简化网络结构、缓解模型复杂度和表达能力的矛盾。针对网络模型的任务,我们需要进行进一步的操作,可以在不过多增加模型复杂度的同时提高模型的表达能力。神经网络中,可以存储的信息量称为网络容量,显然,网络
2022-05-05 09:18:36 826
原创 【Transformer开山之作】Attention is all you need原文解读
Attention Is All You NeedTransformer原文解读与细节复现在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN、循环神经网络RNN、图对抗神经网络GAN。而Transformer的横空出世,吸引了越来越多的研究者的关注:Transformer不仅在NLP领域取得了耀眼的成绩,近年来甚至一度屠榜CV领域的各大比赛,热度超前。所以,基于之前对Transformer的研究与理解,更基于对新技术的好奇与渴求,接下来的几篇文章我会从最经典的Tra
2022-05-01 15:49:49 15528
原创 YOLOv5的Backbone详解
本文从yolov5s入手,细致分析了yolov5s的网络配置文件参数、backbone部分、neck部分和最终的head部分,并结合网络结构图和源码对各模块进行了详细介绍
2022-03-20 20:07:26 45637 32
Human Pose Estimation Overview.pptx
2020-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人