枉费红笺-CSDN博客

原创【CVPR2022】DIFNet: Boosting Visual Information Flow for Image Captioning

这项工作提出了DIFNet来生成忠实于给定图像的描述。首先利用分割特征，通过迭代独立LN（IILN）融合模块增强网格视觉表示，以最大限度地利用两个信息流。还使用额外的跳跃连接来增强编码器和解码器内部和之间的信息流，以保护一些脆弱的视觉信息。实验表明，具有分割特征的各种变换器变体得到了更好的性能，具有分割特征的DIFNet超过了最先进的方法。全面的消融研究揭示了导致这一成功的几个关键因素，并表明双重信息流在提升预测对视觉内容的依赖性方面非常有效。

2023-05-08 22:20:02 469 1

原创 R-CNN、Fast R-CNN、Faster R-CNN复习

非极大值抑制（Non-maximum suppression，NMS）在目标检测中的主要作用是对目标检测算法输出的一系列候选框进行筛选，去除冗余的候选框，保留最终的检测结果。具体地说，在目标检测算法中，通常会生成多个候选框，每个候选框都可能包含一个目标物体。然而，这些候选框之间往往存在重叠，因此需要进行筛选。非极大值抑制就是其中一种常用的筛选方法。具体实现时，可以使用贪心法来进行优化，先按照得分大小对所有候选框进行排名，选择得分最高的一个框，将其加入最终输出列表。

2023-04-24 22:11:48 175

原创图像描述（Image Captioning）的评价指标理论理解

这些指标都是用于评价文本生成质量的，大概做法都是比较某条候选文本（一般是机器生成的）和其他若干参考文本（一般是人类标注的）的相似性，不过适用场合略有区别：BLEU, METEOR, ROUGE 一般在翻译里用，ROUGE主要用于摘要评估，CIDEr和 SPICE一般在图像描述生成里用。

2023-03-07 23:04:22 1306

原创神经网络的参数量(Params)和计算量(FLOPs)

神经网络的参数量（Params）和计算量（FLOPs）

2022-12-13 19:46:41 4269

原创牛客素数判断【Java】

【代码】牛客素数判断【Java】

2022-10-19 21:58:35 155

原创图像描述的注意力可视化

同时在我们的实验结果分析里，除了一些冷冰冰的数据支撑之外，可视化的展示也可以更直观地让读者感受到模型的效果。常规的可视化包括：模型结构的可视化、卷积参数的可视化、训练过程的可视化、热图可视化等。此时就需要进行注意力的可视化展示，图像描述的可视化效果如下图所示，当我们生成或预测某个单词时，注意力就会重点关注图像中相应的区域，可以更直观的让我们感受的注意力到底是什么东西，它在我们模型的训练过程中以一种什么样的作用存在。我们理论上可以解释的通，但注意力在模型的训练过程中到底是怎么作用的呢？

2022-09-16 11:13:43 3960

原创全面的Python切片操作解析：[i]，[s:]，[:,e]，[s:,e:p]，[s:,e:p]，[1:,-1:]，[:, ::2]，[:, 1::2]

切片(slice)简单来说就是更高级的索引操作，可以通过切片操作得到任意目标值，其切片对象的类型是与 Python 层面的slice相同的对象，即序列型对象，如array，list, string, tuple等，下面的介绍中将以array为例，通过一维和二维数组的来讲解，更高维的与二维类似，其他对象也与array类似。通过概念和代码实例的结合更容易理解索引在介绍切片内容之前，先来通过一张图了解序列对象的索引。从图中可以看出包括正索引和负索引两部分，从左到右索引默认 0 开始，从右到左索引默认 -1

2022-03-21 20:26:34 3847 1

原创 vscode远程连接的坑

我们在使用vscode远程连接服务器时，会遇到各种各样的问题，一些问题网上也很难找到答案，下面是本人使用过程中遇到的一些问题以及解决方案，总结一下，方便大家使用。1. 过程试图写入的管道不存在有可能是本地的known_hosts文件记录服务器信息与现服务器的信息冲突了，导致连接失败，可以把known_hosts文件里的有关该服务器的信息删除，重新连接，known_hosts文件在Windows用户目录下的.ssh文件中。有些是因为需要手动的把本地的config文件目录写到vscode中，如图所示，

2022-03-15 10:51:23 5177 3

原创浅谈feature-based 和 fine-tune

feature-based 和 fine-tune是NLP方向使用预训练模型时常用的两种方式，所以简单总结下。Feature-basedFeature-based指在使用时，并不直接使用模型本身，而是利用模型产生的结果，即LM embedding，通过预训练的模型得到额外的特征，引入到要训练的模型中。例如，在文本分类、序列标注等任务中，对输入的词进行编码得到词的embedding时，对于静态词向量（word2vec, glove）就是使用查表的方式，每个词根据word2vec或者glove甚至是最原

2022-03-12 23:15:02 2006 2

转载从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史本文转载自知乎：原文链接.作者：张俊林Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评价呢？是因为它有重大的理论或者模型创新吗？其实并没有，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多NLP的任务的最好性能，有些任务还被刷爆了，这个才是关键。另外一点是Bert具备广泛的通用性，就是说绝大部分NLP任务都可以采用

2022-03-12 20:01:29 188

转载 Pytorch模型的保存与迁移

原文链接: https://zhuanlan.zhihu.com/p/4179976621 引言各位朋友大家好，欢迎来到月来客栈。今天要和大家介绍的内容是如何在Pytorch框架中对模型进行保存和载入、以及模型的迁移和再训练。一般来说，最常见的场景就是模型完成训练后的推断过程。一个网络模型在完成训练后通常都需要对新样本进行预测，此时就只需要构建模型的前向传播过程，然后载入已训练好的参数初始化网络即可。第2个场景就是模型的再训练过程。一个模型在一批数据上训练完成之后需要将其保存到本地，并且可能过了一段时间后

2021-10-13 21:26:33 429

转载一文读懂迁移学习和预训练

引言跟传统的监督式机器学习算法相比，深度神经网络目前最大的劣势是什么？贵。尤其是当我们在尝试处理现实生活中诸如图像识别、声音辨识等实际问题的时候。一旦你的模型中包含一些隐藏层时，增添多一层隐藏层将会花费巨大的计算资源。庆幸的是，有一种叫做“迁移学习”的方式，可以使我们在他人训练过的模型基础上进行小改动便可投入使用。在这篇文章中，我将会讲述如何使用预训练模型来加速解决问题的过程。目录 1. 什么是迁移学习？ 2. 什么是预训练模型？ 3. 为什么我们使用预训练...

2021-10-13 19:23:30 4891

原创【CVPR2020】Meshed-Memory Transformer for Image Captioning

【CVPR2020】Meshed-Memory Transformer for Image Captioning引言

2021-09-25 13:16:01 1901

转载图解PyTorch中的torch.gather函数

1 背景去年我理解了torch.gather()用法，今年看到又给忘了，索性把自己的理解梳理出来，方便今后遗忘后快速上手。官方文档：TORCH.GATHERpytorch.org/docs/stable/generated/torch.gather.html?highlight=gather#torch.gather官方文档对torch.gather()的定义非常简洁定义：从原tensor中获取指定dim和指定index的数据看到这个核心定义，我们很容易想到gather()的基本想法其实就类似从完整数

2021-09-22 22:37:53 902 2

转载自然语言处理：什么是词嵌入(word embedding)？

词嵌入（word embedding）是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称。词嵌入是自然语言处理的重要突破之一。下面将围绕什么是词嵌入、三种词嵌入的主要算法展开讲解，并通过案例具体讲解如何利用词嵌入进行文本的情感分析。什么是词嵌入？词嵌入实际上是一类技术，单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。举个例子，比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为（0.1 0.2 0.3

2021-09-17 22:57:09 15526 4

转载反向传播——通俗易懂

最近在看深度学习的东西，一开始看的吴恩达的UFLDL教程，有中文版就直接看了，后来发现有些地方总是不是很明确，又去看英文版，然后又找了些资料看，才发现，中文版的译者在翻译的时候会对省略的公式推导过程进行补充，但是补充的又是错的，难怪觉得有问题。反向传播法其实是神经网络的基础了，但是很多人在学的时候总是会遇到一些问题，或者看到大篇的公式觉得好像很难就退缩了，其实不难，就是一个链式求导法则反复用。如果不想看公式，可以直接把数值带进去，实际的计算一下，体会一下这个过程之后再来推导公式，这样就会觉得很容易了。说到

2021-09-12 18:21:03 516

原创【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning附：论文下载地址论文主要贡献提出了一种新的双层协同Transformer网络(DLCT)，实现了区域特征和网格特征的互补性。在MS-COCO数据集上的大量实验证明了该方法的优越性。提出了位置约束交叉注意(LCCA)来解决两个特征源直接融合引起的语义噪声问题。利用所构建的几何对齐图，LCCA不仅能准确实现不同源特征之间的交互，还能通过交叉注意融合增强各种特征。首次

2021-09-07 17:25:41 2245 2

原创 linux文件权限

linux文件权限文件权限r:对文件是指可读取内容，对目录是可以lsw:对文件是指可修改文件内容，对目录是指可以在其中创建或删除子节点（目录或文件）x:对文件是指是否可以运行这个文件，对目录是指是否可以cd进入这个目录Linux三种文件类型普通文件：包括文本文件、数据文件、可执行的二进制程序文件等目录文件：Linux系把目录看成是一种持殊的文件，利用它构成文件系统的树型结构设备文件：L1nux系统把每一个设备都看成是一个文件文件类型标识普通文件(-)目录文件(d)符号

2021-09-04 22:31:32 91

原创 linux用户及用户组管理

linux用户管理Linux系统是一个多用户多任务的分时操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪，并控制他们对系统资源的访问；另一方面也可以帮助用户组织文件，并为用户提供安全性保护。每个用户账号都拥有一个唯一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后，就能够进入系统和自己的主目录。实现用户账号的管理，要完成的工作主要有如下几个方面：用户账号的添加、删除与修

2021-09-04 21:59:57 89

原创 linux常用网络操作

linux常用网络操作CentOS 7.0默认使用的是firewall作为防火墙直接关闭防火墙systemctl stop firewalld.service开启防火墙systemctl start firewalld.service查看防火墙状态systemctl status firewalld.service禁止firewall开机启动systemctl disable firewalld.service...

2021-09-04 21:43:15 68

原创 linux下安装Redis

linux下安装Redis准备工作安装gcc环境：redis是C语言开发，安装redis需要先将官网下载的源码进行编译，编译依赖gcc环境。yum -y install gcc-c++开始安装在 /usr/local/ 下创建 redis ⽂件夹并进⼊cd /usr/local/mkdir rediscd redis解压Redis安装包tar -zxvf redis-5.0.8编译并安装cd redis-5.0.8/make && make in

2021-09-04 21:39:12 62

原创 linux下安装MySQL及环境配置

linux安装MySQL及环境配置准备工作查看是否安装mysqlrpm -qa|grep mysql查看是否安装MariaDBrpm -qa|grep -i mariadb卸载命令yum -y remove xxxrpm -e --nodeps xxx注意：yum安装的得用yum卸载，普通rpm安装的得用rpm卸载，当然yum安装的也可以使用rpm命令进行卸载，但是使用yum卸载比较方便，yum相当于一个一键卸载开始安装解压安装包并重命名tar -zxvf my

2021-09-04 21:27:59 278

原创 linux下安装JDK及配置环境变量

linux安装JDK本文使用jdk1.8版本网盘链接: https://pan.baidu.com/s/1GTeXmAhvgs118DfkAci-zA提取码：fwvb准备工作查看是否安装jdk，选择是否卸载 java -version which java rm -rf （前面显示的jdk路径）例如：rm -rf /usr/java/jdk/jdk1.8.0_172/ 将原本设置的jdk环境变量删除进入：vim /etc/profile ,然后保存退出

2021-09-04 21:11:28 165

原创贼方便的VScode远程连接服务器

有时候对服务器上运行的代码进行编程会觉得麻烦，所以vscode推出了Remote Development插件，这个插件可以使用vscode远程连接服务器，就和在本地使用vscode一样。1. 配置过程1.1 安装插件，搜索Remote Development，点击安装即可1.2 安装之后，左侧会有电脑图标，点击进入remote explorer栏，点击该栏下拉选项，选择SSH Targets，之后再点击设置按钮，选择.ssh下的config文件1.3 填写config文件内容，之后左侧就会生成

2021-08-05 13:52:32 5017

原创 [AAAI2020]MemCap：Memorizing Style Knowledge for Image Captioning

MemCap：Memorizing Style Knowledge for Image Captioning论文主要贡献提出了一种基于MemCap的风格化的图像描述方法，使用style memory module（风格记忆模块）来记忆关于语言风格的知识，并根据图片中的内容来检索这些知识。提出了一种sentence decomposing algorithm（句子分解算法），自动将风格相关部分从风格句子中分离出来，以促进风格记忆模块的学习。在多个数据集上进行的大量实验表明，与现有的方法相比，该方法具

2021-08-01 22:55:58 540

枉费红笺的博客