ttppss-CSDN博客

原创 PyCharm在使用ssh-key免密码登陆跳板机及服务器后的设置

折腾了两三天，本来想偷个懒，设置个免密登陆跳板机和服务器，直接一键ssh的，结果发现PyCharm死活无法设置好，代码无法同步。查询几天后，终于找到了解决办法，其中一个比较有用的两个链接如下：https://zhuanlan.zhihu.com/p/53792195https://blog.csdn.net/github_28260175/article/details/100012157我也把我的整个过程记录如下：本地机器及跳板机设置第1步位置：本地机器；目标：生成公钥、私钥。$ ssh.

2021-10-02 02:06:43 3223 5

原创揭秘 local vision transformer 到底好在哪 by 南开、北大、微软亚研

Demystifying Local Vision Transformer: SparseConnectivity, Weight Sharing, and Dynamic Weight摘要简介理解局部注意力稀疏连接，权重共享，及动态权重局部注意力的性质与 depth-weise convolution 的关系Relation Graph其它Connectivity, Weight Sharing, and Dynamic Weight)本文并非是技术性非常强的文章，没有“直接”利用的价值。但是在

2021-07-03 23:28:01 1700 3

原创字节跳动提出让所有 token 都参与 loss，提高 transformer 的表现

19 All Tokens Matter: Token Labeling for Training Better Vision TransformersScore /5: ⭐️⭐️⭐️⭐️论文地址：本想偷个懒，看看有没有人写这篇文章的阅读笔记，结果没找到，只能亲自写了。字节跳动的文章，目的是提高准确率，采用的方法主要是将图片 embedding 后，让所有的 token 都参与最后 loss 的计算，而不是只用 classification token。其中还借鉴了一些 CutMix 之

2021-07-02 02:23:35 1398

原创清华提出 DynamicViT，几乎不降低模型性能的情况下，较大地减少计算量和参数量

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification摘要简介Dynamic Vision Transformers简介预测头的分层 token 稀疏化注意力掩码的端到端优化训练及推断感觉其他人总结得不好，不详细，就是翻译了一下，因此自己仔细看了一遍并写了以下的总结。最后一部分的老师模型（teacher’s model）没有详细看，因为目前还没太看过蒸馏这一块，以后看了可以补齐。文章目的：在几乎没有降低

2021-06-27 05:54:13 1558 1

原创 Day 14: 无需预训练或者过多的数据增强技巧，谷歌提出新方法，超越 ResNet 的表现

文章标题：When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations最近其实也一直在看 paper，不过感觉都并不是特别好写，或者说目前我的主要任务还不在精读每一篇文章，因为其实如果要读透的话，还是需要一点点看代码的。因此这一篇也是个大概性的总结吧，因为文章提到的东西虽然很可能能用，但是如果要用到自己的东西上，需要再看另外一篇 paper，因为本文是基于那一篇上面写的，干货并不.

2021-06-13 08:48:48 474

原创 Day 14: Not All Images are Worth 16 x 16 Words: Dynamic Visition Transformer 动态视觉 Transformer

这篇是华为和清华共同发表的文章，果然清华出品，还是比较硬核！看完第一遍并没有特别了解，也许需要结合代码再看一遍。总体上来说，也是为了在不影响效果的情况下，降低计算复杂度。要点总结之前的 Transformer 结构计算量都很大，因此需要找方法降低它的计算复杂度。并非所有的图片都需要被分割成特别多的 token 来参与计算，有的图片相对简单，只需要拆成4×44 \times 44×4的 token，就能有很好的准确率，因此提出了动态视觉 Transformer 的模型。模型的目的是自动地根据每张图片来调

2021-06-05 12:18:06 727 3

原创 Day 12: Twin Transformer by 美团

这是美团和澳大利亚阿德莱德大学联合发表的新文章，也是和 Transformer 相关的，以下是一些要点。Swin Transformer 的 Shifted Windows 虽然有效，但是由于尺寸不同，因此在用现有的深度学习模型来实现的时候会有一定的困难，因为大部分框架都希望输入的尺寸是相同的。另一种方案是 PVT 中提出来的。在普通的自注意力模块中，每个 query 都需要和所有的输入 token 计算注意力，但 PVT 中，每个 query 只需要和一些取样出来的输入 token 计算注意力。虽然

2021-05-25 22:28:48 1215

原创 Day 11: 谷歌大脑新作：Pay Attention to MLPs

谷歌大脑的新作，还是和MLP相关，文章仍然是质疑 self-attention 在 Transformer 中的重要性，以及是否可以被取代。提出一种基于MLP的，无注意力机制的，由通道映射、空间映射和门控制组成的结构，来替代 Transformer。新结构的实验得到了很好的效果，在ImageNet上，gMLP达到了和DeiT接近的效果。和MLP-Mixer相比，它的参数量减少了66%，且准确率还有3%的提升。实验中表明，模型的复杂度只与模型的能力有关，而与是否有注意力模块不太相关。当模型的能力提升的.

2021-05-23 23:06:23 398

原创 Day 10: Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNe

这是牛津发的一篇非常短小的报告，发布日期大约在2021年5月6日前后，很新。文章大意是在Transformer结构中，也许起到主要作用的并不是 attention，而是其它的东西，比如（也很可能是）由于图片块嵌入时引入的 inducive bias，以及仔细挑选处理过的训练增强（augmentation）。本文内容不多，就目前看来，证据好像并不是非常充分。虽然在ViT-Base上把attention替换成MLP后，效果下降得不多，也许能部分说明 attention 并不是 Transformer 表现好的

2021-05-22 22:23:55 478 3

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ViT)

之前已经了解过一些ViT的东西了，加上这篇文章之前也看过，所以做个粗略的介绍，毕竟在目前很多基于它改的模型上，都基本都有比较详细和精准的介绍。方法和途径将原始图片：x∈RH×W×C\mathbf{x} \in \mathbb{R}^{H \times W \times C}x∈RH×W×C 拆成一串二维的图片块：xp∈RN×(P2⋅C)\mathbf{x}_{p} \in \mathbb{R}^{N \times\left(P^{2} \cdot C\right)}xp∈RN×(P2⋅C)，其中

2021-05-19 11:37:36 160 1

原创 Day 8: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

本篇文章是依图和新加坡国立联合推出的论文，好像1月份左右就已经出来了，但不知道为什么一直没有掀起比较热烈的讨论。难道因为最近Transformer东西太多，大家已经关注不过来了？CVer说可能是没有足够的在下游任务上的实验数据，因此不太好review，不过看完看，感觉还是挺不错的，先hightlight一下几个要点。提出 Tokens-to-token结构（从前后两个token的单复数形式变化也能看出点端倪），通过将聚在一起的一群token聚合成一个token，来反复渐进地将图片重构成token，这样.

2021-05-18 11:49:51 426

原创 Day 7: RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition

要点总结全连接层在对长距离依赖性和位置进行建模时，比卷积的效果更好，且更有效，但在局部信息的获取上比卷积更差，因此之前全连接层不太被用在图片识别上。本文提出了一种“参数重置”的方法，将局部的先验信息加进了全连接层，使它足够强大到可以运用到图像识别中。具体点就是，在训练过程中，在RemMLP内加入卷积层，但在推断时，将它融合到全连接层中去。结果表明，当将全连接层的全局表征能力、位置感知能力，和卷积的局部先验结合起来后，能提高在具有平移不变性（比如语义分割）的任务和有着排列好的图像及位置模式（如面部识

2021-05-14 08:56:53 652

原创 Day 6: ResMLP: Feedforward networks for image classification with data-efficient training

Facebook 最新出的论文，也是关于 Multi-Layer Perceptron (MLP) 的，能看出来是在看到最近MLP大火后，赶工出来占坑的，因为有不少拼写错误之类的，但无伤大雅，咱们接着来看。总结这篇文章很大程度上受ViT的启发，但只能说总体上参考了ViT，但和它的确有非常大的不同。这是个简单的残差网络，它在一个线性层和一个两层前向传递层之间来回切换。（alternates (i) a linear layer in which image patches interact, inde

2021-05-12 09:22:56 815

原创 Day 5: Deconvolution and Checkerboard Artifacts

今天在看关于反卷积（deconvolution）的时候，发现里面提到了这篇 paper ，遂找来一看，希望以后在使用deconvolution的时候，能够有些可以改进的地方。看的这篇知乎中讲到，反卷积会造成棋盘格伪影，而接下来要讲的这篇文章对此现象进行了分析。文章地址：https://distill.pub/2016/deconv-checkerboard/ 今天看了些其它的东西，没来得及看新论文，因此尚未完工，明天继续Core Ideas and Contribution在很多网络中，最后

2021-05-11 11:08:08 206

原创 Day 4: Squeeze-and-Excitation Networks

本来昨天应该再更一篇，但实在没来得及，就把之前的 Day 3 Two 当成是昨天的吧，今天继续正式的Day 4，讲解之前已经用过的结构，也是非常有名的 SE-Net，Squeeze and Excitation Network.总结SE block 的提出，对feature map不同channel之间的相关性进行了单独地建模，以提高模型的表征能力感觉作者还是在暂时没有理论基础的情况下，试一些新的想法，果然视觉这一块更多的时候还是实验科学，炼丹炉的命运还在继续；不过，科学里不是还有实验物理嘛，实验总

2021-05-10 11:49:56 71

原创 Day 3 second: Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

总结self-attention 的计算复杂度会呈二次方增长，因此实用性不大本文基于两个外部的、小尺寸的、可学习的，且共享的存储，提出 external attention，可以方便地在现有的流行模型中，替换掉self-attention结构。external attention 有线性的计算复杂度，同时它考虑到了所有样本之间的相关性Core Ideas and Contribution首先，通过计算 self query vector 和 external learnable key

2021-05-08 11:32:48 660 3

原创 Day 3: MLP-Mixer: An all-MLP Architecture for Vision

本文是关于最新出来的多层感知机的文章，文章的主要贡献如下作者霸气地说：“尽管卷积和注意力机制目前都取得了足够好的表现，但他们都是没有必要的”，也就是常说的“在座的各位都是XX”。原文：“In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary.”MLP-Mixer主要是基于古老的多层感知机(MLP)

2021-05-08 04:17:18 266

原创 Day 2: Deep High-Resolution Representation Learning for Human Pose Estimation

最近在做 pose estimation 相关的东西，这篇论文之前其实看过，也做了些笔记，不过没有统一整理。今天没太多时间，所以先把一些重要的东西写下来，记在这。这篇文章的主要贡献有：以往的 pose estimation 模型，都是有个从高精到低精，再从低精到高精的过程，而且整个过程中是串行的，因此会损失一定的 spatial information，本文提出的 HRnet，采用了并行模式，在整个过程中都保留了高精的特征图。此外，本模型采用了 multi scale fusion，把前一个st.

2021-05-07 11:26:21 106

原创 Day 1: Swin Transformer: Hierarchical Vision Transformer using Shifted Window

Core Ideas and ContributionProposed a shifted windowing scheme, brought greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection.It achieved linear computational complexit

2021-05-06 11:47:52 343

原创百日论文挑战

百日论文挑战第一篇博文，还不知道写什么，也还并不清楚如何使用“简书”的各项功能，所以暂且随便写点东西，日后可以修改。想做一个百日论文挑战，每天至少读一篇论文，把这篇论文的大概内容写下来，并整理归类。希望坚持到下学期开学，当然，开学后应该也有时间继续。所以，先来个100天吧！...

2021-05-06 11:32:17 49

ttppss的博客