自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 PyCharm在使用ssh-key免密码登陆跳板机及服务器后的设置

折腾了两三天,本来想偷个懒,设置个免密登陆跳板机和服务器,直接一键ssh的,结果发现PyCharm死活无法设置好,代码无法同步。查询几天后,终于找到了解决办法,其中一个比较有用的两个链接如下:https://zhuanlan.zhihu.com/p/53792195https://blog.csdn.net/github_28260175/article/details/100012157我也把我的整个过程记录如下:本地机器及跳板机设置第1步位置:本地机器;目标:生成公钥、私钥。$ ssh.

2021-10-02 02:06:43 3223 5

原创 揭秘 local vision transformer 到底好在哪 by 南开、北大、微软亚研

Demystifying Local Vision Transformer: SparseConnectivity, Weight Sharing, and Dynamic Weight摘要简介理解局部注意力稀疏连接,权重共享,及动态权重局部注意力的性质与 depth-weise convolution 的关系Relation Graph其它Connectivity, Weight Sharing, and Dynamic Weight)本文并非是技术性非常强的文章,没有“直接”利用的价值。但是在

2021-07-03 23:28:01 1700 3

原创 字节跳动提出让所有 token 都参与 loss,提高 transformer 的表现

19 All Tokens Matter: Token Labeling for Training Better Vision TransformersScore /5: ⭐️⭐️⭐️⭐️论文地址:本想偷个懒,看看有没有人写这篇文章的阅读笔记,结果没找到,只能亲自写了。字节跳动的文章,目的是提高准确率,采用的方法主要是将图片 embedding 后,让所有的 token 都参与最后 loss 的计算,而不是只用 classification token。其中还借鉴了一些 CutMix 之

2021-07-02 02:23:35 1398

原创 清华提出 DynamicViT,几乎不降低模型性能的情况下,较大地减少计算量和参数量

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification摘要简介Dynamic Vision Transformers简介预测头的分层 token 稀疏化注意力掩码的端到端优化训练及推断感觉其他人总结得不好,不详细,就是翻译了一下,因此自己仔细看了一遍并写了以下的总结。最后一部分的老师模型(teacher’s model)没有详细看,因为目前还没太看过蒸馏这一块,以后看了可以补齐。文章目的:在几乎没有降低

2021-06-27 05:54:13 1558 1

原创 Day 14: 无需预训练或者过多的数据增强技巧,谷歌提出新方法,超越 ResNet 的表现

文章标题:When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations最近其实也一直在看 paper,不过感觉都并不是特别好写,或者说目前我的主要任务还不在精读每一篇文章,因为其实如果要读透的话,还是需要一点点看代码的。因此这一篇也是个大概性的总结吧,因为文章提到的东西虽然很可能能用,但是如果要用到自己的东西上,需要再看另外一篇 paper,因为本文是基于那一篇上面写的,干货并不.

2021-06-13 08:48:48 474

原创 Day 14: Not All Images are Worth 16 x 16 Words: Dynamic Visition Transformer 动态视觉 Transformer

这篇是华为和清华共同发表的文章,果然清华出品,还是比较硬核!看完第一遍并没有特别了解,也许需要结合代码再看一遍。总体上来说,也是为了在不影响效果的情况下,降低计算复杂度。要点总结之前的 Transformer 结构计算量都很大,因此需要找方法降低它的计算复杂度。并非所有的图片都需要被分割成特别多的 token 来参与计算,有的图片相对简单,只需要拆成4×44 \times 44×4的 token,就能有很好的准确率,因此提出了动态视觉 Transformer 的模型。模型的目的是自动地根据每张图片来调

2021-06-05 12:18:06 727 3

原创 Day 12: Twin Transformer by 美团

这是美团和澳大利亚阿德莱德大学联合发表的新文章,也是和 Transformer 相关的,以下是一些要点。Swin Transformer 的 Shifted Windows 虽然有效,但是由于尺寸不同,因此在用现有的深度学习模型来实现的时候会有一定的困难,因为大部分框架都希望输入的尺寸是相同的。另一种方案是 PVT 中提出来的。在普通的自注意力模块中,每个 query 都需要和所有的输入 token 计算注意力,但 PVT 中,每个 query 只需要和一些取样出来的输入 token 计算注意力。虽然

2021-05-25 22:28:48 1215

原创 Day 11: 谷歌大脑新作:Pay Attention to MLPs

谷歌大脑的新作,还是和MLP相关,文章仍然是质疑 self-attention 在 Transformer 中的重要性,以及是否可以被取代。提出一种基于MLP的,无注意力机制的,由通道映射、空间映射和门控制组成的结构,来替代 Transformer。新结构的实验得到了很好的效果,在ImageNet上,gMLP达到了和DeiT接近的效果。和MLP-Mixer相比,它的参数量减少了66%,且准确率还有3%的提升。实验中表明,模型的复杂度只与模型的能力有关,而与是否有注意力模块不太相关。当模型的能力提升的.

2021-05-23 23:06:23 398

原创 Day 10: Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNe

这是牛津发的一篇非常短小的报告,发布日期大约在2021年5月6日前后,很新。文章大意是在Transformer结构中,也许起到主要作用的并不是 attention,而是其它的东西,比如(也很可能是)由于图片块嵌入时引入的 inducive bias,以及仔细挑选处理过的训练增强(augmentation)。本文内容不多,就目前看来,证据好像并不是非常充分。虽然在ViT-Base上把attention替换成MLP后,效果下降得不多,也许能部分说明 attention 并不是 Transformer 表现好的

2021-05-22 22:23:55 478 3

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ViT)

之前已经了解过一些ViT的东西了,加上这篇文章之前也看过,所以做个粗略的介绍,毕竟在目前很多基于它改的模型上,都基本都有比较详细和精准的介绍。方法和途径将原始图片:x∈RH×W×C\mathbf{x} \in \mathbb{R}^{H \times W \times C}x∈RH×W×C 拆成一串二维的图片块:xp∈RN×(P2⋅C)\mathbf{x}_{p} \in \mathbb{R}^{N \times\left(P^{2} \cdot C\right)}xp​∈RN×(P2⋅C),其中

2021-05-19 11:37:36 160 1

原创 Day 8: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

本篇文章是依图和新加坡国立联合推出的论文,好像1月份左右就已经出来了,但不知道为什么一直没有掀起比较热烈的讨论。难道因为最近Transformer东西太多,大家已经关注不过来了?CVer说可能是没有足够的在下游任务上的实验数据,因此不太好review,不过看完看,感觉还是挺不错的,先hightlight一下几个要点。提出 Tokens-to-token结构(从前后两个token的单复数形式变化也能看出点端倪),通过将聚在一起的一群token聚合成一个token,来反复渐进地将图片重构成token,这样.

2021-05-18 11:49:51 426

原创 Day 7: RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition

要点总结全连接层在对长距离依赖性和位置进行建模时,比卷积的效果更好,且更有效,但在局部信息的获取上比卷积更差,因此之前全连接层不太被用在图片识别上。本文提出了一种“参数重置”的方法,将局部的先验信息加进了全连接层,使它足够强大到可以运用到图像识别中。具体点就是,在训练过程中,在RemMLP内加入卷积层,但在推断时,将它融合到全连接层中去。结果表明,当将全连接层的全局表征能力、位置感知能力,和卷积的局部先验结合起来后,能提高在具有平移不变性(比如语义分割)的任务和有着排列好的图像及位置模式(如面部识

2021-05-14 08:56:53 652

原创 Day 6: ResMLP: Feedforward networks for image classification with data-efficient training

Facebook 最新出的论文,也是关于 Multi-Layer Perceptron (MLP) 的,能看出来是在看到最近MLP大火后,赶工出来占坑的,因为有不少拼写错误之类的,但无伤大雅,咱们接着来看。总结这篇文章很大程度上受ViT的启发,但只能说总体上参考了ViT,但和它的确有非常大的不同。这是个简单的残差网络,它在一个线性层和一个两层前向传递层之间来回切换。(alternates (i) a linear layer in which image patches interact, inde

2021-05-12 09:22:56 815

原创 Day 5: Deconvolution and Checkerboard Artifacts

今天在看关于反卷积(deconvolution)的时候,发现里面提到了这篇 paper ,遂找来一看,希望以后在使用deconvolution的时候,能够有些可以改进的地方。看的这篇知乎中讲到,反卷积会造成棋盘格伪影,而接下来要讲的这篇文章对此现象进行了分析。文章地址:https://distill.pub/2016/deconv-checkerboard/ 今天看了些其它的东西,没来得及看新论文,因此尚未完工,明天继续Core Ideas and Contribution在很多网络中,最后

2021-05-11 11:08:08 206

原创 Day 4: Squeeze-and-Excitation Networks

本来昨天应该再更一篇,但实在没来得及,就把之前的 Day 3 Two 当成是昨天的吧,今天继续正式的Day 4,讲解之前已经用过的结构,也是非常有名的 SE-Net,Squeeze and Excitation Network.总结SE block 的提出,对feature map不同channel之间的相关性进行了单独地建模,以提高模型的表征能力感觉作者还是在暂时没有理论基础的情况下,试一些新的想法,果然视觉这一块更多的时候还是实验科学,炼丹炉的命运还在继续;不过,科学里不是还有实验物理嘛,实验总

2021-05-10 11:49:56 71

原创 Day 3 second: Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

总结self-attention 的计算复杂度会呈二次方增长,因此实用性不大本文基于两个外部的、小尺寸的、可学习的,且共享的存储,提出 external attention,可以方便地在现有的流行模型中,替换掉self-attention结构。external attention 有线性的计算复杂度,同时它考虑到了 所有样本 之间的相关性Core Ideas and Contribution首先,通过计算 self query vector 和 external learnable key

2021-05-08 11:32:48 660 3

原创 Day 3: MLP-Mixer: An all-MLP Architecture for Vision

本文是关于最新出来的多层感知机的文章,文章的主要贡献如下作者霸气地说:“尽管卷积和注意力机制目前都取得了足够好的表现,但他们都是没有必要的”,也就是常说的“在座的各位都是XX”。原文:“In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary.”MLP-Mixer主要是基于古老的多层感知机(MLP)

2021-05-08 04:17:18 266

原创 Day 2: Deep High-Resolution Representation Learning for Human Pose Estimation

最近在做 pose estimation 相关的东西,这篇论文之前其实看过,也做了些笔记,不过没有统一整理。今天没太多时间,所以先把一些重要的东西写下来,记在这。这篇文章的主要贡献有:以往的 pose estimation 模型,都是有个从高精到低精,再从低精到高精的过程,而且整个过程中是串行的,因此会损失一定的 spatial information,本文提出的 HRnet,采用了并行模式,在整个过程中都保留了高精的特征图。此外,本模型采用了 multi scale fusion,把前一个st.

2021-05-07 11:26:21 106

原创 Day 1: Swin Transformer: Hierarchical Vision Transformer using Shifted Window

Core Ideas and ContributionProposed a shifted windowing scheme, brought greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection.It achieved linear computational complexit

2021-05-06 11:47:52 343

原创 百日论文挑战

百日论文挑战第一篇博文,还不知道写什么,也还并不清楚如何使用“简书”的各项功能,所以暂且随便写点东西,日后可以修改。想做一个百日论文挑战,每天至少读一篇论文,把这篇论文的大概内容写下来,并整理归类。希望坚持到下学期开学,当然,开学后应该也有时间继续。所以,先来个100天吧!...

2021-05-06 11:32:17 49

iphone4/4s 维修及拆解技术指南

iphone4和iphone4s维修及拆解指南,官方泄露版

2013-02-17

单片机C语言程序设计实训100例

用C语言编写的单片机的实例,对学习单片机很有帮助

2011-11-13

EDA技术实用教程

关于EDA的一本书,写得挺好,具有参考价值

2011-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除