FightingCV-CSDN博客

原创【CV知识点汇总与解析】| 参数初始化篇

初始化参数指的是在网络模型训练之前，对各个节点的权重和偏置进行初始化赋值的过程。在深度学习中，神经网络的权重初始化方法（weight initialization）对模型的收敛速度和性能有着至关重要的影响。模型的训练，简而言之，就是对权重参数W的不停迭代更新，以期达到更好的性能。而随着网络深度（层数）的增加，训练中极易出现梯度消失或者梯度爆炸等问题。

2022-10-20 12:44:19 1546 1

原创 See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

基于文本的人员检索是基于文本描述来查找查询对象。关键是要学会在视觉-文本模态之间建立一种共同的潜在空间映射。为了实现这一目标，现有的工作利用分割来获得明确的跨模态对齐或利用注意力来探索显著的对齐。这些方法有两个缺点:1)。2)**注意力方法可以探索显著的跨模态对齐，但可能会忽略一些微妙和有价值的对。**为了解决这些问题，作者提出了一个隐式视觉-文本(IVT)框架，用于基于文本的人员检索。与以往的模型不同，IVT利用单一网络来学习两种模态的表示，这有助于视觉-文本的交互。。

2022-10-19 09:06:54 638

原创 CVPR2022 | ZeroCap：零样本图像到文本生成的视觉语义算法

语言模型和视觉语义匹配模型之间的结合是一个强大的结合，有可能提供零样本字幕，将现实世界文本中的可变性结合在一起，不受类别限制的识别能力，以及通过网络规模的数据集嵌入模型的现实世界知识。作者提出了一个零样本的方法来结合两个模型，它不涉及对模型的权重进行优化。相反，作者为所有层和注意头修改由语言模型生成的标记的键值对，直到每个推断步骤。

2022-10-13 17:23:53 1833

原创【CV知识点汇总与解析】| 正则化篇

为了更好的描述欠拟合和过拟合，先借用一下吴恩达课程中的一张图来描述一下。对于一个简单的数据集（x，y），x代表特征，y代表结果。我们可以看到这个函数不能很好的拟合所有的点，也称这个模型欠拟合。

2022-10-11 10:45:06 986

原创【CV知识点汇总与解析】| optimizer和学习率篇

本系列文章适合Python已经入门、有一定的编程基础的学生或人士，以及人工智能、算法、机器学习求职的学生或人士。系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习，帮助求职者全面了解算法知识点。

2022-10-10 10:36:33 953

原创读博士或者拿到博士学位以后经历和感受是怎样的？

我相信以上三点经验，不仅适用于博士阶段。而且还会延伸到我未来的职业生涯之中，受用终生。

2022-10-09 10:42:10 1274

原创读博那些事儿

在圡博里我算是比较成功的了 (CCF 优博和 ACM China 优博提名，两项都是 Top 5)，写这篇文章一方面防止我忘记读博时期很多有趣的经历，另一方面也许能给还在泥潭中挣扎的同道中人一些启发。先交待一下为什么要读博。其实就是觉得想再浪几年做点什么有意义的事情 (真实原因是自己很懒没有考 G/T)，而且 Top 2 也不在南京，没办法就在南大读吧。做这个决定的时候完全不知道在国内读博意味着什么，就随便找了个据说很牛逼的组把自己给卖了。那个时候人工智能已经很热了，为什么没选呢？

2022-10-07 12:31:59 590

原创【CV知识点汇总与解析】|激活函数篇

本系列文章适合Python已经入门、有一定的编程基础的学生或人士，以及人工智能、算法、机器学习求职的学生或人士。系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习，帮助求职者全面了解算法知识点。在神经网络中，一个节点的激活函数(Activation Function)定义了该节点在给定的输入变量或输入集合下的输出。wiki中以计算机芯片电路为例，标准的计算机芯片电路可以看作是根据输入得到开（1）或关（0）输出的数字电路激活函数。激活函数主要用于提升神经网络解决非线性

2022-10-06 10:46:01 187

原创【CV知识点汇总与解析】|损失函数篇

本系列文章适合Python已经入门、有一定的编程基础的学生或人士，以及人工智能、算法、机器学习求职的学生或人士。系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。相信能够帮助初学者快速入门深度学习，帮助求职者全面了解算法知识点。L0−1(f,y)=1fy≤0L_{0-1}(f, y)=1_{f y \leq 0}L0−1(f,y)=1fy≤00-1损失函数可以直观的刻画分类的错误率，但是因为其非凸，非光滑的特点，使得算法很难对其进行直接优化Lhinge (f,y)=max⁡{0,1−fy}

2022-10-05 16:46:55 1145

原创经典回顾 | 一种跨模态多媒体检索的新方法

最近闲来无事，为大家整理了深度学习、多模态、计算机视觉相关的必读论文和视频教程，已开源到Github上，欢迎大家使用：https://github.com/xmu-xiaoma666/FightingCV-Course。项目会长期保持更新，也欢迎大家联系笔者，加入更多教程，促进大家学习。项目在线笔记见：https://www.wolai.com/2ZvDcyvLF2FrHjnujeJzmK，更新会更加及时。多媒体文档的文本和图像组件的联合建模问题被广泛研究。文本组件表示为来自隐藏主题模型的样本，通过潜在 D

2022-10-03 21:32:30 1179

原创训练好的深度学习模型是怎么部署的？

为了保证框架的可扩展性，MDL对 layer 层进行了抽象，方便框架使用者根据模型的需要，自定义实现特定类型的层，使用 MDL 通过添加不同类型的层实现对更多网络模型的支持，而不需要改动其他位置的代码。一般来说，参数修剪和共享，低秩分解和知识蒸馏方法可以用于全连接层和卷积层的CNN，但另一方面，使用转移/紧凑型卷积核的方法仅支持卷积层。对机器学习模型的训练是一项很重的工作，Core ML 所扮演的角色更多的是将已经训练好的模型转换为 iOS 可以理解的形式，并且将新的数据“喂给”模型，获取输出。

2022-10-02 20:57:40 2197

原创 2022神经渲染的进展综述

EuroGraphics‘2022 综述论文“Advances in Neural Rendering“，2022年3月，作者来自MPI、谷歌研究、ETH、MIT、Reality Labs Research、慕尼黑工大和斯坦福大学。合成照片级逼真的图像和视频是计算机图形学的核心，也是几十年来研究的焦点。传统上，场景的合成图像是使用渲染算法（如光栅化或光线跟踪）生成的，这些算法将特别定义的几何和材质属性表示作为输入。总的来说，这些输入定义了实际场景和渲染的内容，称为（场景由一个或多个目标组成）。

2022-10-02 09:55:11 2974

原创科研有很水的idea应该发表出来吗？

就是只能发EI，水会，OA SCI期刊那种，自己看到都觉得很垃圾的idea，有发表的价值吗？

2022-10-01 08:39:50 527

原创大一统视角理解扩散模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WAeuKdhq-1664529849758)(https://pic4.zhimg.com/80/v2-f5155c5dbc0df78c3eeba32b3d4cfe17_1440w.jpg)]该优化目标可以通过随机采样实现。

2022-09-30 17:24:22 847

原创 2022 阿里全球数学竞赛获奖名单公布，其中 00 后选手占了一半多，如何评价这一现象？

本届比赛共吸引55000余人报名，其中00后占比超4成，而在获奖的77人中，00后更是拿走了一半的奖项。“00后”作为新时代科研新势力，正在慢慢崛起；在数学领域，他们正逐步搭建起属于他们这个时代的“黄金一代”。对于这个现象，你有什么看法？作者：Dylaaan印象中，在今年早些时候，在学校的数学楼一楼看到了的海报。可惜的是那段时间正在焦虑地准备升学，连初赛都没有参加（当然，如果是我自己参加的话，也是竞争不过现在获奖的大佬们的）。

2022-09-29 11:35:30 3067

原创还能这么玩？将Prompt Tuning用于细粒度的图像检索！

在本文中，作者提出了细粒度的检索提示调整 (FRPT)，旨在解决由整个FGOR模型的优化引起的次优解的收敛。FRPT设计结构扰动提示 (SPP) 和类别特定感知头 (CAH)，以引导冻结的预训练视觉模型执行非特别的检索任务。从技术上讲，SPP缩放并夸大了一些有助于类别预测的像素，这有助于这种结构扰动促使冻结的预训练模型专注于歧视性细节。CAH通过使用实例归一化消除物种差异来优化由预训练模型提取的语义特征，这使得优化后的特征对同一元类别内的粒度对象敏感。

2022-09-29 08:46:10 605

原创 MM2022 | 在特征空间中的多模态数据增强方法

本文介绍了一种工作在特征空间的多模态数据增强技术。通过这种方式，可以利用几个优势，包括处理从基于CNN的主干的更深层提取的高级概念的可能性，以及更容易的适用性，因为原始视频不需要共享，避免版权和隐私问题。为了验证本文的解决方案，作者在大规模公共数据集EPIC-Kitchens-100上进行了多次实验，并在YouCook2上进行了比较。作者在三种不同的方法上测试了本文的技术，包括最近在EPIC-Kitchens-100上使用的最先进的方法，并取得了进一步的改进。

2022-09-28 07:36:14 1572

原创微软亚洲研究院 (MSRA) 的实习体验如何？

因为是在美国申请的，所以对此不是很了解。在国内MSRA的实习难进吗？听朋友说在那的基本都是研究生，本科的也都是清华姚班大牛。我也是本科生，感觉自己实力远不及那些大神，这样的话实习会不会很痛苦。。任何和MSRA实习相关的回答都欢迎，多谢！

2022-09-27 09:06:15 1099

原创 MM2022 | 用StyleGAN进行数据增强，真的太好用了

本文提出了一种新的配对跨模态数据增强框架，该框架可以生成无限量的配对数据来训练跨模式检索模型。具体来说，作者使用随机文本替换策略来生成增强文本。为了从增强文本中生成相应的增强图像，首先采用StyleGAN2模型生成高质量和多样性的图像。然后，提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距，该模块将文本特征映射到StyleGAN2的潜在空间W。作者使用StyleGAN2的学习对齐模块的输出来生成增强图像，从而获得增强文本-图像对。

2022-09-27 08:55:57 1401

原创博士真的很难熬吗?

来源：https://www.zhihu.com/question/438143434博士远比硕士难，硕士到时间就得走，不走学校赶你走。博士就不一样了，没有固定的毕业时间概念，影响因素也多。学校的要求、老师的要求、自己的能力，都能成为延迟毕业的理由。当然，博士的毕业要求也远高于硕士，绝大部分人都不可能轻易的达到。发不出论文是一个博士最难的时候，焦虑、崩溃、失眠、抑郁，都有可能。治疗博士抑郁的良药，不是药品，而是论文。有了论文，每天都是元气满满，走在路上都感觉一拳可以把街边的墙击穿。

2022-09-26 12:19:08 2454 1

原创 CBMI 2022 | 蒸馏细粒度对齐分数以实现高效的图文匹配和检索

本文提出了一种高效的视觉-文本跨模态检索体系结构。具体来说，作者提出了使用最先进的VL Transformer作为主干，通过独立forward视觉和文本管道来了解对齐分数。然后，使用对齐头产生的分数来学习视觉-文本公共空间，该公共空间可以容易地产生可索引的定长特征。具体地说，使用学习排序蒸馏目标来解决这个问题，该目标实验性地证明了它比hinge-based triplet ranking loss优化公共空间的有效性。在MS-COCO上进行的实验证实了该方法的有效性。

2022-09-26 11:49:34 775

原创一文网尽CV/Robotics顶会论文常用高级词汇/句式！

初入学术圈的小伙伴在写论文时一定有过一个烦恼：看大佬们的论文写的行云流水、文笔华丽，顿时激情澎湃，到了自己下笔却总是词不达意、句式散乱，翻来覆去就是那么几个重复的词，仿佛飞哥（我是小飞哥，不要搞混）附身.其实我在去年刚开始读博时也有这个困扰，写文章曾经自闭到抓耳挠腮、撸秃秀发。后来我发现，，效果非常好：读博前我一二作最好也就是投个workshop, ICPR这种水会，后来用了这种方式后写论文忽然得心应手，一路连中ITSC、IOTJ、ICRA、ECCV这些质量较高的会议和期刊。

2022-09-24 08:15:03 889

原创如何看待NeurIPS2022审稿结果？

当然这只是个人品味，可能只适合于最相关的小同行审稿人，因为他们清楚在这个重量级中内卷的激烈程度，而若是大同行审稿人可能就比较吃撑面板这一套(俗称SOTA大PK，同test设置，跨重量级，使用小trick的表格)。马能载人，你的新马应与众多优秀的马PK载人的能力，而你拓展到拉货领域，却与人比较拉货的能力，证明你的新马比人更能拉货。这么说吧，你可以看成4分就是期刊的小修，而3分就是大修。，不管你方法是易是难，只要你的切入点是以往没见过的，并且切实有效，能(险)胜于几个最相关方法，有助于社区应用就novel。

2022-09-23 09:48:37 593

原创 NeurIPS 2022 | Unified SSL Benchmark：首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准

半监督学习通过利用大量无标签数据来训练更精确、更鲁棒的模型，在未来有着重要的研究和应用价值。研究员们期待通过USB这一工作，能够予力学术界和工业界在半监督学习领域取得更大的进展。

2022-09-23 09:27:24 630

原创熬夜玩羊了个羊之后，对于要不要读博这件事，我终于悟了！

来源：https://mp.weixin.qq.com/s/-2A-StkVWy4djK43CUZEQg近期，一款名叫羊了个羊的小游戏刷爆热搜和朋友圈。不少朋友不服输地重复挑战，连清华博士都在狂玩一百关之后说，人还是要认清现实，放自己一马吧。清醒过来的网友开始分析游戏背后的套路：开发者有意控制了通关人数，让其保持在极低的概率。所以只有少数玩家有机会成功，而他们就作为游戏中的领头羊，放在那告诉后来者，游戏是可以通关的。于是越来越多人入局，“羊群效应”的陷阱就制造出来了。

2022-09-22 08:41:40 220

原创那些硕士或博士期间科研灌水，狂发论文的人后来混怎么样了？

硕士期间发表一作论文10篇以上（导师一学生二也可），核心期刊也算，博士期间发表一作sci10篇以上（导师一学生二也可），4区的sci也算。

2022-09-22 08:34:06 1313

原创经典回顾 | 检索任务的经典工作VSE++

本文的重点是学习用于跨模态、图像标题检索的视觉语义嵌入。受结构化预测的启发，作者提出了一种新的损失，该损失基于与使用预期错误的当前方法相比相对较难的负样本所导致的violation。作者在 MS-COCO 和 Flickr30K 数据集上进行了实验，并表明提出的损失显着提高了这些数据集的性能。

2022-09-22 08:15:37 359

原创 NeurIPS2022 | SegNeXt，重新思考卷积注意力设计

在本文中，作者分析了以前成功的分割模型，并找到了它们所拥有的良好特征。基于这些发现，作者提出了一个定制的卷积注意力模块 MSCA 和一个 CNN 风格的网络 SegNeXt。实验结果表明，SegNeXt 在相当大的程度上超越了当前最先进的基于Transformer的方法。最近，基于Transformer的模型已经主导了各种细分排行榜。相反，本文表明，在使用适当的设计时，基于 CNN 的方法仍然可以比基于Transformer的方法表现更好。

2022-09-22 00:45:00 6733

原创大佬是如何从头写一篇顶级论文的？

回顾这篇文章的创作历程，从起点来看，基本功一定是前提。而另一个重要的前提是自己心中一直念念不忘调参这个痛点问题，正是久旱，所以读到合适的文章才能逢甘露；至于过程，核心在于将观察数学化理论化的习惯，反倒在这个工作中代码实现能力不是最重要的，我会再写一篇专栏着重讲讲另一个硬核代码工作；最后的收敛性分析，也是靠合作者和自己的不将就，所幸好饭不怕晚，继续前进！P.S. 我的paper没有公布代码因为别人的codebase写了几万行我就改一行实在没有发布的必要比如Facebook的DP代码库Opacus(

2022-09-21 12:05:27 354

原创 BEVFormer治好了我的精神内耗

最简单的方式就是单一的处理每一个视角的信息，最后再进行后处理融合，但是这样就会使得这几个相机彼此没有参与其中，信息没有办法有效的交互，而且整体显得很笨拙也不美观。受特斯拉的启发，我们发现了可以使用来建模多视角摄像头的输入到BEV的输出这么一种映射关系。又因为我们的多视角摄像头是没有办法采集到深度信息的，所以BEV方法和LiDAR方法的GAP就在这里了，所以我们应该怎么去解决这个问题？1、利用深度估计将信息处理成伪点云2、根据预测的heatmap回归位置信息。

2022-09-20 09:07:43 986 1

原创 TIP | 自动化所谭铁牛院士团队提出用带注意力机制的图神经网络GARN，多个数据集上SOTA！

在本文中，作者提出了一种图注意关系网络来学习对齐的图像-文本表示，以进行身份感知的图像-文本匹配。本文的主要贡献是通过建模名词短语之间的关系来改进文本表示和学习图像和文本之间的语义对齐。这些分别通过跳过图神经网络和图注意网络来完成。在匹配过程中，全局匹配和局部匹配都被用来学习更多的判别表示。作者在对四个身份感知数据集进行了广泛的实验，实验结果表明，本文的方法比最先进的方法取得了更好的性能，这验证了本文的 GARN 在身份感知图像文本匹配中的有效性。

2022-09-20 09:05:25 386

原创一网打尽：14种预训练语言模型大汇总

本文介绍了预训练语言模型的发展历程，包括EMLo、BERT、GPT等经典模型，也包括在此基础上的一些改进创新。预训练语言模型对于NLP来说非常重要，未来的研究趋势也在让下游任务更加去适配预训练模型，以此来最大程度发挥预训练模型的能力。

2022-09-19 09:36:02 543

原创【面向小白】深究模型大小和推理速度的关系！

当年头一次实习做算法的时候，主管给的第一个任务就是“把一个大的分割模型砍成一个小的”。当时并不理解模型“大”、“小”的真正含义，就简单的选取计算量作为评价指标，疯狂砍计算量（backbone 换 MobileNet/ShuffleNet、Conv 换成 DepthWise Conv、以及一些奇奇怪怪的融合结构等等），把模型计算量砍了将近 10 倍，结果一部署发现速度并没有快多少，反而是把最初的 ResNet 简单砍掉几个 block 效果更好。

2022-09-18 10:25:49 1611 1

原创保研后，你们都怎么样了？

是不是很心动？那就来看看到底怎么才能利用好保研之后的这段宝贵时光！

2022-09-17 09:03:48 441

原创从我开发的深度学习框架看深度学习这几年

深度学习算法的发展和深度学习框架的发展是相辅相成，互相促进的。从2002年时Torch论文发表后，框架的技术发展相对缓慢，性能无法显著提升导致无法探索更加复杂的算法模型，或者利用更加大规模的数据集。在2010年后逐渐出现了Caffe, Theano等框架，通过将更高性能的GPU引入，可以训练更加复杂的CNN和RNN模型，深度学习算法的发展出现来显著的加速。到了2014~2017年几年间，TensorFlow的出现让用户可以通过简单的Python语言将细粒度的算子组装各种模型结构。

2022-09-17 08:47:44 311

原创深度学习pytorch训练代码模板(个人习惯)

来源：https://zhuanlan.zhihu.com/p/396666255从参数定义，到网络模型定义，再到训练步骤，验证步骤，测试步骤，总结了一套较为直观的模板。目录如下：导入包以及设置随机种子以类的方式定义超参数定义自己的模型定义早停类(此步骤可以省略)定义自己的数据集Dataset,DataLoader实例化模型，设置loss，优化器等开始训练以及调整lr绘图预测一、导入包以及设置随机种子二、以类的方式定义超参数四、定义早停类(此步骤可以省略)五、定义自己的数据集Dat

2022-09-16 09:00:48 4749 4

原创【免费送书】机器学习和数据分析的关系是怎么样的，要学习的话哪者为先？

比如公司领导想知道每周的销售情况，这种就是简单问题。简单问题可以用数据分析来处理，通过分析数据来分析出有用的信息。最简单的，你用excel分析一家淘宝店铺的销售数据，每周公司会让你出一份周报一份发现了最近几个月销量下降，然后根据分析产生销量下降的原因是什么，找到原因后制定对应的策略来提高销量。我们来看一个真实的案例。全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢，有一天，他们的数据分析团队发现房源照片的精美程度，跟房源的预定人数成很大的正相关。

2022-09-16 08:59:44 189

原创天才少年稚晖君 | 【保姆级教程】个人深度学习工作站配置指南

工作原因一直想配置一台自己的深度学习工作站服务器，之前自己看完paper想做一些实验或者复现模型的时候只能用自己的日常PC来跑很麻烦…一方面电脑得装双系统，干活的时候就不能用作其他用途了；另一方面，即使是没有使用流程的问题，GTX1080的性能也还是弱了一些，更何况我用的是一个A4迷你机箱，长时间高负载的训练任务也不太可靠。

2022-09-15 14:48:09 1789

原创 ECCV2022|时尚领域的多模态预训练预训练模型FashionViL，在五个下游任务中SOTA！

作者提出了 FashionViL，这是一种新颖的端到端大规模预训练框架，用于时尚领域的 V+L 表示学习。作者还提出了两个有效的特定于时尚的预训练任务，并引入了一种新颖的与模态无关的文本/融合编码器，用于灵活且通用的多模态架构。本文的 FashionViL 在 5 个流行的时尚相关任务上以卓越的效率实现了新的 SOTA 性能。

2022-09-15 14:19:29 761

原创为什么面对读博大家都那么悲观？

最近也在十字路口犹豫。看着网上的问答里对博士生活和未来发展的描述感到了一些焦虑。

2022-09-14 22:47:39 334

faster-rcnn-pytorch-V1.0

空空如也