Nick Blog-CSDN博客

原创 IMAGEBIND: One Embedding Space To Bind Them All论文笔记

Since SUN RGB-D and LLVIP are relatively small, we follow [21] and replicate them 50× for training给定一个 (IiMipair，Li是image，Mi是其他模态的数据：损失函数采用InfoNCE loss：IMLMI。

2023-09-20 19:48:28 504

原创 NExT-GPT: Any-to-Any Multimodal LLM论文笔记

对于特定模态的指令，调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。整个MM-LLM系统中，Encoder、LLM、Diffusion都是现成的开源预训练模型，只有输入端和输出端的Projection模块需要训练，只有1%的参数需要更新。

2023-09-20 15:21:30 1232 3

原创 SegGPT: Segmenting Everything In Context论文笔记

简而言之，就是对于特定任务，你如果认为随便找一张图片和对应的标签不具有代表性，可以将模型参数固定，初始化一个可学习的prompt图片，然后用同样的loss去更新prompt，这样，在推理阶段，可以直接使用这个迭代更新得到的prompt作为提示。在Painter中，每个类别的颜色是事先定义的，这导致模型学习到了任务特定的信息，而不是依据给定的prompt，按照其中的上下文含义进行分割。在推理阶段，可以给定一张图片和对应的标签作为prompt，将要推理的图片和prompt进行拼接。

2023-09-12 21:54:38 614

原创 OneFormer: One Transformer to Rule Universal Image Segmentation论文笔记

将语义分割、实例分割、全景分割统一在同一个模型中的关键挑战在于，怎么为每个任务生成任务特定的object query，那么，该如何让每种任务的object query之间彼此区分呢？是从特定任务的GT中通过统计thing和stuff的数量得到的，所以不同任务的。进行更新（使用2层transformer），最后，将。次，的到初始化后的object query。本文的解决方案是，计算text query。之间是彼此区分的，那么只需要将。个可学习的Embedding和。之间的对比损失，因为。

2023-09-12 15:42:37 658 1

原创 X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

v2tV)pmatch。

2023-09-11 16:45:10 490

原创 mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video论文笔记

为了缓解视频时空建模中序列长度过大导致的学习困难问题，将视频分解为空间和时间表示，如下图所示，利用Transformer的自注意力层和前馈层进行空间建模，并针对视频输入，提出一种新颖的局部时序建模模块。此外，空间和时间信息的解耦，使得双视觉编码器能够实现图像和视频的参数共享，从而更加高效地学习空间和时间表征。在每个通用层中，视觉query和文本特征通过共享参数的自注意力层来对齐语义，然后视觉query通过交叉注意力从原始视觉特征中提取视觉信息，之后视觉query和文本特征通过共享参数的前馈层进行特征变换。

2023-09-11 15:31:55 202

原创 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection论文笔记

visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说，输入是图片（image）和对应的物体描述（sentence\caption\description），输出是描述物体的box。听上去和目标检测非常类似，区别在于输入多了语言信息，在对物体进行定位时，要先对语言模态的输入进行理解，并且和视觉模态的信息进行融合，最后利用得到的特征表示进行定位预测。

2023-08-24 16:39:48 326

原创 Grounded Language-Image Pre-training论文笔记

COCO：目标检测数据集，包含80个常见对象类别；LVIS：目标检测和实例分割数据集，涵盖1203个对象类别；Object365：是一个大规模的目标检测数据集，总共包含63万张图像，覆盖365个类别，高达1000万框数；Microsoft COCO Captions 数据集：该数据集为超过 33 万张图片提供了超过 150 万条人工生成的图片描述。Flickr30k：给定了31783张图像以及158915个文本注释，一张图片对应5个注释，并将它们与 276K 个手动标注的边界框关联起来。

2023-08-24 15:47:19 934

原创 DETRs with Collaborative Hybrid Assignments Training论文笔记

当前的DETR检测器中，为了实现端到端的检测，使用的标签分配策略是二分匹配，使得一个ground-truth只能分配到一个正样本。当然是可以的，在上一步中，辅助的检测头已经分配好了各自的正样本anchor及其匹配的ground-truth。受到这个的启发，为了增强encoder的学习能力，论文首先利用multi-scale adapter，将encoder输出的特征转化为多尺度的特征。在上文的分析中，我们发现传统检测器中的anchor是密集排列的，且能够提供dense且尺度敏感的监督信息。

2023-08-23 18:55:23 1317

原创 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions论文笔记

与传统CNN中广泛使用的瓶颈结构不同，采用了更接近ViTs的基础模块，配备了更先进的组件，包括GELU、层归一化（LN）和前馈网络（FFN），这些都被证明在各种视觉任务中更有效率。尽管DCN V2算子已经缩小了普通卷积算子和MHSA之间的差距，对于大规模的视觉基础模型来说，DCN V2算子仍然不是最优的选择，于是作者从三个方面对DCN V2进行改进，得到了IntenImage的主要算子——DCN V3。第三，堆叠模式固定为“AABA”，即第1、2和4阶段的模块堆叠数是相同的，并且不大于第3阶段。

2023-08-23 16:39:40 142

原创《视觉SLAM十四讲》报错信息和解决方案

如果您无法启用3D加速或安装虚拟机工具，您可以尝试使用软件渲染。这将使用CPU而不是GPU来渲染OpenGL图形，性能可能较差，但可以提供更广泛的GLSL支持。在Ubuntu中，您可以安装Mesa的软件渲染器，例如llvmpipe。安装虚拟机工具：确保您已安装了虚拟机软件提供的增强工具（如VirtualBox Guest Additions、VMware Tools等）。可能的解决方案：在Ubuntu虚拟机中运行OpenGL程序时，可能会遇到一些限制，因为虚拟机可能无法直接访问主机系统的显卡硬件。

2023-08-01 09:55:22 499

原创 ROS2中launch文件编写——基础篇

这些节点具有不同的命名空间或名称，但仍然具有相同的参数。启动文件将调出不同的节点，负责模拟两个turtlesim 模拟、启动 TF 广播器和监听器、加载参数以及启动 RViz 配置。但是，如果启动文件包含大量节点，则为每个节点定义命名空间同样十分低效，也不太方便管理。该启动文件启动turtlesim_node节点，定义模拟器的配置参数并传递给turtlesim_node节点。如果我们需要启动更多的节点，就需要打开非常多的窗口，非常的不优雅。首先，我们将创建一个顶层启动文件，该文件将调用单独的启动文件。

2023-07-20 15:36:34 3153

原创 ROS 中常用的消息msg-服务srv-动作action汇总

【代码】ROS 中常用的消息msg-服务srv-动作action汇总。

2023-07-18 16:59:49 730

原创如何提升小目标检测效果

增大图片分辨率，最简单有效的办法；数据增强构造更多的小目标；如Mosaic在可以拼接四张图到原来一张图的尺寸，每张图上的目标都会被缩小，相当于构造了较多的小目标；设计适合小目标的anchor，提升召回率；在更高分辨率的特征图上进行小目标检测，如FPN；增大小目标的loss，如focal loss；

2023-04-14 17:12:31 310 1

原创 Canny 边缘检测算法-python实现（附代码）

Canny 边缘检测算法由计算机科学家 John F. Canny 于 1986 年提出的。其不仅提供了算法，还带来了一套边缘检测的理论，分阶段的解释如何实现边缘检测。

2023-03-30 14:30:23 5135 3

原创 MVTEC公开数据集

MVTEC为无监督缺陷检测数据集，共包含3466张无标注图，1888张有标注图（像素级分割标注），大小均为700×700或1024×1024；training dataset有3629张，全部为无缺陷图；test dataset有1725张，为有缺陷图片+无缺陷图；图片可划分为5种纹理+10种物体，包含73种缺陷（划痕，凹陷，脏污，形变，缺料等，均为人工制作），总计标注1900个region；

2023-03-29 21:57:40 5083 3

原创 C++学习笔记（以供复习查阅）

C++学习笔记

2023-03-09 18:20:11 991 3

原创 SLAM数学知识回顾

SLAM数学知识回顾

2023-01-31 21:01:41 609

原创 Learning Saliency Propagation for Semi-Supervised Instance Segmentation

Learning Saliency Propagation for Semi-Supervised Instance Segmentation

2023-01-11 12:10:25 522

原创 Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Inseg

Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Instance Segmentation

2023-01-09 11:51:17 229

原创 ContrastMask: Contrastive Learning to Segment Every Thing

ContrastMask: Contrastive Learning to Segment Every Thing

2022-12-27 16:50:10 994

原创 Learning to Segment Every Thing

Learning to Segment Every Thing Ronghang

2022-12-26 16:15:17 696

原创计算机视觉之三维重建——深入浅出SFM系统与SLAM系统的核心算法

计算机视觉之三维重建——深入浅出sfm和SLAM核心算法 (鲁鹏)

2022-10-11 17:16:04 4094

原创计算机视觉之三维重建——第八章：SLAM系统设计《深入浅出sfm和SLAM核心算法 (鲁鹏)》

SLAM系统设计

2022-10-11 17:14:31 1529

原创计算机视觉之三维重建——第七章：运动恢复结构（SFM）系统设计《深入浅出sfm和SLAM核心算法 (鲁鹏)》

运动恢复结构（SFM）系统设计

2022-10-11 11:55:38 1780 2

原创计算机视觉之三维重建——第六章：多视图几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

多视图几何

2022-10-10 17:36:09 2174 1

原创计算机视觉之三维重建——第五章：双目立体视觉《深入浅出sfm和SLAM核心算法 (鲁鹏)》

双目立体视觉

2022-10-09 19:49:42 864 1

原创计算机视觉之三维重建——第四章：三维重建基础与极几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

三维重建基础与极几何

2022-10-09 11:53:41 1757

原创计算机视觉之三维重建——第三章：单视测量《深入浅出sfm和SLAM核心算法 (鲁鹏)》

单视测量

2022-10-08 16:35:56 1122

原创计算机视觉之三维重建——第二章：摄像机标定《深入浅出sfm和SLAM核心算法 (鲁鹏)》

摄像机标定

2022-10-08 15:19:54 1452

原创计算机视觉之三维重建——第一章：摄像机几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

摄像机几何

2022-10-08 15:04:53 2437

原创 AdamW优化器简单理解

AdamW优化器简单理解

2022-06-30 16:31:31 6137

原创 DVC数据集版本控制

DVC数据集版本控制

2022-06-30 16:22:13 684

原创实例分割最全综述（入坑一载半，退坑止于此）

实例分割综述

2022-06-23 20:11:36 6578 17

转载 Maskformer

TitlePer-Pixel Classification is Not All You Need for Semantic SegmentationPaperhttps://arxiv.org/pdf/2107.06278.pdfCodehttps://github.com/facebookresearch/MaskFormer1. Motivation目前语义分割大多被看做是一个像素级别的分类任务，而实例分割确是一个mask级别的分类任务。虽然都是分割任务，但是他们...

2022-05-09 15:23:45 576

原创 mmdetection在bbox head中获取epoch值

最近需要在模型的bbox head中进行一些epoch相关的操作，比如依据epoch数目更改某个模块的层数。本文主要参考了https://github.com/open-mmlab/mmdetection/issues/7425, 将具体做法进行整理。1. 新建set_epoch_info_hook新建mmdetection/mmdet/core/hook/set_epoch_info_hook.py，内容填充如下,并在相应的__Init__.py添加# Copyright (c) OpenMMLab

2022-04-24 17:40:04 4317 2

原创相机标定原理与实战【python-opencv】

文章目录1. 相机标定的目的1.1 相机成像模型1.1.1 坐标系1.1.2 世界坐标系转换到相机坐标系1.1.3 相机坐标系到图像坐标系1.1.4 图像物理坐标系到像素坐标系1.1.5 世界坐标系到像素坐标系1.2 相机畸变1.2.1 径向畸变1.2.2 切向畸变相机标定原理张正友标定法相机标定python实现参考1. 相机标定的目的校正透视畸变：由于每个镜头的在生产和组装过程中的畸变程度各不相同，通过相机标定可以校正这种镜头畸变，获取矫正后的图像；获取相机成像几何模型：相机标定后得到的相机参数可

2022-02-16 10:40:22 6868 1

原创【python】计算点到直线的距离

1. 直线采用两个端点的xy坐标表达import numpy as npdef get_distance_point2line(point, line): """ Args: point: [x0, y0] line: [x1, y1, x2, y2] """ line_point1, line_point2 = np.array(line[0:2]), np.array(line[2:]) vec1 = line_point1

2022-02-15 10:45:08 6734 1

转载 RANSAC算法(附RANSAC直线拟合C++与Python版本)

文章目录RANSAC算法简介RANSAC算法基本思想和流程迭代次数推导RANSAC与最小二乘区别RANSAC直线拟合代码（C++及Python版本）C++版本代码Python版本代码如下：RANSAC优缺点参考RANSAC算法简介RANSAC(RANdom SAmple Consensus,随机采样一致)算法是从一组含有“外点”(outliers)的数据中正确估计数学模型参数的迭代算法。“外点”一般指的的数据中的噪声，比如说匹配中的误匹配和估计曲线中的离群点。所以，RANSAC也是一种“外点”检测算法。

2022-02-14 19:28:36 14053 2

原创 python标准库学习——math模块

文章目录1. [常用python标准库](https://docs.python.org/zh-cn/3/library/index.html)2. math2.1 math模块常用函数2.2 数论与表示函数2.2.1 `math.floor(x)`: x向下取整。2.2.2 `math.ceil(x)`: x向上取整。2.2.3 `math.fabs(x)`: x的绝对值。2.2.4 `math.factorial(x)`: x 的阶乘。2.2.5 `math.prod(iterable, *, star

2022-02-12 19:46:35 988

Git常用命令.mindnode.zip

互联网常见算法笔试题分类总结.pdf

摄影测量基础笔记分享.pdf

易康入门学习资料。。。。。。。。

空空如也