自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nick Blog

计算机视觉

  • 博客(287)
  • 资源 (4)
  • 收藏
  • 关注

原创 IMAGEBIND: One Embedding Space To Bind Them All论文笔记

Since SUN RGB-D and LLVIP are relatively small, we follow [21] and replicate them 50× for training给定一个 (Ii​Mi​pair,Li​是image,Mi​是其他模态的数据:损失函数采用InfoNCE loss:IM​LMI​。

2023-09-20 19:48:28 504

原创 NExT-GPT: Any-to-Any Multimodal LLM论文笔记

对于特定模态的指令,调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。整个MM-LLM系统中,Encoder、LLM、Diffusion都是现成的开源预训练模型,只有输入端和输出端的Projection模块需要训练,只有1%的参数需要更新。

2023-09-20 15:21:30 1232 3

原创 SegGPT: Segmenting Everything In Context论文笔记

简而言之,就是对于特定任务,你如果认为随便找一张图片和对应的标签不具有代表性,可以将模型参数固定,初始化一个可学习的prompt图片,然后用同样的loss去更新prompt,这样,在推理阶段,可以直接使用这个迭代更新得到的prompt作为提示。在Painter中,每个类别的颜色是事先定义的,这导致模型学习到了任务特定的信息,而不是依据给定的prompt,按照其中的上下文含义进行分割。在推理阶段,可以给定一张图片和对应的标签作为prompt,将要推理的图片和prompt进行拼接。

2023-09-12 21:54:38 614

原创 OneFormer: One Transformer to Rule Universal Image Segmentation论文笔记

将语义分割、实例分割、全景分割统一在同一个模型中的关键挑战在于,怎么为每个任务生成任务特定的object query,那么,该如何让每种任务的object query之间彼此区分呢?是从特定任务的GT中通过统计thing和stuff的数量得到的,所以不同任务的。进行更新(使用2层transformer),最后,将。次,的到初始化后的object query。本文的解决方案是,计算text query。之间是彼此区分的,那么只需要将。个可学习的Embedding和。之间的对比损失,因为。

2023-09-12 15:42:37 658 1

原创 X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

v2tV)pmatch。

2023-09-11 16:45:10 490

原创 mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video论文笔记

为了缓解视频时空建模中序列长度过大导致的学习困难问题,将视频分解为空间和时间表示,如下图所示,利用Transformer的自注意力层和前馈层进行空间建模,并针对视频输入,提出一种新颖的局部时序建模模块。此外,空间和时间信息的解耦,使得双视觉编码器能够实现图像和视频的参数共享,从而更加高效地学习空间和时间表征。在每个通用层中,视觉query和文本特征通过共享参数的自注意力层来对齐语义,然后视觉query通过交叉注意力从原始视觉特征中提取视觉信息,之后视觉query和文本特征通过共享参数的前馈层进行特征变换。

2023-09-11 15:31:55 202

原创 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection论文笔记

visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。

2023-08-24 16:39:48 326

原创 Grounded Language-Image Pre-training论文笔记

COCO:目标检测数据集,包含80个常见对象类别;LVIS:目标检测和实例分割数据集,涵盖1203个对象类别;Object365:是一个大规模的目标检测数据集,总共包含63万张图像,覆盖365个类别,高达1000万框数;Microsoft COCO Captions 数据集:该数据集为超过 33 万张图片提供了超过 150 万条人工生成的图片描述。Flickr30k:给定了31783张图像以及158915个文本注释,一张图片对应5个注释,并将它们与 276K 个手动标注的边界框关联起来。

2023-08-24 15:47:19 934

原创 DETRs with Collaborative Hybrid Assignments Training论文笔记

当前的DETR检测器中,为了实现端到端的检测,使用的标签分配策略是二分匹配,使得一个ground-truth只能分配到一个正样本。当然是可以的,在上一步中,辅助的检测头已经分配好了各自的正样本anchor及其匹配的ground-truth。受到这个的启发,为了增强encoder的学习能力,论文首先利用multi-scale adapter,将encoder输出的特征转化为多尺度的特征。在上文的分析中,我们发现传统检测器中的anchor是密集排列的,且能够提供dense且尺度敏感的监督信息。

2023-08-23 18:55:23 1317

原创 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions论文笔记

与传统CNN中广泛使用的瓶颈结构不同,采用了更接近ViTs的基础模块,配备了更先进的组件,包括GELU、层归一化(LN)和前馈网络(FFN),这些都被证明在各种视觉任务中更有效率。尽管DCN V2算子已经缩小了普通卷积算子和MHSA之间的差距,对于大规模的视觉基础模型来说,DCN V2算子仍然不是最优的选择,于是作者从三个方面对DCN V2进行改进,得到了IntenImage的主要算子——DCN V3。第三,堆叠模式固定为“AABA”,即第1、2和4阶段的模块堆叠数是相同的,并且不大于第3阶段。

2023-08-23 16:39:40 142

原创 《视觉SLAM十四讲》报错信息和解决方案

如果您无法启用3D加速或安装虚拟机工具,您可以尝试使用软件渲染。这将使用CPU而不是GPU来渲染OpenGL图形,性能可能较差,但可以提供更广泛的GLSL支持。在Ubuntu中,您可以安装Mesa的软件渲染器,例如llvmpipe。安装虚拟机工具:确保您已安装了虚拟机软件提供的增强工具(如VirtualBox Guest Additions、VMware Tools等)。可能的解决方案:在Ubuntu虚拟机中运行OpenGL程序时,可能会遇到一些限制,因为虚拟机可能无法直接访问主机系统的显卡硬件。

2023-08-01 09:55:22 499

原创 ROS2中launch文件编写——基础篇

这些节点具有不同的命名空间或名称,但仍然具有相同的参数。启动文件将调出不同的节点,负责模拟两个turtlesim 模拟、启动 TF 广播器和监听器、加载参数以及启动 RViz 配置。但是,如果启动文件包含大量节点,则为每个节点定义命名空间同样十分低效,也不太方便管理。该启动文件启动turtlesim_node节点,定义模拟器的配置参数并传递给turtlesim_node节点。如果我们需要启动更多的节点,就需要打开非常多的窗口,非常的不优雅。首先,我们将创建一个顶层启动文件,该文件将调用单独的启动文件。

2023-07-20 15:36:34 3153

原创 ROS 中常用的消息msg-服务srv-动作action汇总

【代码】ROS 中常用的消息msg-服务srv-动作action汇总。

2023-07-18 16:59:49 730

原创 如何提升小目标检测效果

增大图片分辨率,最简单有效的办法;数据增强构造更多的小目标;如Mosaic在可以拼接四张图到原来一张图的尺寸,每张图上的目标都会被缩小,相当于构造了较多的小目标;设计适合小目标的anchor,提升召回率;在更高分辨率的特征图上进行小目标检测,如FPN;增大小目标的loss,如focal loss;

2023-04-14 17:12:31 310 1

原创 Canny 边缘检测算法-python实现(附代码)

Canny 边缘检测算法由计算机科学家 John F. Canny 于 1986 年提出的。其不仅提供了算法,还带来了一套边缘检测的理论,分阶段的解释如何实现边缘检测。

2023-03-30 14:30:23 5135 3

原创 MVTEC公开数据集

MVTEC为无监督缺陷检测数据集,共包含3466张无标注图,1888张有标注图(像素级分割标注),大小均为700×700或1024×1024;training dataset有3629张,全部为无缺陷图;test dataset有1725张,为有缺陷图片+无缺陷图;图片可划分为5种纹理+10种物体,包含73种缺陷(划痕,凹陷,脏污,形变,缺料等,均为人工制作),总计标注1900个region;

2023-03-29 21:57:40 5083 3

原创 C++学习笔记(以供复习查阅)

C++学习笔记

2023-03-09 18:20:11 991 3

原创 SLAM数学知识回顾

SLAM数学知识回顾

2023-01-31 21:01:41 609

原创 Learning Saliency Propagation for Semi-Supervised Instance Segmentation

Learning Saliency Propagation for Semi-Supervised Instance Segmentation

2023-01-11 12:10:25 522

原创 Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Inseg

Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Instance Segmentation

2023-01-09 11:51:17 229

原创 ContrastMask: Contrastive Learning to Segment Every Thing

ContrastMask: Contrastive Learning to Segment Every Thing

2022-12-27 16:50:10 994

原创 Learning to Segment Every Thing

Learning to Segment Every Thing Ronghang

2022-12-26 16:15:17 696

原创 计算机视觉之三维重建——深入浅出SFM系统与SLAM系统的核心算法

计算机视觉之三维重建——深入浅出sfm和SLAM核心算法 (鲁鹏)

2022-10-11 17:16:04 4094

原创 计算机视觉之三维重建——第八章:SLAM系统设计《深入浅出sfm和SLAM核心算法 (鲁鹏)》

SLAM系统设计

2022-10-11 17:14:31 1529

原创 计算机视觉之三维重建——第七章:运动恢复结构(SFM)系统设计《深入浅出sfm和SLAM核心算法 (鲁鹏)》

运动恢复结构(SFM)系统设计

2022-10-11 11:55:38 1780 2

原创 计算机视觉之三维重建——第六章:多视图几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

多视图几何

2022-10-10 17:36:09 2174 1

原创 计算机视觉之三维重建——第五章:双目立体视觉《深入浅出sfm和SLAM核心算法 (鲁鹏)》

双目立体视觉

2022-10-09 19:49:42 864 1

原创 计算机视觉之三维重建——第四章:三维重建基础与极几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

三维重建基础与极几何

2022-10-09 11:53:41 1757

原创 计算机视觉之三维重建——第三章:单视测量《深入浅出sfm和SLAM核心算法 (鲁鹏)》

单视测量

2022-10-08 16:35:56 1122

原创 计算机视觉之三维重建——第二章:摄像机标定《深入浅出sfm和SLAM核心算法 (鲁鹏)》

摄像机标定

2022-10-08 15:19:54 1452

原创 计算机视觉之三维重建——第一章:摄像机几何《深入浅出sfm和SLAM核心算法 (鲁鹏)》

摄像机几何

2022-10-08 15:04:53 2437

原创 AdamW优化器简单理解

AdamW优化器简单理解

2022-06-30 16:31:31 6137

原创 DVC数据集版本控制

DVC数据集版本控制

2022-06-30 16:22:13 684

原创 实例分割最全综述(入坑一载半,退坑止于此)

实例分割综述

2022-06-23 20:11:36 6578 17

转载 Maskformer

TitlePer-Pixel Classification is Not All You Need for Semantic SegmentationPaperhttps://arxiv.org/pdf/2107.06278.pdfCodehttps://github.com/facebookresearch/MaskFormer1. Motivation目前语义分割大多被看做是一个像素级别的分类任务,而实例分割确是一个mask级别的分类任务。虽然都是分割任务,但是他们...

2022-05-09 15:23:45 576

原创 mmdetection在bbox head中获取epoch值

最近需要在模型的bbox head中进行一些epoch相关的操作,比如依据epoch数目更改某个模块的层数。本文主要参考了https://github.com/open-mmlab/mmdetection/issues/7425, 将具体做法进行整理。1. 新建set_epoch_info_hook新建mmdetection/mmdet/core/hook/set_epoch_info_hook.py,内容填充如下,并在相应的__Init__.py添加# Copyright (c) OpenMMLab

2022-04-24 17:40:04 4317 2

原创 相机标定原理与实战【python-opencv】

文章目录1. 相机标定的目的1.1 相机成像模型1.1.1 坐标系1.1.2 世界坐标系转换到相机坐标系1.1.3 相机坐标系到图像坐标系1.1.4 图像物理坐标系到像素坐标系1.1.5 世界坐标系到像素坐标系1.2 相机畸变1.2.1 径向畸变1.2.2 切向畸变相机标定原理张正友标定法相机标定python实现参考1. 相机标定的目的校正透视畸变:由于每个镜头的在生产和组装过程中的畸变程度各不相同,通过相机标定可以校正这种镜头畸变,获取矫正后的图像;获取相机成像几何模型:相机标定后得到的相机参数可

2022-02-16 10:40:22 6868 1

原创 【python】计算点到直线的距离

1. 直线采用两个端点的xy坐标表达import numpy as npdef get_distance_point2line(point, line): """ Args: point: [x0, y0] line: [x1, y1, x2, y2] """ line_point1, line_point2 = np.array(line[0:2]), np.array(line[2:]) vec1 = line_point1

2022-02-15 10:45:08 6734 1

转载 RANSAC算法(附RANSAC直线拟合C++与Python版本)

文章目录RANSAC算法简介RANSAC算法基本思想和流程迭代次数推导RANSAC与最小二乘区别RANSAC直线拟合代码(C++及Python版本)C++版本代码Python版本代码如下:RANSAC优缺点参考RANSAC算法简介RANSAC(RANdom SAmple Consensus,随机采样一致)算法是从一组含有“外点”(outliers)的数据中正确估计数学模型参数的迭代算法。“外点”一般指的的数据中的噪声,比如说匹配中的误匹配和估计曲线中的离群点。所以,RANSAC也是一种“外点”检测算法。

2022-02-14 19:28:36 14053 2

原创 python标准库学习——math模块

文章目录1. [常用python标准库](https://docs.python.org/zh-cn/3/library/index.html)2. math2.1 math模块常用函数2.2 数论与表示函数2.2.1 `math.floor(x)`: x向下取整。2.2.2 `math.ceil(x)`: x向上取整。2.2.3 `math.fabs(x)`: x的绝对值。2.2.4 `math.factorial(x)`: x 的阶乘。2.2.5 `math.prod(iterable, *, star

2022-02-12 19:46:35 988

Git常用命令.mindnode.zip

Git常用命令,思维导图制作,可编辑。

2020-12-20

互联网常见算法笔试题分类总结.pdf

互联网常见算法笔试题分类总结,欢迎下载,全是干货。

2020-12-20

摄影测量基础笔记分享.pdf

本科摄影测量基础笔记分享,有需要自取。好几年前的笔记了,分辨率不是特别高,手写。

2020-12-12

易康入门学习资料。。。。。。。。

易康初级培训手册,Developer 9.2 版 更新日期: 2016 年 7 月 25 日 版权所有: Trimble & BSEI

2018-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除