放牛娃子-CSDN博客

Python调用C程序https://blog.csdn.net/qq_22751305/article/details/105361916?spm=1001.2014.3001.5501C/C++调用Python函数包含常规数值的传入传出，数组的传入传出。针对模块导入，返回空指针的问题，也有说明，见代码注释。以win10为例。默认已经安装好Python环境。注意：需配置PYTHONHOME和PYTHONPATH环境变量，否则运行时可能会报错。在vs2015上配置Python，这个比较简

2022-01-02 10:04:02 1762

原创 ErfNet、BiseNet、BiseNetV2网络结构对比

ErfNet【paper】轻量级实时语义分割经典BiSeNet及其进化BiSeNet v2https://zhuanlan.zhihu.com/p/141692672BieNetBiseNetV2

2021-12-31 15:46:33 786

原创 ATSS，目标检测中自适应正负样本选取策略

Bridging the Gap Between Anchor-based and Anchor-free detection via adaptive training sample selectionhttps://openaccess.thecvf.com/content_CVPR_2020/papers/Zhang_Bridging_the_Gap_Between_Anchor-Based_and_Anchor-Free_Detection_via_Adaptive_CVPR_2020_paper.

2021-11-23 16:01:51 2565

原创用于小目标检测的损失函数，可替换IOU系列的损失函数

A Normalized Gaussian Wasserstein Distance for Tiny Object Detectionhttps://arxiv.org/pdf/2110.13389.pdfwasserstein用来计算两个分布的距离。论文思想：对目标框进行高斯分布建模，对于超参数C，经验上，当设为数据集平均绝对尺寸时，可获得最佳性能。对于不同的数据集，设定不同的C。实验...

2021-11-19 13:30:32 4455 4

原创 opencv与PIL.Image读取图片的速度对比

用python同一张图片，连续读取100次，opencv的耗时比Image的多不少。代码如下：import timeimport cv2import numpy as npimport PIL.Image as Imageimg_fn = '1651_00006204.png'N = 100t1 = time.time()for i in range(N): img = cv2.imread(img_fn)t2 = time.time()-t1print('io co

2021-11-03 11:48:55 2794

原创 ICCV 2021 论文列表

ICCV 2021 Open Access Repositoryhttps://openaccess.thecvf.com/ICCV2021?day=all

2021-10-28 14:11:14 387

原创 Sharp U-Net: Depthwise Convolutional Network for Biomedical Image Segmentation

论文地址：https://arxiv.org/pdf/2107.12461摘要在医学图像分割任务中，全卷积的U-Net网络被证明是有效的。但是，在U-Net中将skip connections作为融合低层次和高层次卷积特征的方式，不但会导致模糊的特征图，还会造成过分割和欠分割。为解决这个问题，作者提出了一个简单、有效的depthwise encoder-decoder的全卷积网络框架，Sharp U-Net。方法Sharp Blockssharp kernel采用拉普拉斯算子作为

2021-07-29 17:32:03 494

转载 VS2015调试stl vector不显示数据

VS 2015不显示相关的调试数据，只有原始的内存数据，这是因为在VS之后的新版本加入一个新的功能，可以自定义设置相关的数据显示格式，而在VS2015中相关的显示格式没有像VS2013等前期版本的那样做。问题产生的可能原因问题发生的原因很可能跟XXX.natvis文件有关，在vs2012以上的版本，提供了.natvis可视化工具设计来为不同类型的C/C++ 类型声明自定义可视化。可视化的类型改变了对象在本地表达式计算器的显示方式，包括在监视和变量窗口以及调试数据提示。找到问题产...

2021-07-15 16:21:21 1326 1

原创四元素定义、运算、插值、与欧拉角之间的转换

在3D图形学中，最常用的旋转表示方法便是四元数和欧拉角，比起矩阵来具有节省存储空间和方便插值的优点。本文主要归纳了两种表达方式的转换，计算公式采用3D笛卡尔坐标系：定义、、分别为绕Z轴、Y轴、X轴的旋转角度，如果用Tait-Bryan angle表示，分别为Yaw、Pitch、Roll。一、四元数的定义通过旋转轴和绕该轴旋转的角度可以构造一个四元数：其中是绕旋转轴旋转的角度，为旋转轴在x,y,z方向的分量（由此确定了旋转轴）。二、欧拉角到四元数的转换三、四元数..

2021-07-08 15:05:17 6644

原创自监督深度估计之SSIM损失，附pytorch代码

来源：公众号在自监督深度估计中，一般输入2张图像（若为视频，则输入邻近的两帧图像）frame1和frame2，模型先估计相机拍摄这2张图像是的姿态变化pose，然后根据pose将frame1变换到frame2的视角下，得到合成图像synthetic frame1。估算的pose越准确，synthetic frame1与frame2的图像相似度就越高。那么，常用SSIM（结构相似性）来评价这两张图片的相似度。若希望详细了解单目深度估计，可参考文章《动态场景下的单目深度估计》、《Instance-w

2021-05-27 15:25:51 1552

原创 KITTI数据集raw_data标定文件说明

官方文档：Vision meets Robotics: The KITTI Datasetcalib_cam_to_cam.txt为相机i到0号相机的标定参数。calib_time: 09-Jan-2012 13:57:47corner_dist: 9.950000e-02S_00: 1.392000e+03 5.120000e+02K_00: 9.842439e+02 0.000000e+00 6.900000e+02 0.000000e+00 9.808141e+02 2.331966e

2021-05-19 16:06:15 2455

原创车道线检测之CondLaneNet

CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution论文结构说明：用resnet作为主干网络，加入了标准的FPN作为nect；由于车道线比较细长，作者在resnet输出的最小特征图上，加入了transformer，用于捕捉车道线的关联信息；在Proposal head部分，与SOLOv2类似，将图片划分为若干个格子（令格子数为Hp * Wp），输出2个特征图，一个为heat

2021-05-12 18:22:49 5272

原创无监督深度学习SLAM——Moving SLAM

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes摘要作者提出了一种可无监督训练的深度学习网络，该网络输入视频流，输出3D场景信息（camera 和depth）、运动目标及其运动信息。传统的SLAM存在一个强假设：目标是静止的。这种刚性场景假设限制了模型预测的性能。作者提出了一种简单的解决方案：将图像的局部区域作为刚性场景，对每个区域，预测不同的pose，计算不同区域的误差，进而优化网络参数。对于每个区域，预测一个6D的

2021-05-06 15:04:52 466

原创深度学习之导向滤波器网络(Guided Filter Module)

Deep Guidance Network for Biomedical Image Segmentation作者提出了一种深度导向网络来分割医学图像。根据导向滤波器的原理，通过导向图像（原始图像的灰度图）使网络进一步提取细节特征。网络结构Guided Filter Module（GFM）实验...

2021-04-22 15:58:38 1905 4

原创一种多任务学习框架 for building footprint segmentation

a multi-task deep learning framework for building footprint segmentation分割为主要任务，reconstructed image和Bounday output为辅助任务，采用不确定性权重（Uncertainty Weighting）联合训练做任务网络。分割output和边界output采用交叉熵损失，reconstructed image采用MSE或者L1损失。...

2021-04-20 16:25:06 332

原创语义分割之损失函数汇总

Wassertein多分类，若采用交叉熵损失，可考虑将Wassertein 距离作为交叉熵损失的一个选择。Wassertein 距离被用来衡量两个分布的相似程度，衡量了把数据从分布“p”移动成分布“q”时所需要移动的平均距离的最小值。《Severity-Aware Semantic Segmentation with Reinforced Wasserstein Training》做法：对于每一个像素，计算其softmax输出直方图和相应one-hot标签间的wassertein距离。..

2021-04-02 16:36:52 1503

原创语义分割之网络结构

2020HMANetHybrid Multiple Attention Network for Semantic Segmentation in Aerial Images

2021-04-02 16:06:36 860

原创一句话总结YoloF

代码：https://github.com/megvii-model/YOLOF论文下载链接：You Only Look One-level Feature只利用一级特征进行检测，不需要使用 FPN，采样空洞卷积提升特征对尺度的表达能力，训练过程中，用uniform matching方式，平衡不同类型样本数。Uniform matching是提升模型能力的主力。Uniform matchingCOCO2017实验...

2021-03-29 11:23:10 389

原创语义分割之IS-Triplet loss

Improving Image co-segmentation via Deep Metric Learning该方法适用于语义分割二分类。算法思想：对于最后用于分类的特征图，作为像素的embed vector，采用度量学习的方式，使类内的embed接近，类间的embed远离。如下图所示，直接在原有语义分割模型上添加IS-Triplet loss。IS-Triplet loss计算过程步骤：随机在前景中采样2次，每次采用K个点，分别构成集合F1和F2.采用同样的方式，在背景中采样

2021-03-29 11:08:06 379

原创车道线检测论文汇总

2020年SUPER: A Novel Lane Detection System对语义分割模型采用层级分类，在推理过程中，每个子分类器根据自己的决策由其父分类器控制。通过这种方式，获得了更可靠的场景标签。在Apollo数据集中，车道标记标签比地面和目标标签更准确，因此在训练阶段只使用车道分割标签。然而，车道标记附近的一些地面区域很容易被误认为车道标记。为了解决这一问题，我们将车道标记扩展到附近，并将整个扩展区域标记为“道路”。被车辆等物体阻塞的道路区域将从标签中移除。下图展示了Apollo标签在扩

2021-03-29 10:48:48 1449

原创 git常用命令

git安装https://blog.csdn.net/zx1996119/article/details/80814752下载地址：https://git-scm.com/downloadsGit官方书籍地址：https://git-scm.com/book/zh/v2git仓库创建与配置在指定目录下，加入仓库文件夹为test_git，输入命令：在该文件夹下会生成一个.git文件夹，该文件可能是隐藏文件。若要排除test_git中的某些文件夹和文件。在该目录下新建一个

2021-03-26 13:34:57 181

原创一图览尽几种常用的FPN结构

图中形象的展示了几种常用的FPN结构，包括FPN、PANet、NAS-FPN、Fully-connected FPN、Simplified PANet、BiFPN。图像来源：《EfficientDet: Scalable and Efficient Object Detection》

2021-03-19 16:34:45 2435

转载一种语义分割损失函数LovaszSoftmax

论文:The Lovasz-Softmax loss: A tractable surrogate for the optimization of theintersection-over-union measure in neural networksGithub：https://github.com/bermanmaxim/LovaszSoftmaxCVPR2018论文提出了LovaszSoftmax，是一种基于IOU的loss，效果优于cross_entropy，可以在分割任...

2021-03-18 17:07:48 4306 2

转载 PyTorch中permute的用法

permute(dims)将tensor的维度换位。参数：参数是一系列的整数，代表原来张量的维度。比如三维就有0，1，2这些dimension。例：import torchimport numpy as npa=np.array([[[1,2,3],[4,5,6]]])unpermuted=torch.tensor(a)print(unpermuted.size()) # ——> torch.Size([1, 2, 3])permuted=unper...

2021-03-09 10:18:41 623

原创解决实例分割中的长尾问题，增益5个点。FASA，cvpr2021

论文地址：https://arxiv.org/abs/2102.12867文章来源，戳here所谓长尾问题，指训练集中少数类（头类）占大多数样本，大多数类（尾类）占少量样本。是类别分布不均衡的问题摘要为解决长尾问题，我们提出了一种有效的方法，Feature Augmentation and Sampling Adaptation(FASA), 该方法对rare class的特征空间进行增广。FA和FS仅在训练时候用到。根据之前迭代训练过程中特征图，计算特征的均值和方差，根据均值和方法进行..

2021-03-06 17:02:20 1526 1

原创解耦注意力模块，增益模型精度

作者发现可以将注意力模块分为两项：一个经过白化的成对项解释了两个像素之间的关系，一个一元项代表了每个像素的显著性。我们还观察到，单独训练的两项往往会为不同的视觉线索建模，例如白化的成对项学习区域内的关系，而一元项学习显著边界。然而，这两项在Non-Local块中紧密耦合，这妨碍了每项的学习。基于这些发现，我们提出了解耦的Non-Local块，其中两项解耦以促进所有项的学习。我们证明了分离设计在各种任务上的有效性，例如Cityscapes，ADE20K和PASCAL Context上的语义分割，COCO上..

2021-03-05 14:22:49 430

Dijkstra C++实现

3755个一级汉字，按国标排列

C++，AMP大规模并行技术

空空如也