wuling129-CSDN博客

转载【转载】神经网络常见评价指标超详细介绍（ROC曲线、AUC指标、AUROC）

考虑标签label和预测值pred，其数值如下：其散点图如下：怎样才能通过概率得到预测的类别呢？通常我们需要设置一个阈值，这里以0.5为例，当概率大于等于0.5时，分类器认为这个为真实类别；当概率小于0.5时，分类器认为这个不是真实类别，如下图所示：我们可以根据这个图得到当阈值为0.5时的混淆矩阵：实际上阈值可以取[0,1）之间的任意值，理论上可以取无数个混淆矩阵，而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。

2024-04-12 21:18:33 56

转载 [转载]基于YOLOv9+SAM实现动态目标检测和分割（步骤 + 代码）

在本文中，我们使用YOLOv9+SAM在RF100 Construction-Safety-2 数据集上实现自定义对象检测模型。这种集成不仅提高了在不同图像中检测和分割对象的准确性和粒度，而且还扩大了应用范围——从增强自动驾驶系统到改进医学成像中的诊断过程。通过利用 YOLOv9 的高效检测功能和 SAM 以零样本方式分割对象的能力，这种强大的组合最大限度地减少了对大量再训练或数据注释的需求，使其成为一种多功能且可扩展的解决方案。YOLOv9性能图示YOLOv9模型图。

2024-04-10 16:59:37 51

转载【转载】为什么要做特征归一化/标准化？

原文链接：为什么要做特征的归一化/标准化？Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术，有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性，最常用的2个例子可能是：特征间的单位（尺度）可能不同，比如身高和体重，比如摄氏度和华氏度，比如房屋面积和房间数，一个特征的变化范围可能是[1000, 10000]，另一个特征的变化范围可能是[−0.1,0.2]，在进行距离有关的计算时，单位的不同会导致计算结果的不同，尺度大

2024-04-02 21:20:01 19

转载 [转载]STN：Spatial Transformer Networks 空间变换网络

卷积神经网络缺乏对输入数据保持空间不变的能力，导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性，但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中，作者提出了一种新的可学习模块，STN。这个可微模块可以插入现有的卷积结构中，使神经网络能够根据特征图像本身，主动地对特征图像进行空间变换，而不需要任何额外的训练监督或优化过程。

2024-04-02 10:58:24 19

原创【转载】OpenCV ECC图像对齐实现与代码演示（Python / C++源码）

作者博客地址：https://blog.csdn.net/LuohenYJ 已关注。

2024-04-01 15:44:38 687

转载 [转载]Out-of-distribution Detection

算是第一次正经的调研吧，之前就做过论文复现和 “不成功” 的调研。至于为什么不成功呢？主要因为我是0基础的科研小白，所以对调研目的的认知错误。其实在年前做过一次关于 Out-of-distribution 的调研了，但是为什么现在又花了差不多一周的时间重新做了一次呢？因为我一开始调研的目的是了解一下这个领域，看看有没有可以用于我当前方向的方法（我当前的方向比较新，只能从类似的任务中借鉴）。所以，我第一次调研的时候，就直接把OOD的方法和我当前的方向做比较，如果没有什么关联就跳过。实际上这是错误的一种调研。

2024-03-20 14:49:37 45

转载【转载】标注工具Labelimg的安装与使用

我们知道，图片标注主要是用来创建自己的数据集，方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg，重点介绍其安装以及使用的过程。如果想简便，请直接下载打包版本（下载地址见开头），无需编译，直接打开就能用！这款工具是全图形界面，用Python和Qt写的，最牛的是其标注信息可以直接转化成为XML文件，与PASCAL VOC以及ImageNet用的XML是一样的。

2024-03-13 20:00:16 29

转载 [转载]没有思考过 Embedding，不足以谈 AI

这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding，句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引，AI 绘画技术的背后，有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型，embedding 必然是其中的基石和桥梁。

2024-03-06 11:56:12 30

原创 YOLOV8介绍

有具体部署和训练实现代码（有非常好的参考和启示价值）

2024-03-01 20:53:52 1351 1

转载 YOLOv9简介

YOLO v9

2024-02-29 11:56:10 1385

转载 [转载]ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy

作者对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析，每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求，但本文发现它们在许多其他的方面有所不同：错误类型 (types of mistakes)输出校准 (output calibration)迁移性能 (transferability)特征方差 (feature invariance)

2024-02-27 09:50:46 33

转载 [转载]扩散模型的原理及实现（Pytorch）

本文讲述扩散模型的发展、原理及代码实践。

2024-02-25 10:16:19 209

转载 [转载]谈谈目标检测中，正负样本背后的本质问题

本篇不讲任何正负样本定义的方法以及各种采样的方法，只从实际训练角度结合量产经验思考正负样本背后的本质问题。

2024-02-22 10:14:58 37

转载 DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing

在这篇论文中，提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络：在第一个网络中，网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入，通过卷积层处理后，再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。

2024-01-31 14:08:53 85

转载 Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

最近的研究表明，视觉 Transformer （ViTs）出色的性能得益于大的感受野。因此，大的卷积核设计成为使卷积神经网络（CNNs）再次强大的理想解决方案。然而，典型的大的卷积核实际上是硬件不友好的运算符，导致各种硬件平台的兼容性降低。因此，简单地扩大卷积核大小是不明智的。在本文中，作者揭示了小卷积核和卷积操作可以达到大的卷积核的近似效果。然后，作者提出了一种移位操作符，通过稀疏机制帮助卷积神经网络捕捉长程依赖关系，同时保持对硬件的友好性。

2024-01-30 17:27:38 160

转载 Focaler-IoU开源，关注困难样本，YOLOv5涨点1.9%，YOLOv8涨点0.3%

在这篇文章中，作者分析了困难样本和容易样本分布对目标检测的影响。当困难样本占主导地位时，需要关注困难样本以提高检测性能。当简单样本的比例较大时，相反的情况是正确的。接下来，提出 Focaler-IoU 方法，通过线性区间映射重构原始 IoU 损失，以实现关注困难样本和容易样本的目标。最后，比较实验证明了所提出的方法可以有效地提高检测性能。

2024-01-28 16:11:17 259

转载模型压缩：CNN和Transformer通用，修剪后精度几乎无损，速度提升40%

深度学习模型在目标检测的性能上取得了重大突破。然而，在传统模型中，例如Faster R-CNN和YOLO，由于计算资源有限和功率预算紧张，这些网络的规模使其难以部署在嵌入式移动设备上。研究者提出了一种新的有效模型深度修剪方法。新方法为子网提出了一种新的块修剪策略和渐进训练方法。此外，将修剪方法扩展到视觉Transformer模型。

2024-01-27 17:14:00 104

转载转载：Global Feature Pyramid Network

视觉特征金字塔在目标检测任务中证明了其有效性和效率。然而，当前的方法往往过于强调层间特征交互，忽视了层内特征调整这一关键方面。经验强调了在增强目标检测任务方面，层内特征交互的重要优势。虽然一些方法试图通过注意力机制或视觉 Transformer 学习压缩的层内特征表示，但它们忽视了全局信息交互的整合。这种忽视导致了增加误检和遗漏目标。为了解决这一关键问题，本文引入了全局特征金字塔网络（GFPNet），这是对PAFPN的增强版，集成了全局信息以提高目标检测。

2024-01-03 15:45:07 107 1

转载转载：理解 U-Net

U-Net 简介

2023-12-20 17:58:29 57

原创转载：DAS: A Deformable Attention to Capture Salient Information in CNNs解读

卷积神经网络（CNNs）在局部空间模式识别方面表现出色。对于许多视觉任务，如物体识别和分割，显著信息也存在于CNN核边界之外。然而，由于CNN的受限制的感受野，它们在捕获这种相关信息时感到力不从心。自注意力机制可以提高模型获取全局信息的能力，但同时也增加了计算开销。作者提出了一种快速简单的全卷积方法DAS，它有助于将注意力集中在相关信息上。该方法使用了可变形卷积来表示相关图像区域的位置，并使用了可分卷积来实现效率。DAS可以插入到现有的CNN中，并使用门控机制传播相关信息。

2023-12-02 16:15:09 720 1

转载转载：英文AI论文协作

Abstract是整篇论文的重中之重，一般审稿人都会先看Abstract，所以Abstract的好会很大程度决定了审稿人对这篇论文的第一印象。Abstract的一句话基本对应于Introduction的一段话，一句话只讲一件事，并且每句话之间需要做到逻辑连贯，合情合理。以提出一个方法去解决一个任务的论文为例 [1]：这类文章的Abstract：开头都先一句话介绍自己的任务（定义和挑战是什么）。下一句介绍现有工作如何解决前一句中提到的调整，但存在什么缺陷。（这一句有时候可以省略，如上例）

2023-11-27 15:09:56 176

原创转载：YOLOv8改进全新Inner-IoU损失函数：扩展到其他SIoU、CIoU等主流损失函数，带辅助边界框的损失

目标检测是计算机视觉中的基本任务，包括目标分类和定位。边界框回归损失函数是检测器定位分支的重要组成部分，检测器的定位精度在很大程度上取决于边界框回归，在当前的检测器中发挥着不可替代的作用。在BBR中，IoU损失可以准确描述预测边界框与GT框之间匹配的程度，确保模型在训练过程中可以学习到目标的位置信息。作为现有主流边界框回归损失函数的基本部分，IoU定义如下：B和分别代表预测框和GT框。定义IoU之后，相应的损失可以定义如下：至今，基于IoU的损失函数逐渐成为主流并占据主导地位。

2023-11-16 07:52:17 2278

转载转载：SBCFormer：一种新型CNN-VIT轻量级混合网络，首次以1 FPS 速度在SBC上实现 80% 的top-1 精度

文章地址：https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf项目地址：https://github.com/xyongLu/SBCFormer。

2023-11-15 22:12:29 229

转载转载：TransXNet：聚合全局和局部信息的全新CNN-Transformer视觉主干，表现强大！

在微小版本中，注意组的数量固定为2个，以保证合理的计算成本，而在更深的小模型和基础模型中，使用越来越多的注意组来提高IDConv的灵活性，这类似于MHSA模块的头部数量随着模型的深入而增加。然而，本文方法在全局和局部动态以及多尺度token聚合的支持下，不仅在小目标上取得了优异的效果，而且在中大型目标上也明显优于先前的方法。由上式可知，STE的FLOPs为HWC(2C/r + 9)，在实际操作中，将信道缩减比r设为8，但要保证压缩的信道数不小于16，这样得到的FLOPs明显小于1×1卷积的FLOPs，即。

2023-11-09 09:43:47 1362

转载转载：2023年9月-10月带有开源代码的OCR论文汇总

基于这些观察结果，作者更深入地研究了专用OCR模型的必要性，并探讨了充分利用GPT-4V等预训练通用LMM，将其用于OCR下游任务的策略，为今后将LMM用于OCR任务的研究提供了重要的参考。需要特别指出的是，EffOCR还允许简单、高效的样本定制，它包含一个简单的模型训练接口，由于其具有比较高的样本效率，因而只需要较少的标记需求。基于这些基本功能，DocXChain还实现了文档解析的整个流程，即文本读取、表解析和文档结构化，以驱动现实场景中与文档相关的各种应用程序。，使用XAI来理解STR的模型预测。

2023-11-08 12:19:32 180

转载转载：计算机视觉Paper with code-2023.10.31

13.【超分辨率重建】（NeurIPS2023）Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction。22.【多模态】TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding。

2023-11-08 12:16:43 107

转载转载：ICCV2023 | SPIN：超像素聚类与Transformer结合的轻量级图像超分辨率网络，性能SOTA

提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类，形成可解释（因为只有相似的区域相互补充，不相似的区域被排除在外。）的局部区域，并利用超像素内关注实现局部信息交互。

2023-10-30 11:32:56 567

转载转载：【CVPR2023】多视图对抗判别器 MAD ：挖掘未知领域目标检测中的非因果因素

论文题目：Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains代码：https://github.com/K2OKOH/MAD这篇论文探讨了一个具有挑战性的问题，即如何在实际应用中将目标检测模型适应到未知的目标领域。在传统的目标检测方法中，通常基于独立同分布（i.i.d.）的假设，即训练和测试数据集具有相同的分布。

2023-10-18 15:53:34 82

转载转载：引入目标之间的先验关系提升目标检测器性能Relational Prior Knowledge Graphs for Detection and Instance

论文标题：Relational Prior Knowledge Graphs for Detection and Instance Segmentation机构：阿姆斯特丹大学、TomTom论文地址：https://arxiv.org/pdf/2310.07573.pdf开源代码（即将开源）：https://github.com/ozzyou/RP-FEM关键词：目标检测、实例分割。

2023-10-18 15:44:17 90

转载转载：[PR 2023] 基于部首自信息量的零样本汉字识别新方法Self-information of radicals: A new clue for zero-shot Chinese chara

论文以信息论的视角分析了部首在汉字识别中的重要性，提出了一种基于原型学习的特征提取网络，并针对：（1）基于序列匹配的识别方法，提出了汉字不确定性消除框架（CUE）；此外，在ZSCCR任务中，以往的方法通常假设所有部首对模型的识别贡献相等，忽略了罕见部首对识别结果的影响。本文提出的方法基于部首的自信息量（SIR）分析了部首在汉字识别中的重要性，并将SIR方法应用到基于序列匹配的方法和基于属性嵌入的方法中，分别提出了字符不确定性消除框架（CUE）和部首信息嵌入法（RIE）。（3）基于序列匹配的方法（CUE）。

2023-10-18 15:11:20 206

编写你自己的单点登录(SSO)服务

详解Vs2008下打包安装程序的一些技巧

css课件 学习CSS很有帮助

空空如也

css课件学习CSS很有帮助