cskywit-CSDN博客

原创 Understanding Diffusion Models: A Unified Perspective翻译和公式补充解读

“Understanding Diffusion Models: A Unified Perspective”是一篇写的非常好的扩散模型DDPM数学原理解读文章，这里翻译了一遍，对于一些细节补充记录一下，方便对照原文更好的理解。这篇文章作者是Calvin Luo，来自Google Research的Brain Team，详细介绍了生成模型（Generative Models）的背景知识，包括证据下界（Evidence Lower Bound, ELBO）、变分自编码器（Variational Autoen

2024-04-10 23:13:45 980

原创【论文阅读笔记】Mamba模型代码理解

Mamba模型代码实现及理解

2024-04-07 08:47:58 1237 2

原创【论文阅读笔记】SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

论文提出 3D 医学图像分割Mamba模型，与基于 Transformer 的方法相比，SegMamba 在状态空间模型的整个体积特征建模方面表现出色，体积特征的分辨率为 64×64×64。在BraTS2023数据集上进行验证。图片已经画得很清楚，都是基本块组成，只是将transformer块中的CNN换成了mamba块。在BraTS2023 数据集实验效果。

2024-01-26 08:12:15 539 3

原创【论文阅读笔记】Towards Universal Unsupervised Anomaly Detection in Medical Imaging

医学图像异常检测

2024-01-25 15:30:14 1390 1

原创【论文阅读笔记】MOSformer: MOmentum Encoder-based Inter-Slice Fusion Transformer for Medical Image Segmentat

提出了一种新型的用于医学图像分割的深度学习模型MOSformer。它主要通过双编码器设计和动量更新方法来提高2.5D医学图像分割模型的性能，其中一个编码器使用动量更新保持切片表示的一致性。此外，它还引入了一种名为IF-Swin的变换器模块，通过在切片维度扩展窗口自注意力机制，实现多尺度特征图之间的有效融合。

2024-01-24 10:25:34 1012

原创【论文阅读笔记】MGIML: Cancer Grading with Incomplete Radiology-Pathology Data via Memory Learning and Gradi

本文提出了一个新的框架，名为MGIML，用于处理不完整的放射学-病理学数据进行癌症分级。主要创新在于利用记忆学习和梯度均衡化来处理数据的不完整性问题。具体来说，论文介绍了两个关键方案：记忆驱动的异质模态补全（MH-Complete）和旋转驱动的梯度均衡化（RG-Homogenize）。这些方法旨在提高模型在处理不完整数据时的性能，通过记录和阅读跨模态记忆来补充丢失的模态信息，同时优化梯度方向和大小的冲突，以提高癌症分级的准确性和效率。

2024-01-23 17:21:46 981 1

原创【论文阅读】Augmented Transformer network for MRI brain tumor segmentation

本文的创新之处在于构建了改进的增强型transformer 模块，这些模块结合了标准transformer 块中的增强短路（Augmented Shortcuts），被策略性地放置在分割网络的瓶颈处，以保持特征多样性并增强特征交互和多样性。Kra 和 Simanca, 2012）在傅里叶域上通过快速傅里叶变换（FFT）的效率和有效性的启发，循环矩阵和向量之间的乘积带来了较小的计算复杂度。这样的设计允许网络在每一层中捕获和融合更加丰富和多样化的特征，有助于提高模型的性能和鲁棒性。扮演循环矩阵的角色，

2024-01-22 16:13:46 650 1

原创【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter6 Combining Orthogonal and

HIPPO指定了一类特定的矩阵。

2024-01-22 11:38:35 1183

原创【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter5 HIPPO as Orthogonal SSMs

如果一个状态空间模型（SSM）由。

2024-01-22 10:54:13 1093 1

原创长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter4 HIPPO

给定。

2024-01-21 16:01:39 1202

原创【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter3 Computing SSMs

Chapter 3 Computing Structured SSMsGu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.本文是MAMBA作者的博士毕业论文，为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文，由于知识水平有限，只能尽自己所能概述记录，并适当补充一些相关数学背景，欢迎探讨与批评指正。内容多，分章节更新以免凌乱。第3章讨论了结构化状态空间模型（SSM），特别是S

2024-01-21 10:35:48 1107

原创【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter2 Sequence Modeling with S

离散化后的SSM被定义为一个序列到序列的映射。

2024-01-19 23:41:48 1163

原创【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter1

这篇文档的摘要介绍了在机器学习领域的显著进步，特别是在序列模型方面，这些模型对深度学习在各种科学应用中的成功至关重要。尽管目前的方法取得了成功，但它们在处理复杂的序列数据（如涉及长期依赖性的数据）时存在限制，例如需要大量的特定任务专业化、计算效率低下等问题。为了解决这些问题，论文介绍了一种使用状态空间模型的新方法。这些模型灵活、理论基础扎实、计算效率高，并且在多种数据类型和应用中表现出色。它们扩展了标准深度序列模型（如循环神经网络和卷积神经网络）的功能。

2024-01-19 17:53:39 597

原创【论文阅读笔记】Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumo

在BraTS2018和BraTS2019数据集上，该方法展现出优越性能，超越了单模态方法和多种最新的多模态方法，实现了高准确性和鲁棒性的脑肿瘤分级。特点：RMC结合了2D和3D卷积，包括一个包含3D卷积层的主体，一个3D卷积块和三个2D卷积块。特点：利用主要模态的高级别特征和次要模态的低级别特征之间的引导，来强调更具信息性的特征，同时抑制较少信息的特征。根据单模态模型的表现，将模态分为主要模态和次要模态。将其提出的方法与三种基本的多模态融合方法以及两种现有的MRI多模态分类方法进行了比较。

2024-01-19 11:34:56 430 1

原创【论文阅读笔记】U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

在四个不同的任务上进行了广泛的实验：CT和MR图像中的3D腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。将CNN的局部特征提取能力与状态空间序列模型（SSM）的长程依赖性能力相结合。U-Mamba采用了一个编码器-解码器（encoder-decoder）的网络结构，这种结构能够同时捕获局部特征和长程上下文。 U-Mamba块的核心是结合了卷积层和SSM的混合块。本文对Mamba结构用于图像领域进行了简单的探索，就结构来说没有特别多创新，就是插入了Mamba块，但可以遇见下一个坑的到来。

2024-01-18 11:18:17 1521 1

原创【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

与传统的逐层处理不同，SAM3D能够在整个体积上处理图像，更有效地捕捉切片间的深度关系，同时维持模型的简单性和计算效率。：通过在多个医学图像数据集上的实验，只需要单2080TI GPU，SAM3D显示了与当前最先进的3D神经网络和基于Transformer的模型相当的性能（其实弱很多），同时在参数数量上大大减少。去除了SAM中的prompts Encoder：因为解码器必须处理 3D 体积数据，所以不能使用 SAM 的掩模解码器，它是专门为 2D 自然图像设计的。

2024-01-18 10:31:05 866 1

原创【论文阅读笔记】Modality-Specific Information Disentanglement from Multi-parametric MRI for Breast Tumor Seg

但最终目标不是生成几乎相同的图像，只希望合成图像能够保留原始结构信息，但具有其他模态样式，例如肿瘤区域的 ADC 模态中的低强度和 T2w 模态中的高强度。置信度分数的计算考虑了当前模态与其他模态（例如DCE-MRI和ADC）的相互关系，从而确保每个模态贡献的信息是基于其与其他模态相比的相对重要性和可靠性。：提出了一种新的特定模态信息解耦（MoSID）框架，该框架能够有效地从多参数MRI中提取并利用跨模态和内模态的注意力图，这些图作为指导肿瘤分割的先验知识。步骤 3 利用特定于模态的信息来增强分割性能。

2024-01-17 15:34:53 373

原创【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

4篇应用解耦表示学习的文章，这里只关注如何解耦，更多细节不关注，简单记录一下。

2024-01-17 11:03:54 1281 1

原创【论文阅读笔记】Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

门控融合技术：用于将这些解耦后的特征有效地结合起来，形成一个统一的特征表示，用于后续的肿瘤分割任务。在缺失模态场景下，如果不仔细考虑，融合表示会受到来自空输入通道的噪声信息的影响，那么模型的性能将不可避免地下降。具体来说，将来自每个模态的解耦的内容编码连接起来，然后输入到输出通道为M的卷积层。这种方法增强了面对缺失数据时分割过程的鲁棒性，并在多种缺失模态的场景中显示出显著的改进。特征解耦部分：负责将不同成像模态（如MRI）的数据分解为模态特定的外观特征和跨模态的内容特征。方法是将输入的多种成像模态解耦为。

2024-01-16 17:10:23 441 1

原创【论文阅读笔记】Multi-modal brain tumor segmentation via disentangled representation learning and region-awa

此外，提出了一种区域感知的对比学习方法，以进一步引导网络学习与目标区域相关的特征表征，从而提高分割精度。为了解决这个问题，作者提出了将学到的特征表示分解为与目标肿瘤区域相对应的多个因子，使网络能够提取对分割任务更有意义的特征。总体来说，2.1节强调了解耦表征学习在提高特征表示效果和可解释性方面的重要性，并展示了它在处理复杂的医学图像数据，尤其是脑肿瘤分割方面的潜力。：在实现上，作者采用了一种对比损失函数，这种损失函数鼓励模型产生的特征表征在相似区域内紧密，而在不同的区域间相隔较远。

2024-01-16 15:11:35 914 1

原创【论文阅读笔记】MedTransformer: Accurate AD Diagnosis for 3D MRI Images through 2D Vision Transformers

这个架构主要由四个部分组成：跨视图的自注意力编码器（Self-Attention Encoders, SAE）、特定维度的自注意力编码器（Dimension-specific Self-Attention Encoders, DS-AE）、维度内交叉注意力编码器（Intra-dimension Cross-Attention Encoders, IntraCAE）和维度间交叉注意力编码器（Inter-dimension Cross-Attention Encoders, InterCAE）。

2024-01-16 10:22:13 426 1

原创【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

这种方法基于预训练的神经网络，通过插入可学习的提示令牌（prompt tokens）来适应新的下游任务，例如在语义分割中识别新的类别。实验结果表明，这种提示调整方法在医学图像分割任务中，即使在标注数据稀缺的情况下，也能达到令人满意的性能，同时大大减少了所需调整的参数数量。：PUNet的设计允许网络通过非冻结的（可学习的）提示令牌进行适应，这对于医学成像数据的分割任务来说是足够的。：在PUNet中，提示令牌被深入地插入到网络中，这允许对编码的图像内容在网络的不同层次上进行调整。

2024-01-14 10:55:09 1275 1

原创【论文阅读笔记】Segment Anything Model for Medical Image Segmentation: Current Applications and Future Direc

这一节还讨论了SAM在医学图像分割中的应用，包括评估其在不同成像方式下的零样本性能和探索适应医学图像分割的方法。例如，MedLSAM模型采用了基于少量样本的定位过程，通过识别3D医学图像中的感兴趣解剖结构的3D边界框，进而从3D框中导出2D框，指导SAM自动分割目标解剖结构。这部分的核心思想是，鉴于SAM对输入提示的高度敏感，通过不确定性的评估和处理，可以更可靠地预测分割结果，尤其是在医学成像这一领域，分割的准确性在临床程序中极为重要。这些模型在各种任务中的成功引起了广泛的兴趣和适应，包括医学图像分析。

2024-01-13 11:11:40 906 1

原创【论文阅读笔记】医学多模态新数据集-Large-scale Long-tailed Disease Diagnosis on Radiology Images

因此，构建了一个涵盖39026个病例（192675次扫描）、7个人体解剖区域和9种不同模态的长尾多扫描医学疾病分类数据集，覆盖了930个ICD-10-CM代码和5568种疾病，称为Radiopaedia3D诊断数据集（RP3D-DiagDS）。在架构设计上，展示了一个支持来自各种模态的2D和3D输入的新模型，以及用于全面诊断的基于变压器的融合模块。第三，在ICD-10-CM的无序映射过程中，注释器被标记在类名称级别，即仅提供无序名称，导致一些不明确的类无法找到严格对应的ICD-10-CM代码。

2024-01-05 09:38:10 1577 3

原创【论文阅读笔记】两篇完整模态脑瘤分割

两篇完整模态脑瘤分割论文，都是使用Transformer，没有什么特别的特色，也没有开源代码，因此只是简单记录一下。

2024-01-04 00:03:32 1275

原创【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

本文的核心思想是提出一种名为“共享-特定特征建模（ShaSpec）”的方法，用于处理多模态学习中的缺失模态问题。该方法在训练和评估期间利用所有可用的输入模态，通过**学习共享和特定的特征**来更好地表示输入数据。这是通过**基于分布对齐和领域分类的辅助任务**以及**残差特征融合**过程来实现的。ShaSpec的设计简单，易于适应多种任务，如分类和分割。实验结果表明，ShaSpec在医学图像分割和计算机视觉分类方面的表现优于竞争方法。例如，在BraTS2018数据集上，ShaSpec在增强肿瘤、肿瘤核心和整

2024-01-02 09:36:09 1195

原创【论文阅读笔记】A literature survey of MR-based brain tumor segmentation with missing modalities

这篇文献综述重点探讨了在磁共振成像（MRI）用于脑肿瘤分割时面临的一项主要挑战：部分MRI模态的缺失（本文将范围限定为**在训练期间可以使用完整的 MR 模式，而在测试期间可以缺少一种或多种模式**）。文中详细分析了各种先进的分割技术，如基于图像合成、潜在特征空间、多源相关性、知识蒸馏和域适应等方法，这些方法旨在克服在实际临床场景中常见的模态缺失问题。综述不仅比较了这些方法的原理、优缺点和适用性，还讨论了用于评估这些技术的不同数据集和评估指标。文章最后强调了在缺失模态下脑肿瘤分割领域的未来研究方向，突出了开

2023-12-31 00:19:53 938 1

原创【论文阅读笔记】MissModal: Increasing Robustness to Missing Modality in Multimodal Sentiment Analysis

这篇论文由中山大学的林荣昊和胡海峰撰写，主要聚焦于提高多模态机器学习在多模态情感分析（MSA）领域的鲁棒性

2023-12-28 08:30:57 863

原创 SAM类医学图像分割选读概述

SAM类医学图像分割选读概述

2023-12-27 11:48:52 1064

原创【论文阅读笔记】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

本文思路借鉴于自然图像分割领域的**SAM**，介绍了一种名为SegVol的先进医学图像分割模型，旨在构建一种**图像分割基础模型**，这是一个面向体积医学图像分割的通用和交互式模型。SegVol的设计目的是通过处理各种解剖类别来提高医学图像分割的准确性和效率。该模型通过在9万个未标记的计算机断层扫描（**CT**）体积和6千个标记的CT体积上进行训练，能够支持超过**200个解剖类别的分割**，**模型利用语义和空间prompts来实现**。SegVol通过使用轻量级架构实现高效率，采用**“缩小-放大”

2023-12-24 15:07:06 863 2

原创【HCIP学习记录】OSPF Hello报文及状态机

测试将AR1 router-id改为和AR2一样。可以在终端debug看到OSPF状态变迁。

2023-12-20 23:17:40 603

原创【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

本文提出了一种名为“标签辅助变换器编码器（TATE）网络”的新型多模态情感分析方法，旨在解决在不确定的多模态数据中部分模态缺失的问题。该方法通过引入一个标签编码模块来处理单个或多个模态的缺失情况，引导网络注意力集中于缺失的模态。此外，还采用了一种新的空间投影模式来对齐共同的向量，并使用变换器编码器-解码器网络来学习缺失模态的特征。实验表明，该模型在CMU-MOSI和IEMOCAP数据集上比几个基准模型表现更好，显示了该方法的有效性和优越性。

2023-12-20 11:17:51 1090 3

原创【论文阅读笔记】MMMViT: Multiscale multimodal vision transformer for brain tumor segmentation with missing m

本文介绍了一种名为多尺度多模态视觉变换器（MMMViT）的新方法，用于解决脑肿瘤分割中缺失模态的问题。MMMViT 利用跨模态之间的相关性，将直接融合可用模态特定特征到共享潜在空间的过程分解为两个简单步骤，以降低学习共享潜在表示的难度。此外，该方法通过卷积编码器为每种模态提取的局部多尺度特征，输入到模态内部的变换器块中，从而隐式捕获全局多尺度特征，以适应不同大小的脑肿瘤。MMMViT 在 BraTS 2018 数据集上的验证结果表明，该方法不仅在大多数输入案例中优于现有的 mmFormer 方法，而且还提高

2023-12-20 09:32:47 954

原创【论文阅读笔记】BTS-ST: Swin transformer network for segmentation and classification of multimodality breast

Swin UNETR结合了Swin Transformer（作为编码器）和基于卷积神经网络的解码器，通过不同分辨率的跳跃连接相连。在BraTS 2021挑战中，Swin UNETR在验证阶段名列前茅，并在测试阶段展现出了竞争力的性能，显示出其作为一个新类别的分层编码器的Transformer基础模型在脑肿瘤分割任务中的潜力。本文模型使用Swin Transformer（Encoder）+类Unet（Decoder），由于是BraTS 2021挑战赛作品，使用数据集单一，网络结构图画的很清楚，不做展开记录。

2023-12-19 09:05:13 465

原创【论文阅读笔记】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

这项研究显示，TraBS模型在内部和外部验证集上的表现优于现有的基于卷积神经网络的模型（如nnUNet），尤其在处理乳房密度和背景腺体增强（BPE）方面的自动量化评估。研究的目的是提高乳房MRI筛查中乳房密度和腺体增强量化的准确性。这些结果表明，相较于传统的基于CNN的模型，基于变压器的TraBS模型在乳房MRI中纤维腺体组织的分割任务上表现出更高的精度和泛化能力。重点对比了基于Transformer的模型TraBS与传统的基于卷积神经网络的模型（如nnUNet）在内部数据集和外部数据集上的性能表现。

2023-12-19 08:46:41 980

原创【HCIP学习记录】OSPF之DD报文

OSPF DD报文解读

2023-12-19 00:00:37 1183

原创【论文阅读笔记】Pre-trained Universal Medical Image Transformer

具体来说，在三维医学图像中，体素可能在垂直于切片的方向（通常是Z轴）上的尺寸与在切片内（即X轴和Y轴）的尺寸不同。引言部分还提到，尽管存在大量未标记数据，但医学图像在成像方式（例如CT、MRI、超声等）和空间属性（如2D和3D空间维度、不同的体素间距和空间形状）方面的高度异质性，使得使用统一的模型结构处理所有类型的医学图像变得非常困难。本文的目标是通过引入空间自适应卷积（SAC）模块和改进的视觉标记器，预训练一个能够处理广泛医学图像的通用视觉变换器，以解决在医学图像分析中标记数据稀缺的问题。

2023-12-18 16:48:22 1331

原创【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

同时，还探讨了这些方法在不同医学图像模态（如CT、MRI、X射线等）中的实际应用，以及它们面临的挑战和未来的发展方向。这一部分从四个方面探讨了ViTs在医学图像分割中的应用，包括ViT在编码器（Encoder）、解码器（Decoder）、编码器-解码器中的应用，以及ViT在编码器和解码器之间的应用。本文中规中矩，对涉及到的方法只是简单陈列，并没有细致的优缺点探讨，可以作为寻找对应方向论文的一个参考，笔记中对涉及到的方法根据之前读文经历进行简单的优缺点归纳。ViT在解码器(decoder)中的应用。

2023-12-18 09:02:19 1483

原创【论文阅读笔记】Medical Vision Language Pretraining: A survey

在本文中，特别审视了现有工作，通过不同的预训练目标、架构、下游评估任务和用于预训练及下游任务的数据集的视角。在预训练阶段，自监督方法不依赖于真实标签，而是使用数据中的其他形式的自生成的监督作为目标函数来训练预测模型。预训练后，训练好的模型用于学习使用真实标签的特定下游任务。不同的视觉提示往往在不同的视图上更明显，并且利用这些不同的视角（如果可用）可以增强学习的表示，并证明在下游评估任务中是有益的。：利用预训练模型的泛化能力，通常通过将分割任务转化为模型可以处理的形式，如利用模型在预训练过程中学到的特征。

2023-12-14 09:42:06 1265

原创【论文阅读笔记】RAAGR2-Net: A brain tumor segmentation network using parallel processing of multiple spatial

这一部分就是在DeepLab基础空间金字塔池化（ASPP）基础上做了微小改变，通过设置不同的膨胀率，使用空洞卷积提取不同尺度的特征，与ASPP不同，RASPP模块包括附加的残差分支，其将原始特征连接到从不同膨胀率提取的特征。Attention gate (AG) module：AG是模仿人类视觉学习算法，专注于目标位置，并学习最大限度地减少冗余特征的特征图，同时强调重要的特征信息，以执行特定的任务，从图中可以看出来就是普通的注意力加权，只是换了一种说法而已。这种不均匀性会模糊病变特征，影响神经网络学习。

2023-12-13 09:31:31 902

DataSocket技术在网络化测试中的应用

空空如也