时光机ﾟ-CSDN博客

原创【论文阅读笔记】Attention Is All You Need

这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练时间显著减少。在WMT2024的英语转法语翻译任务上，本文的Transformer模型在8张P100 GPU上训练。

2024-04-08 13:37:40 1150

原创【论文阅读笔记】Activating More Pixels in Image Super-Resolution Transformer

使用LAM方法测试（可以得到选择区域哪些像素贡献了最多），得到结论：虽然swinIR的平均指标更高，但基于transformer的swinIR的信息利用范围并不比基于CNN的RCAN方法要大，如下图所示。有效信息范围较小，但指标高，可能可以得出SwinIR比CNN方法拥有更大的映射能力的结论。但与此同时，由于其利用像素区域的范围有限，可能会恢复出错误的纹理。所以本文设计网络的时候考虑了在使用近self-attention结构的时候利用更多的像素用于重构。

2024-03-08 12:00:32 1177 2

原创【论文阅读笔记】Revisiting RCAN: Improved Training for Image Super-Resolution

通过更先进的训练策略，本文使用RCAN，在Manga109数据集的×2\times2×2任务上得到了0.44dB0.44 dB0.44dB的PSNR值提升，达到了39.88dB39.88dB39.88dB。这个指标已经足够优秀，可以媲美或者超过SOTA算法，比如CRAN和SwinIR。结合自集成推断（self-ensemble inference），PSNR可以进一步提升到40.04dB40.04dB40.04dB。

2024-02-23 09:42:02 1239 1

原创【论文阅读笔记】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network

网络的整体架构，是先进行×2\times2×2的下采样，缩小图像特征，以显著减少计算量，然后在最后使用×6\times6×6上采样。网络架构如上图所示。在训练阶段，提出三阶段训练管道来训练网络。首先训练一个卷积层通道大于“硬件最佳点”（hardware’s sweet spot）的网络。然后在不影响权重或梯度规范的情况下，使用全局结构化层裁剪（global structured layer pruning）。

2024-02-19 16:29:03 989

原创【论文阅读笔记】AsConvSR: Fast and Lightweight Super-Resolution Network with Assembled Convolutions

之前的高效网络都是基于低分辨率（360P/540P/640P），这次挑战的分辨率为720P或1080P，之前的性能就显得有些不足。本文的工作有重新评估一些复杂拓扑的网络架构，比如Enhanced Spatial Attention（ESA）和Residual Feature Distillation Block（RFDB这些结构可以提高SR网络的性能，但也会增加模型运行时间。所以本文的策略还是选择那些简单拓扑的网络，认为那是构建高效超分辨率网络的最佳选择。这些选择包括。

2023-11-23 16:39:07 347

原创【论文阅读笔记】Endoscopic navigation in the absence of CT imaging

大多数已开发的导航系统都是用于外科手术 [1, 2]。对于手术导航，几乎总是可以进行术前 CT 扫描，这些扫描在空气、骨骼和软组织之间具有高对比度。这使得外科医生能够更好地了解他们的位置、与周围骨骼和软组织的距离以及周围骨骼的厚度，使他们能够在手术过程中做出更明智的决定，并防止对附近的关键结构造成伤害，例如大脑、眼睛、视神经、颈动脉等。本文方法与上述方法的区别在于缺乏患者特定的手术扫描。为了弥补这个缺陷，作者利用过去的CT扫描来建立相关结构的统计形状模型。

2023-08-29 11:35:40 609

原创【论文阅读笔记】Advanced Endoscopic Navigation: Surgical Big Data, Methodology, and Applications

在介入治疗（Interventional）的内窥镜检查（比如支气管镜检查，结肠镜检查，腹腔镜检查，膀胱镜检查）已经是广泛实施的一种方式，是为了诊断可疑病变或指导体腔内各种器官的微创手术。内窥镜导航系统，寻求将大数据和患者解剖结构相关的多模态信息（比如计算机断层扫描、磁共振图像、内窥镜视频序列、超声图像、外部跟踪器等）集成，用于控制医用内窥镜和手术工具的运动，以及指导外科医生在使用内窥镜期间的行为。然而，实现下一代上下文感知导航内窥镜检查仍然具有挑战性。

2023-08-24 10:13:34 241

原创【论文阅读笔记】Fast Bilateral Filtering for the Display of High-Dynamic-Range Images

在拍照过程中，光线管理不善—主要角色之后的光线区域曝光不足或者过度是照片坏照的最常见原因。这就是相机制造商开发复杂的曝光测光系统的原因。不幸的是，曝光只能通过全局对比度管理。也就是说，它会将强度窗口重新定位在最相关的范围内。如果强度范围太大，照片将包含曝光不足和过度曝光的区域，如下图111最右边所示。本文的方法，将高动态范围图像作为输入，并在保留图像细节的同时压缩对比度，如Tumblin [1999]所介绍的那样。

2023-06-07 12:04:07 1072

原创【论文阅读笔记】Edge-Preserving Decompositions for Multi-Scale Tone and Detail Manipulation

作者认为，双边滤波非常适合去躁和精细尺度上的细节提取。但作者认为其不太合适任意尺度的细节提取，而任意尺度的细节提取对于多尺度解耦是必要的。比如，为了减少HDR图像的动态范围，通常对基础层进行非线性压缩映射，然后与（可能衰减或增强的）细节层重新组合[Pattanaik et al. 1998;Fattal et al. [2007]采用了相似的过程来增强形状和细节，除了他们的重点是增强和/或组合来自多个来源的细节层，而不是压缩整体动态范围。在增强的时候，图像被分为基础层和细节层。

2023-06-05 11:47:17 501 1

原创【论文阅读笔记】Contrast image correction method

在图像处理领域，已经有几种调整图像对比度的方法。通常，可以将这些算法分为两类对比度校正：全局校正和局部校正。当必须同时调整阴影和高光细节时，全局对比度校正可能会产生令人失望的结果。另一方面，局部对比度校正的优点是它们提供了一种将一个输入值映射到许多不同输出值的方法，这取决于相邻像素的值，并允许以这种方式同时进行阴影和高光调整。在全局对比度增强技术中，ganma校正和直方图均衡化是最常见的。在图像原始灰度分布的基础上，将图像的直方图重塑为不同的具有均匀分布特性的直方图，以增强对比度。

2023-05-29 21:11:57 697 1

原创【论文阅读笔记】Domain Transform for Edge-Aware Image and Video Processing

本文提出了一种实时对图像和视频执行高质量边缘保留过滤的方法，主要是通过基于距离的1D卷积核来完成2D卷积的操作，这也是对称卷积中较为常用的加速方式。但这里不同的地方在于，它不是对称卷积，两个1D卷积核都是基于邻间像素距离来实现自适应边缘保留滤波。本文的域变换和边缘保留滤波可以实现多种功能，包括边缘保留过滤、景深效果、风格化、重新着色、着色、细节增强和色调映射。本文实现了三种边缘保留的一维卷积：基于归一化的卷积，插值卷积和递归方式的卷积。这些滤波器都有非常明显的脉冲响应，使得每一个都有更适合其特定的应用。

2023-03-30 20:30:39 627 2

原创在bash通过前缀使用Up/Down匹配历史命令

通过前缀，使用Up/Down按键自动补全历史命令。（定向搜索历史命令）机器比较多，总是重复检索，记录一下。

2023-03-27 09:28:52 144

原创【论文阅读笔记】Multi-Scale Separable Network for Ultra-High-Definition Video Deblurring

1

2023-02-11 14:09:34 207 1

原创【论文阅读笔记】EndoL2H: Deep Super-Resolution for Capsule Endoscopy

胶囊内窥镜超分

2023-01-06 16:42:04 832 1

原创【论文阅读笔记】CycleISP: Real Image Restoration via Improved Data Synthesis

真实图像去噪

2022-12-20 15:08:57 1293 1

原创【论文阅读笔记】Noise2Noise: Learning Image Restoration without Clean Data

无监督去噪

2022-12-08 21:04:20 992 1

原创【论文阅读笔记】NTIRE 2022 Burst Super-Resolution Challenge

连拍超分

2022-12-06 15:46:44 747

原创【论文阅读笔记】A review of the deep learning methods for medical images super resolution problems

医疗图像超分综述

2022-12-01 20:04:03 867 1

原创【论文阅读笔记】Pyramid Real Image Denoising Network

去噪

2022-12-01 00:41:16 510

原创【论文阅读笔记】Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

RepLKNet

2022-07-20 11:03:27 1516

原创【论文阅读笔记】NITRE 2022 Challenge on Efficient Super-Resolution: Methods and Results

ESR竞赛

2022-06-30 15:17:41 2949 2

原创 Python安装skimage库，及其引用异常排查

skimage库的安装，也就是scikit-learn，直接使用pip即可安装pip install scikit-learn出现的问题在引用skimage的时候，出现相关库找不到的问题，描述为： from scipy.linalg import _fblas # 最后引发问题的地方ImportError: DLL load failed: 找不到指定的模块。无效尝试：有的人在库的链接上，下载了相关轮子，安装了就能用。但对我无效，下载地址为https://www.lfd.uci.edu/~

2022-04-21 12:02:24 3639

原创【C++基础】头文件定义问题导致的重定义问题

定义语句放在头文件可能会产生重定义问题，所以尽量定义语句不要放在头文件中。多个不同文件引用同一个头文件，或者同一个文件多次引用一个头文件，就可能会产生重定义问题。因为每次包含某个头文件的时候，相当于将该文件下的局部变量或者内联函数进行了全局化。因此，多次包含同一个头文件就可能会产生重定义问题；出现问题的代码编号可能有C2084，函数" "已有主体以及C2374，重定义；多次初始化；解决方法也很简单，添加头文件保护符就行：#ifndef tmp_H#define tmp_H/*代码在

2022-03-22 20:11:36 4024 2

原创【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge

论文地址：https://arxiv.org/abs/2105.08826论文小结这比赛的目标是在移动手机上得到实时运行的视频超分算法，目标在480p（实际上是180∗30180*30180∗30）分辨率输入下得到HD分辨率，且有80FPS。训练数据集为REDS，4倍超分，在OPPO Find x2手机上，865的芯片，Qualcomm Adreno 650 CPU，浮点数网络（之前的SISR目标是定点数网络）。视频超分比赛输入为180∗320180*320180∗320，目标是4倍上采样，图

2022-03-16 14:53:02 4489

原创【论文阅读笔记】Real-Time Quantized Image Super-Resolution on Mobile NPUs,Mobile AI 2021 Challenge: Report

论文地址：https://arxiv.org/abs/2105.07825论文小结这是2021年的一个移动端超分算法的比赛，其要求的目标平台有只能运行INT8的电视等，所以要求模型是全量化的。模型算法的目标是3倍超分，到1080P分辨率，即640∗360640*360640∗360到1920∗10801920*10801920∗1080，目标时间是404040-606060ms之内完成。模型的运行时间是在Synaptics VS680 Smart Home board with a dedicate

2022-03-04 15:05:54 3823

原创【论文阅读笔记】Extremely Lightweight Quantization Robust Real-Time Single-Image Super Resolution for Mobile

论文地址：https://arxiv.org/abs/2105.10288代码地址：https://github.com/cxzhou95/XLSR论文小结本文的方法名为 XLSR ，名义上获得了2021年Mobile AI SISR比赛的冠军。该比赛目标是移动平台，模型的所有参数和推理都需要是INT8量化的，所以该比赛下的论文模型都是INT8量化的。总得来说，论文所做基本可分为两点：（1）选择一个合适的基础框架模块；（2）为SR模型的输出添加一个Clip ReLU模块；

2022-02-23 18:27:08 968

原创【论文阅读笔记】Lightweight Image Super-Resolution with Enhanced CNN

论文地址：https://arxiv.org/abs/2007.04344代码地址：https://github.com/hellloxiaotian/LESRCNN)论文小结本文的模型名字叫做 LESRCNN ，为lightweight enchanced SR CNN。目标与名字一样，想弄一个轻量级可以在端上推理的模型。作者的设备为 I7-7800 和 1080Ti，内存大小为16G，推理时长如下图所示。模型主体有23层卷积层，卷积核为3∗33*33∗3和1∗11*11∗1交替进行，看起来不小

2022-02-16 15:26:22 3178

原创【论文阅读笔记】Real-Time Super-Resolution System of 4K-Video Based on Deep Learning

论文地址：https://arxiv.org/abs/2107.05307代码地址：https://github.com/Thmen/EGVSR论文小结本文的方法名为 EGVSR ，Efficient and Generic video Super-Resolution，意味通用的高效视频超分方法，基于时空对抗学习得到时空相干性。论文中称EGVSR在GPU上能达到 [email protected]，[email protected]，[email protected] 的速度，但是并未指明所使用的GPU和CPU型号的平台(有

2021-09-28 17:33:30 1723

原创 python导入Scipy子模块失败（DLl load failed）

触发代码：from scipy import signal而使用import scipy是能够正常运行的。从https://blog.csdn.net/u010585964/article/details/77891502得到解决方案，要numpy 和scipy同时安装；详情请见上面链接。

2021-09-26 10:38:03 1653

原创【论文阅读笔记】Real-Time High-Resolution Background Matting

论文地址：https://arxiv.org/abs/2012.07810代码地址：https://github.com/PeterL1n/BackgroundMattingV2论文小结本文的方法名为BGMv2，其前身为Background Matting: The World Is Your Green Screen（512*512分辨率下达到8fps）是一个不需要Trimap的Matting方法。本系列的方法，需要提供一个背景图片，但不需要完全精确对齐的背景。前文提供了一个效果较好的提升模型，

2021-09-23 17:31:42 2162 1

原创【论文阅读笔记】Image Inpainting for Irregular Holes Using Partial Convolutions

论文地址：https://arxiv.org/abs/1804.07723论文小结本文提出一种图像修复的方法，其使用Partial Convolution，可以实现当时最先进的图像修复效果（1804）。本文的模型可以稳健地处理任何形状、大小、位置和距离图像边界的Holes。而且本文的方法性能不会随着孔洞的增大而急剧恶化。之前的方法，mask中的holes在图像中的表示是使用替代值，通常是使用均值。这对于卷积而言是无法区分是否是人工信息的，且以前的方法通常解决的对象都是mask为矩形的。本文使用

2021-08-24 19:57:59 3693 5

原创【论文阅读笔记】Partial Convolution based Padding

论文地址：https://arxiv.org/abs/1811.11718代码地址：https://github.com/NVIDIA/partialconv论文小结本文提出一种有效地解决因padding造成的无效信息增加的方案。本文提出的解决方案借鉴于partial convolution的思想，以此一起解决padding造成的问题，可以在边界处得到更有效的检测，可以得到比zero-padding要好的结果（在分类和语义分割问题上有验证）。直观上来说，partial convolut

2021-08-23 21:22:51 2083

原创【论文阅读笔记】One Shot 3D Photography

论文主页：https://facebookresearch.github.io/one_shot_3d_photography/代码地址：https://github.com/facebookresearch/one_shot_3d_photography 该3D照片方向，由于刚入门，所以会倾向于翻译文章。每个操作上的选择，及为什么不进行另外操作的原因都如数放上。论文小结本作的工作是从单张RGB图片生成一个移动视角的3D照片。其管道大致如下：由RGB图像通过单目深度估计网络估计深度图

2021-08-20 19:39:31 1014

原创调用百度人体关键点识别API

首先在百度智能云上建立对应的应用，生成AppID、API Key和Secret Key。单张调用生成结果如下：import cv2from aip import AipBodyAnalysisclass BaiduAIP(object): def __init__(self): APP_ID = '' API_KEY = '' SECRET_KEY = '' self.client = AipBodyAnalysis(AP.

2021-06-04 10:21:12 599

原创 getAffineTransform函数C++和python输出不一致

C++的OpenCV版本为4.1.0，python的OpenCV版本为4.4.0；问题表现为，getAffineTransform函数，两个版本的输出不一致；但发现与warpAffine配套使用后，表达的效果和数值一致。测试代码bool test_getAffineTransform(){ Mat img; img = imread("E:\\test.jpg"); int height, width; height = img.rows; width = img.cols; Poi

2021-04-23 11:54:16 669 1

原创【论文阅读笔记】Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

论文地址：https://arxiv.org/abs/2012.15175代码地址：https://github.com/greatlog/SWAHR-HumanPose论文总结本文所针对的问题，是Bottom-up方法中的不同对象尺度会造成的问题。同一张图的不同尺度对象所对应的感受野不同，因此也应该有不同kernel size的高斯核heatmap。所以对于bottom-up方法，尺度适应的heatmap回归方法自适应每个keypoint的标准差，与此同时，提出自适应权重heatmap回归的损失

2021-04-19 20:15:08 2829

原创 opencv写视频相关问题

写视频初始化Size size = Size(width, height);VideoWriter writer;writer.open(dstPath, cv::VideoWriter::fourcc('M', 'J', 'P', 'G'), capture.get(cv::CAP_PROP_FPS), size, true);写入帧writer.write(tmpCropImg);最后要releasewriter.release();其中，初始化的时候，容易出现一些问题。我使用的是

2021-03-26 15:37:27 268

原创 C++操作，opencv的resize函数src和dst相同，改变Size，不改变表示。

C++操作，opencv的resize函数定义为 resize(src, dst, cv::Size(width, height), 0, 0, interpolation);src和dst相同的话，即操作为resize(src, src, cv::Size(width, height), 0, 0, interpolation);会使得dst的size变为width*height，但show出来的时候，大小仍旧和src一样，并未改变；...

2021-03-25 21:18:32 1228

原创 C++操作，对opencv的Mat进行切片

类似于python的切片操作的简化版本，cv::Mat的操作中，如果使得frame(cv::Rect(x, y, width, height))，则可以得到从坐标(x, y)开始，宽为width，长为height的“切片”；

2021-03-25 20:53:50 2470 1

原创【论文阅读笔记】Simple and Lightweight Human Pose Estimation

论文地址：https://arxiv.org/abs/1911.10346代码地址：https://github.com/zhang943/lpn-pytorch论文总结本文网络名叫LPN。本文的核心目的，其实也就是实现轻量级的姿态检测网络。其做法方式也相对比较传统和简单，实际上就是对backbone进行轻量级设计。网络架构如下图所示：在Downsample的部分，样式和ResNet-18是一样的，但实际上采用的是ResNet-50的结构（bottleneck block），只是将expansio

2021-03-11 15:19:03 1402

空空如也

空空如也