watersink-CSDN博客

原创 unet改进笔记

改进2：基于图片拼接的数据增强，需要修改图片和标签，在utils/data_loading.py中__getitem__函数增加。改进3：训练图片分布的随机扰动，在utils/data_loading.py中__getitem__函数增加。调用方式，在utils/data_loading.py中__getitem__函数增加。改进5：MobileV3Unet，新增mobilenet_unet.py。改进6：VGG16UNet，新增vgg_unet.py。改进7：HNet，新增HNet.py。

2024-04-16 18:19:18 147 2

原创车道线检测之LaneNet

聚类分支负责将同一车道线的像素汇聚，不同车道线的像素拉开，输出聚类图。得到分割分支和聚类分支的结果后，需要进行后处理操作，对分割结果进行几何形态学处理从而去除孔洞，对去除孔洞的图像进行连通域处理，得到不同的连通域，对不同连通域图像基于聚类分支结果进行赋值，然后基于dbsan聚类，得到最终的实例分割结果。基于实例分割图，通过预先训练好的H-Net转化为鸟撖图，再基于曲线拟合得到车道线的曲线方程，从而得到像素点，将鸟撖图的像素点通过H-Net的逆变换矩阵还原到原图上，最终得到最终的车道线像素点。

2024-03-19 16:39:52 690

原创基于华为atlas的unet分割模型探索

使用工具Netron查看模型结构，确定模型输入节点名称为input.1，输出节点名称为/outc/conv/Conv。华为atlas的参考案例细节不到位，步骤缺失较多，摸索困难，代码写法较差，信创化道路任重而道远。模型输入为572*572*3，输出为572*572*2。分割目标分别为，0：背景，1：汽车。Unet模型使用官方基于kaggle。

2024-03-05 16:58:17 583 2

原创基于华为atlas的分类模型实战

修改mobilenetv3.py中网络结构，模型选用MobileNetV3_Small模型，网络输出节点增加softmax层，将原始的return self.linear4(out)修改为return F.softmax(self.linear4(out), dim=-1)分类模型选用基于imagenet训练的MobileNetV3模型，分类类别为1000类。模型的输出node增加softmax成功。模型的输入node名称为input.1。实现转化onnx代码，

2024-02-27 16:29:02 655 4

原创华为atlas300安装教程

【代码】华为atlas300安装教程。

2023-12-20 11:52:01 606

原创基于华为atlas的烟火检测实战

实现信创化的docker file用于生成docker image，初始系统选择openeuler-20.09系统，docker file文件内容如下，将yolov5的best.onnx模型拷贝到当前目录，进行onnx转化为om，输出yolov5_add_bs1_fp16.om。基于flask实现烟火检测算法的http服务，然后实现视频解码-AI识别-结果绘制于视频上进行视频编码的业务代码。最终效果如下，上边为业务代码、左下角为流媒体引擎代码、右下角为AI服务代码、中间为AI实时视频识别效果。

2023-12-20 11:17:33 824

原创 AI开发训练平台功能梳理

2023-12-15 16:57:05 499

原创视频分类（Classification）和摘要（Captioning）总结

例如，在视频分析中，3D CNN可以检测动作、行为和事件，为视频分类、视频理解和动作识别等任务提供强大的能力。例如，在动作识别任务中，光流信息可以帮助区分不同的动作类别，而RGB信息可以提供更多的上下文信息。然而，与2D CNN相比，3D CNN具有更高的计算复杂性和更大的模型参数量，因此可能需要更多的计算资源和数据来训练。基本思路使用2dcnn或者3dcnn提取rgb视频或者光流视频每一帧的特征，将得到的每一帧的特征输入LSTM或者Transformer这样的语言模型进行学习，从而输出任意形态的句子。

2023-07-14 09:05:55 1920

原创非局部attention之Non-local

Non-local和全连接层fc也是有区别的，第一，fc依靠学习的权重计算两个位置的关系，non-local计算两个位置的关系却不依赖输入的数据本身。其中，i表示输出位置的索引，j表示输入位置的索引，x表示输入特征，y表示和x同样大小的输出特征，f函数表示计算位置i和位置j之间的联系，计算结果使用一个常数表示。G函数表示计算输入特征在位置j处的特征表示。传统的卷积需要依靠不断一层一层堆叠来获得足够大的感受野，这样操作存在几个问题，第一，计算不高效，第二，优化训练过程麻烦，第三，使得模型有多次反射依赖。

2023-06-30 16:18:06 515

原创期望最大化注意力网络 EMANet

论文提出的期望最大化注意力机制Expectation- Maximization Attention (EMA)，摒弃了在全图上计算注意力图的流程，转而通过期望最大化（EM）算法迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。X表示观测数据，Z表示隐变量空间，每一个数据x都有相应的隐变量与其对应，{X,Z}称为完整的数据，其极大似然估计就是lnp(X，Z|q)，q表示模型的参数。通过注意力可视化图，i，j，k，l表示四个随机选择的基的下标,右边四列绘出的是它们各自对应的注意力图。

2023-06-28 20:48:46 2963

原创图像分割之SAM（Segment Anything Model）

该模型有别于传统的分割模型。传统分割模型只能输入原图输出固定的分割结果，SAM在设计上可以同时输入原图和特定提示（点、框、阴影、文本），然后根据不同的提示输出不同的分割结果图，并且SAM支持不同提示的交互式分割。SA-1B覆盖了更广泛的图片区间，比第二大分割数据集多了11倍的图片400倍的mask。随着提示点的数量的增加，SAM的分割效果越来越高，随着提示点从1到9的增加，SAM方法和其他分割方法之间的gap越来越小。在论文的交互式分割任务中，有的提示信息，比如点的提示，存在模棱两可的情况。

2023-05-11 19:05:01 7931 1

原创集7大模态（视频、图片、音频、文本、深度图、热力图、惯性）的IMAGEBIND

ImageBind 规避了这个难题，它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态，它们与图像的自然配对，如视频 - 音频和图像 - 深度数据，来学习一个联合嵌入空间。通过这样的训练方式，即使没有进行过（声音，文本）的专门训练，也可以取得SOAT的（声音，文本）分类能力。该研究不需要所有模态相互同时出现的数据集，相反利用到了图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，就会实现所有模态的迅速对齐。左后算loss的时候和clip一样，也是对称的交叉熵。

2023-05-10 16:38:18 1053

原创视频文本检索之CLIP4Clip

通过分析发现预训练模型clip是基于2D线性投影训练的，却作为3D线性投影的初始化参数，这导致模型没有学习视频帧间的时序特征。模型为12层，宽度为512，包含8个注意力头。将文本特征W和视频特征Z拼接起来，得到拼接后的特征U，并将U和位置编码P，类型编码T进行拼接，输入Transformer进行编码，然后使用2个全连接层做特征投影，得到最终的输出。根据文本到视频检索中的相似性得分对给定查询本文的所有视频（或视频片段）进行排序，或者在视频到文本检索任务中对给定查询视频（或视频片段）的所有文本进行排序。

2023-05-09 20:00:10 1226

原创推荐算法之DeepFM

大部分特征交互都隐藏在数据中，难以先验识别（比如经典的关联规则 "尿布和啤酒 "就是从数据中挖掘出来的，而不是由专家发现的），只能由机器学习自动捕捉，而深度神经网络恰恰可以弥补该缺陷。DeepFM融合了DNN的高阶特征和FM的低阶特征。二阶特征交互：通过对主流应用市场的研究，我们发现人们经常在用餐时间下载送餐的应用程序，这就表明应用类别和时间戳之间的（阶数-2）交互作用是CTR预测的一个信号。DeepFM模型是FM模型和DNN模型的组合，将两者的输出结果相加，进行sigmoid激活，输出0-1之间的得分。

2023-05-08 10:25:46 483

原创图像文本检索之clip

在模型上一共尝试了8个模型，从resnet到ViT，最小模型和最大模型之间的计算量相差约100倍，迁移学习的效果基本和模型大小成正相关。（3）Clip的(image, text)对都是一一配对的，一个图片只对应一个句子，所以这里也没有像一个图片对应多个句子，可以对句子进行随机采样操作。（1）在训练过程中，文本的主干网络和图片的主干网络都没使用类似ImageNet的预训练权重做初始化，全部都是随机初始化的。Clip模型训练数据都是网络爬取的，缺乏数据的过滤和筛选，会存在社会歧视问题。

2023-04-27 17:38:31 1400

原创 Attention Is All You Need

self-attention中的Q，K，V也是起着类似的作用，在矩阵计算中，点积是计算两个矩阵相似度的方法之一，因此使用了QK进行相似度的计算。当你在某电商平台搜索某件商品（年轻女士冬季穿的红色薄款羽绒服）时，你在搜索引擎上输入的内容便是Query，然后搜索引擎根据Query为你匹配Key（例如商品的种类，颜色，描述等），然后根据Query和Key的相似度得到匹配的内容（Value)。解码器模块第一次输入是前缀信息，之后的就是上一次产出的Embedding，加入位置编码，然后进入一个可以重复很多次的模块。

2023-03-31 17:58:25 374

原创医学图像分割之MedNeXt

对于一样大小的卷积核使用直接复制权值的方法进行初始化，对于比较大的卷积核，通过对小的卷积核进行三线插值得到大的卷积核。的思想进行了改进实现的全卷积网络，其通过全卷积网络和逆向残差瓶颈单元的设计，可以实现比较大的空间感受野。由于是全卷积的设计思想，所以不同输入图像的宽，高不会产生影响，但是不同的通道数却是会对模型产生影响。，对通道数进行压缩，最终保证输入的通道数等于输出的通道数，输入的分辨率等于输出的分辨率。的卷积实现，可以实现将不同通道数的输入都压缩在同样的通道数目上，这样就保证了模型参数的可复用。

2023-03-30 11:06:03 2836 1

原创 video caption之S2VT

在生成每个词时，均需通过softmax，所以可以看作随着时间步，每向前走一步都做了一次以词汇表为大小，选择其一的分类问题，选择的是置信度最大的那个词。例如，10000个词的词汇表中，在当前时间步中预测到man这个词。论文首次基于sequence to sequence提出一个端到端的模型S2VT，可以实现任意帧的视频输入（sequence of frames），输出任意个数单词（sequence of words）组合成的完整句子输出，从而实现video caption的任务。

2023-03-24 16:50:58 607

原创 IoU vs Dice vs F1-score

比如：这篇论文提供了权重和代码，我测出来的两个数值也是一样的，而且代码里面的计算公式和上面贴的公式一样，但是论文中给出来的结果就不一样了。两个公式的区别，就是Dice使用的不是预测的结果pred，而是预测的结果的得分pred_score，并且做了平方操作。但是我看论文里面虽然提供的公式是我上面贴的公式，但是他们的两个数值完全不一样，甚至还相差较大。除了我们熟知的miou指标外，Dice，F1-score这2个指标也是分割问题中常用的指标。还有这篇，这篇没有权重但是论文里写了公式。那么这个是怎么造成的呢?

2023-03-22 10:12:45 1450

原创手语检测识别

文章首先使用openpose进行人体的关键点检测，然后基于前后帧的关键点归一化位移基于lstm进行2分类判断，即输出当前视频帧是否有做手语操作。其中fps表示视频的帧率，P表示关键点坐标，t表示t时刻，t-1表示t-1时刻，然后将t时刻的关键点坐标和t-1时刻的关键点坐标计算L2距离，然后再乘以fps，得到归一化的关键点位移特征，保证了该特征不会随着视频帧率不同而有差异。蓝色的线条代表不同身体部位的位移特征，主要的特征集中在手部，最下面的黄色线表示是否进行手语的ground_truth。

2023-02-14 12:00:33 1688 3

原创安全帽检测

3174张图片，标签为蓝色安全帽（blue），白色安全帽（white），黄色安全帽（yellow），红色安全帽（red），没有帽子（none），共5类。标签为PASCAL VOC的xml格式和yolo的txt格式。5000张图片，标签为helmet，head，person，共3类，但是不是所有的person都有进行标注。7581张图片，标签为PASCAL VOC的xml格式。标签为hat，person，共2类。正样本hat从百度和谷歌爬取的，负样本正常人头person从人头检测数据集。

2022-12-12 10:26:00 1434

原创人头检测之FRN

Stage2会对粗糙的小人头结果进行裁剪clip以及放大操作，放大系数f=3，最终会将人头从8-20像素放大为24-60像素，而对于20像素以上的人头，检测算法就可以得到非常好的结果。Stage3对放大后的人头基于局部检测进行检测得到修正后的人头结果。目前来看特征融合的思想yolov5中FPN+PAN的思想效果更好，多尺度检测的思想Yolov5的3个分支做检测也具备同样的思想。Concat后的特征再基于googlenet中特征融合的思想，进行特征融合以及下采样操作，得到最终的输出特征。

2022-12-01 11:08:54 800

原创文本识别之MASTER

transformer的解码与lstm的解码类似，用encoder部分的输出计算注意力权重，并对输入向量重新分配，获得当前时刻的输入。在解码阶段首先用multi-head attention计算当前时刻的输入编码，得到tmp_feature,相当于LSTM中将时刻t-1的输出输入到模型中，随后获取encoder部分的输出，分别作为Key和quary，计算获得注意力权重，并利用该权重对tmp_feature（value）重新分配，得到当前时刻的特征结果。Encoding部分由4个block的残差模块组成。

2022-10-08 14:29:04 1301

原创文本检测之DBNet，DBNet++

一个负责预测概率图（probability map，(w/4)*(h/4)*1），代销为，另一个负责预测阈值图（threshold map，(w/4)*(h/4)*1）。概率图经过阈值图处理，进行二值化后得到二值图（approximate binary map，(w/4)*(h/4)*1）。然后计算图内每个像素离最近的边（蓝色边，绿色边）的归一化距离，形成最终的阈值图。两者在效果上是一样的。为了保证整个优化过程有梯度的传递，这里又将概率图和阈值图的差传入sigmoid函数，以此来保证梯度的传递。

2022-09-29 11:19:27 8429 1

原创 ubuntu18.04下confluence7.4+mysql5.7.39安装教程

将/data2/wiki/atlassian/confluence/confluence/WEB-INF/lib/atlassian-extras-decoder-v2-3.4.1.jar。修改文件目录，/data2/wiki/atlassian/application-data/confluence/confluence.cfg.xml。同时复制到/data2/wiki/atlassian/confluence/confluence/WEB-INF/lib/目录下，将原来的进行替换。然后将新的拷贝过去。.

2022-08-11 11:34:20 850

原创视频编解码之ZLMediaKit探索

GitHub:https://github.com/ZLMediaKit/ZLMediaKithttps://gitee.com/xia-chu/ZLMediaKit使用vs2017在win10平台进行编译。摄像头使用大华网络摄像头。实际使用使用MediaServer支持的HTTP API，使用postman进行测试。拉流功能：http://127.0.0.1/index/api/addStreamProxy 关闭拉流功能：http://127.0.0.1/index/api/delStreamProx

2022-07-13 16:29:52 1916

原创面筋面筋.

编程题：1，DAG（有向无环图），设计结构存储DAG，每个节点有一个类型名，判断DAG1中有多少子结构，使得其拓扑结构和对应结构的位置类型相同。讲思路，然后coding 讲code。2，编程，用积分图的方式，实现均值滤波积分图原理：而且，积分图只需遍历一次图像即可有效地计算出来，因为积分图每一点(x,y)的值是：所以，一旦积分图计算完毕，对任意矩形区域的和的计算就可以在常数时间内完成。如下图中，阴影矩形区域的和为：举个栗子，要求中间...

2022-04-16 20:12:01 3664

原创人脸变形之移动最小二乘MLS

论文：Image Deformation Using Moving Least SquaresNonrigid Image Deformation Using Moving Regularized Least SquaresGithub：https://github.com/Jarvis73/Moving-Least-SquaresMoving Least Squares Deformation：• p: 一列控制顶点.• q: 控制顶点变换后的坐标.给定图上的一点 v, 求解.

2022-03-10 14:47:31 4836 2

原创图像修复之lama

成功的途径有两条，一是开始，二是坚持。论文：Resolution-robust Large Mask Inpainting with Fourier ConvolutionsGithub：https://github.com/saic-mdal/lama基于目前主流的图像修复方法效果之所以差主要问题在于缺乏足够的感受野。网络结构和损失函数都是需要比较大的感受野的。基于此，论文提出了使用快速傅立叶卷积fast Fourier convolutions (FFCs)来增大感受野，...

2022-01-28 18:06:50 11294 14

原创人像图片Relight

你读的书构成了你，如果用一个词来形容你，那会是----破局者。论文：Deep Single-Image Portrait RelightingGithub：https://github.com/zhhoper/DPRICCV2019重光照问题，需要解决人脸几何形状face geometry, 反射reflectance , 光照lighting这几方面的问题。首先，论文提出了基于ratio image-based (RI-based)方法生成人脸重光照的数据集portrait r..

2022-01-04 17:59:23 3073

原创传统方法自动换脸

论文：Face Swapping: Automatically Replacing Faces in Photographs整体流程：预处理阶段，首先要建立一个人脸库，论文中从Flickr和Yahoo中选取图片，并进行人脸检测，得到人脸欧拉角，限制人脸姿态yaw :±25，pitch:±15，并对人脸进行裁剪。最终得到33000张人脸图片，组成Face Library。使用阶段输入任意图片，进行人脸检测和姿态估计，并进行人脸对齐。然后在Face Library中寻找分辨率，光照，..

2021-12-31 14:35:03 1899

原创一种特定场景去除高光算法

成功的人生在于追求「完整」而不是「完美」 ----乔丹·皮特森算法思路：1、求取源图I的平均灰度，并记录rows和cols；2、按照一定大小，分为N*M个方块，求出每块的平均值，得到子块的亮度矩阵D；3、用矩阵D的每个元素减去源图的平均灰度，得到子块的亮度差值矩阵E；4、通过插值算法，将矩阵E差值成与源图一样大小的亮度分布矩阵R；5、得到矫正后的图像result=I-R；应用场景：光照不均匀的整体色泽一样的物体，比如工业零件，ocr场景。代码...

2021-12-28 14:47:12 3228

原创颜色迁移（reinhard VS welsh）

reinhard算法：Color Transfer between Images，作者Erik Reinhardwelsh算法：Transferring Color to Greyscale Images，作者Tomihisa Welsh应用场景：人像图换肤色，风景图颜色迁移出发点：RGB三通道有很强的关联性，而做颜色的改变同时恰当地改变三通道比较困难。需要寻找三通道互不相关的也就是正交的颜色空间，作者想到了Ruderman等人提出的lαβ颜色空间。三个轴向正交意味...

2021-12-07 12:00:13 5411

原创传统图像处理之皮肤区域检测

1.RGB空间肤色在RGB模型下的范围基本满足以下约束：在均匀光照下应满足以下判别式：R>95 AND G>40 B>20 AND MAX(R,G,B)-MIN(R,G,B)>15 AND ABS(R-G)>15 AND R>G AND R>B在侧光拍摄环境下：R>220 AND G>210 AND B>170 AND ABS(R-G)<=15 AND R>B AND G>B代码：def skin

2021-12-01 14:52:33 3418

原创人脸关键点检测之PFLD

论文：PFLD: A Practical Facial Landmark DetectorGithub：http://sites.google.com/view/xjguo/fldGitHub - polarisZhao/PFLD-pytorch: PFLD pytorch Implementation论文基于mobilbeNet v2的主干结构，设计了一个快速准确的人脸关键点检测模型，PFLD。其中，PFLD 0.25X仅仅2.1Mb，速度达到了140fps。难点挑战：Loca

2021-11-24 20:56:17 2136

原创人脸属性识别的思考

目录数据，数据多人类任务网络设计：人脸识别vs表情识别：多任务训练问题：1.多任务训练过程中的此消彼长2.类别不平衡问题3.难易学习问题4.年龄，分类替代回归5.表情识别界线模糊问题6.eyeglass（yes,no），darkglass（yes,no）7.性别精度不足8.人脸关键点检测和人脸属性的适配问题9.左右眼问题时间是金钱，细节是魔鬼：数据，数据CelebA:（人脸属性） http://mmlab.ie.cuhk.edu.hk/pro.

2021-11-24 20:47:43 1846 10

原创大眼之膨胀算法

论文：Interactive Image Warping（1993年Andreas Gustafsson）算法思路：以眼睛中心为中心点，对眼睛区域向外放大，就实现了大眼的效果。大眼的基本公式如下，假设眼睛中心点为O(x,y)，大眼区域半径为Radius，当前点位为A(x1,y1)，对其进行改进，加入大眼程度控制变量Intensity，其中Intensity的取值范围为0～100。其中，dis表示AO的欧式距离，k表示缩放比例因子，k0表示大眼程度，xd,yd表示A点经过大..

2021-11-24 15:27:35 4953 6

原创瘦脸之液化算法

论文：Interactive Image Warping（1993年Andreas Gustafsson）算法思路：假设当前点为（x,y）,手动指定变形区域的中心点为C(cx,cy)，变形区域半径为r，手动调整变形终点（从中心点到某个位置M）为M（mx,my），变形程度为strength，当前点对应变形后的目标位置为U。变形规律如下，圆内所有像素均沿着变形向量的方向发生偏移距离圆心越近，变形程度越大距离圆周越近，变形程度越小，当像素点位于圆周时，该像素不.

2021-11-23 19:33:18 4950 3

原创从0到1，反距离加权IDW(Inverse Distance Weighted Interpolation) 插值变形算法

论文：Image Warping with Scattered Image Warping with Scattered Data Interpolation算法思路：算法优缺点：优点：实现简单，cpu实现，gpu实现都友好缺点：速度与点的个数，图片长，宽，这3个指标成正比，点个数越多，速度越慢，图片越大速度越慢。如果点太少，形变会不平滑。应用场景：大脸，瘦脸，大眼，等任何形变场景基本实现：好处，更容易结合公式看清原理，缺点，速度很慢。class IDW(o

2021-11-22 20:49:16 3381

原创 1000人脸关键点大pk

Face++:Face⁺⁺1000个全脸关键点，api，整体效果最好，请求代码：import base64import ioimport osimport tracebackfrom json import JSONDecoderimport PIL.Image as Imageimport cv2import numpy as npimport requestsimport base64from misc import is_url, download_image

2021-11-08 16:10:57 921