MIngo的成长-CSDN博客

原创 DETR 【目标检测里程碑的任务】

补一嘴。目标检测任务天然的就不适合自回归的架构(GPT系列)。理解一下：检测大物体，不需要依赖检测小物体，检测右边的物体也不需要先检测左边的物体。且自回归是顺序推理，目标检测想要的一定是并行的一起出框。

2023-12-20 11:49:23 935

原创 vit-transfomers 逐段精读

在大规模的数据集做预训练可以很好的做迁移。较少的训练资源也是对比更耗时的模型来说。

2023-12-19 20:45:00 847

原创 image caption 必看论文，模型整理

image caption 多模态

2023-11-30 09:43:31 1150

原创 ChatGPT开源系列

最难的是工程化（技术方案产品落地的的能力），怎么能更好的把各种技术栈堆叠在一起（可能一个功能背后是多个功能/技术栈的结合），且能够无缝连接（把技术点用产品的交互来实现，让用户用最少的理解/使用成本，完成复杂度较高的任务），最后实现一个很好的效果。毕竟从 GPT1 到 GPT-4，模型各类细节越来越闭源和黑盒，大模型战场的竞争因素决定了 GPT-4 类的第一梯度模型可能会越来越封闭，成为技术门槛。

2023-04-07 12:52:28 2766

原创 ChatGPT和代码智能

ChatGPT 深入浅出，前世今生

2022-12-06 16:23:20 8317

NLP相关知识命名实体识别（NER）序列标注（Sequence Tagging）是NLP中最基础的任务，应用十分广泛，如分词、词性标注（POS tagging）、命名实体识别（Named Entity Recognition，NER）、关键词抽取、语义角色标注（Semantic Role Labeling）、槽位抽取（Slot Filling）等实质上都属于序列标注的范畴。命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义

2022-05-18 14:11:51 789

原创 Paddle 飞浆模型压缩针对于OCR模型压缩

文章目录前言一、判断是否需要模型压缩二、OCR模型压缩1.应用场景2.PaddleSlim剪裁卷积通道剪裁剪裁建议代码示例量化前言AI快车道-PaddleCV系列课程-第五课模型压缩观后感一、判断是否需要模型压缩二、OCR模型压缩1.应用场景2.PaddleSlim剪裁卷积通道剪裁卷积通道剪裁是通过调整卷积核的数量来达到输出特征图的通道数很主要的点：如何对卷积核重要性排序卷积内的卷积核进行一个重要性排序，比如l0_norm 查一下每一个卷积中非零值的个数多个卷积进

2021-08-27 14:19:23 312

原创如何优化算法提高卷积神经网络的泛化能力

卷积网络的优化方式方法说明使用更多数据在有条件的前提下，尽可能多地获取训练数据是最理想的方法，更多的数据可以让模型得到充分的学习，也更容易提高泛化能力使用更大批次在相同迭代次数和学习率的条件下，每批次采用更多的数据将有助于模型更好的学习到正确的模式，模型输出结果也会更加稳定调整数据分布大多数场景下的数据分布是不均匀的，模型过多地学习某类数据容易导致其输出结果偏向于该类型的数据，此时通过调整输入的数据分布可以一定程度提高泛化能力 Batch normalization

2021-08-27 14:18:44 1019

原创深度学习CV面试

深度学习CV面试最近面试心得还是需要持续更新持续学习！！归一化归一化含义？归纳统一样本的统计分布性。归一化在 $ 0-1$ 之间是统计的概率分布，归一化在$ -1–+1$ 之间是统计的坐标分布。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练（概率计算）和预测，且 sigmoid 函数的取值是 0 到 1 之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。归一化是统一在 $ 0-1 $ 之间的统计概率分布

2021-08-27 13:46:56 253

原创中文手写数据生成基于paddleocr和textrenderer-大幅提高中文识别准确率

文章目录参考一、textrenderer更多参数解释二、准备手写字体文件效果展示参考主要是参考了这位大佬的工作，大佬说生成都是灰度图，因为考虑样本多样性，主要介绍如何生成彩色图片，字典文件和其他参数都类似PaddleOCR数字仪表识别——2(New). textrenderer使用及修改使之符合PaddleOCR数据标准一、textrenderer更多参数解释在我做的时候自己摸索了一些比较有用的可以实现更多效果的参数代码如下（示例）：chn_data = GeneratorCfg(

2021-07-06 15:14:26 1492

原创 CTC blank 理解

项目场景：提示：PaddleOCR源码阅读ppocr/data/postprocess/rec_postpocess.py使用ctclabeldecode问题描述：当时面试时问CTC是如何解码的，回答有点模糊，就大概理解是一个序列话，跟字典去一一对应解决方案：1、ctcblank机制现在的理解是这样的。一张图片要映射到一个字符序列，识别的基础还是单字符的识别(如果不考虑直接把图片映射为一个单词的方法)。单字符的识别就涉及到图片切分的问题了，切分有显示切分和隐式切分两...

2021-05-27 10:45:53 849 3

原创场景文字的两类检测算法综述---基于回归和分割的方法

系列文章目录文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言# 引言自然场景文本检测识别（Scene Text Recognition, STR）是计算机视觉中的一个重要领域。它在图像搜索，即时翻译和机器人导航等应用中有着至关重要的作用：例如识别照片和视频中的标志、路牌、商店名称等。相比于发展成熟的文档文本识别技术（OCR），STR显然更具挑战性。OCR善于识别平面上的白纸黑字，而自然场景中的文本具有复杂的光照、遮挡、角度、字体和3D阴影。一、pan

2021-01-21 13:37:41 4391

原创 PaddleOCR 识别数据制作

PaddleOCR 识别数据制作OCR 常见数据集准备生成PaddleOCR识别数据集Python常见转义符号ChineseOCR 数据集转PaddleOCR 数据集训练格式以PaddleOCR 为基础OCR 常见数据集准备OCR数据集整理通用中英文OCR数据集手写数据集垂类多语言生成PaddleOCR识别数据集根据描述，街景数据集根据真值图crop 下载数据集后打开标注，会发现有illegibility和difficult这个字段，根据这个字段的真值去crop图，point是相对应的坐标

2021-01-20 14:40:46 1783

原创语音识别入门 --各个模型的整理

语音识别入门前期知识储备结构图语音特征提取各个模型的尝试ASRTDeepSpeechRecognitionend2end_chinese_speech_recognition语音纠错TTS 文本转语音前期知识储备对语音识别是零基础，所以第一步语音特征提取也需要进行一些了解。本人有图像识别、深度学习基础，实习因为项目需要，需要对语音识别做一个整合梳理。论语音识别三大技术结构图语音特征提取语音特征提取将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图。有

2020-11-09 14:17:54 10937 2

转载 Python之列表生成式、生成器、可迭代对象与迭代器

近日刷leetcode 为了更pythonic 不断练习列表生成式看了大佬的总结觉得很清楚了Python之列表生成式、生成器、可迭代对象与迭代器

2020-09-02 19:46:29 135

原创复习整理 Mask R-CNN

理解Mask R-CNN文章目录理解Mask R-CNN前言一、简介基础点名词解释简单复习前言为了综合复习 Mask R-CNN 写一个博客简言之：物体检测+产生一个切割mask(识别)和FasterR−CNN区别：能生成一个检测框一、简介基础点名词解释物体检测：Fast/Faster R−CNN通常包含两个问题，一是判断属于某个特定类的物体是否出现在图中；二是对该物体进行定位（常用表征就是物体的边界框）可实现输入测试图片，输出检测到的物体类别和位置。语义分割 Fully Conv

2020-08-31 14:47:35 279

原创 RNN、LSTM、GRU基础原理梳理

文章目录前言一、传统RNN双向RNN深层双向RNN二、LSTM第一层第二层第三层第四层三、GRU四、 LSTM和GRU区别参考前言为了复习NLP自己的相关知识，整理一个博客提示：以下是本篇文章正文内容，下面案例可供参考一、传统RNN示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。传统的RNN也即BasicRNNcell单元。内部的运算过程为，(t-1)时刻的隐层输出与w矩阵相乘，与t时刻的输入乘以u之后的值进行相加，然后经过一个非线性变化（tan

2020-08-31 11:09:18 1857

原创 python 读取图片图片预处理二值化

python 读取图片图片预处理二值化需求：毕设项目，需要从文件夹中批量读取文件，并将图片二值化处理。def preprocessing_image(directory_in_name,directory_out_name): # 准备储存之后的图片列表 array_of_img = [] # 文件读取 directory_in_name 是文件夹名 filename 是单独每个文件名 for filename in os.listdir(r"./"+d

2020-06-05 00:30:00 1824 4

原创 Windows下配置Mask-RCNN环境（各种踩过的坑）

Windows下配置Mask-RCNN+pytorch环境（各种踩过的坑）安装Anaconda1.1 下载和安装Anaconda安装maskrcnn-benchmark项目2.1 官方建议的安装需求:2.2 逐步安装过程1.创建虚拟环境2.安装pytorch环境3.安装cocoapi（这里一定要先确定本地的VC++环境高于14.0 可以直接尝试安装vs2015 安装C++部分也可以）4. 安装apex5. 安装maskrcnn benchmark:官方demo实践安装Anaconda1.1 下载和安装A

2020-06-01 08:30:19 2887 7

qq_38732601的博客