自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 资源 (4)
  • 收藏
  • 关注

原创 图像分割-RSPrompter

SAM严重依赖于人工先验(点、框、mask)且分割结果是没有标记类别的,如下图,单点、两点、边框提示的不同分割结果SAM在遥感图像分割任务中的性能在很大程度上仍未被探索和证明。

2024-04-06 18:12:40 1365

原创 图像分割-综述篇

有效输出掩码的要求是指即使一个提示是模糊的,可以指代多个对象(例如,衬衫上的一个点既可以表示衬衫,也可以表示穿着它的人),输出也应该是其中至少一个对象的合理掩码。不过,论文发现,随着扩张率(atrous rate)的增加,有效滤波器(filter)特征权重(即应用于有效特征区域的权重,而不是填充的零)的数量会变小,极端情况下,当空洞卷积的atrous rate接近feature map的大小时,3 ×3 卷积不会捕获整个图像上下文,而是会退化成简单的1 ×1卷积,因为只有中心滤波器权重是有效的。

2024-04-04 19:27:04 1066

原创 大模型语言系列-Agent

自2022年ChatGPT诞生以来,LLM获得了收获了大量关注和研究,但究其根本,技术还是要为应用服务,如何将LLM应用于实际的业务场景成为了诸多工程师思考的问题。从ChatGPT引入强化学习以来,基于LLM的Agent(智能体)概念再次火爆起来,本文旨在对Agent的起源、发展、现状进行一定程度的探究。目前,Agent领域百花齐放,并且已经诞生了很多有有趣、有实际应用的产品,如微软的贾维斯(Microsoft JARVIS,也称为HuggingGPT)、全球首个AI软件工程师-Devin等等。

2024-03-15 14:59:29 1042

原创 强化学习-马尔可夫模型

前文提到了强化学习源自马尔可夫决策过程,本文从马尔可夫概念入手,讲解和马尔可夫有关的模型和概念。在马尔科夫决策过程中,我们有一个智能体,它在一个马尔科夫过程中进行决策,每次决策都会导致状态的转移和获得即时奖励。智能体的目标是通过选择动作来最大化未来奖励的期望值。通常马尔科夫决策过程是个五元组:SAPRγSAPRγS 表示状态集合,代表智能体可能处于的所有状态。A 表示动作集合,代表智能体可以采取的所有动作。

2024-03-12 15:53:35 1184

原创 大语言模型系列-提示工程

前文提到自BERT以来,LLM的训练范式变为预训练-微调,然而由于下游任务的微调仍需要大量数据集,并且并不一定能得到很好的效果,因此自GPT-3以来,学者们开始广泛研究预训练-提示工程范式。

2024-03-11 14:57:16 1240

原创 大语言模型系列-中文开源大模型

近期,OpenAI 的主要竞争者 Anthropic 推出了他们的新一代大型语言模型 Claude 3,该系列涵盖了三个不同规模的模型:Opus、Sonnet 和 Haiku。Claude 3声称已经全面超越GPT-4。这里先不提Claude 3的表现,先看一看目前开源的主流中文LLM。

2024-03-11 11:01:26 602

原创 大语言模型系列-GPT-3.5(ChatGPT)

语言模型更大并不能从本质上使它们更好地遵循用户的意图,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。GPT-3.5正是基于此问题进行的改进,它通过对人类反馈进行微调,使语言模型与用户在广泛任务中的意图保持一致,专业术语是对齐(Alignment)。ps:ChatGPT和InstructGPT是一对兄弟模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT-3.5。

2024-03-07 16:26:38 1957 2

原创 大语言模型系列-GPT-3

前文提到GPT-2进一步提升了模型的zero shot能力,但是在一些任务中仍可能会“胡说”,GTP-3基于此提出了few shot,即预测时给出少量精确案例,提升模型的准确性,同时进一步增大模型。当生成文本长度较长时会出现各种问题,比如重复生成一段话,前后矛盾,逻辑衔接不好等等;模型和结构的局限性,对于某一些任务,比如填空类型的文本任务,使用单向的自回归语言模型确实存在一定的局限性,这时候如果同时考虑上文和下文的话,效果很可能会更好一些;

2024-03-07 10:47:57 1052

原创 大语言模型系列-GPT-2

前文提到,GPT-1利用不同的模型结构微调初步解决了多任务学习的问题,但是仍然是预训练+微调的形式,GPT-1在未经微调的任务上有一定效果(zero-shot ),但是其泛化能力远远低于经过微调的有监督任务,GPT-2主要基于该点进行了改进。ps:GPT1:发现预训练模型具有 zero-shot 的能力,并且能随着预训练的进行不断增强。为了进一步验证 zero-shot 的能力,OpenAI 在 GPT-1 提出一年后,推出了 GPT-2。

2024-03-07 09:24:08 971

原创 强化学习-入门篇

以上就是今天要讲的内容,本文简单介绍了强化学习的历史、基本思想,下文讲解马尔可夫模型。

2024-03-06 10:19:54 492

原创 大语言模型系列-微调技术

以BERT模型为代表的“预训练语言模型 + 下游任务微调”训练模式成为了自然语言处理研究和应用的新范式。此处的下游任务微调是基于模型全量参数进行微调(全量微调)。以 GPT3 为代表的预训练语言模型(PLM)参数规模变得越来越大,这使得在消费级硬件上进行全量微调变得不可行。除此之外,模型全量微调还会损失多样性,存在灾难性遗忘的问题。ps:全量finetune它们动辄需要几十至上百G显存训练部署,一般的实验室和个人开发者无力承担。

2024-02-26 14:52:35 916

原创 目标检测-Transformer-ViT和DETR

随着Transformer爆火以来,NLP领域迎来了大模型时代,成为AI目前最先进和火爆的领域,介于Transformer的先进性,基于Transformer架构的CV模型也开始涌现。本文介绍一下最先得到可靠应用的简单模型:ViT(Vision Transformer)、DETR(Detection Transformer)。在COCO数据集上的性能,DETR和一个训练好的Faster R-CNN baseline是差不多的,无论从内存、速度还是精度来说。

2024-02-23 17:52:03 1563

原创 机器学习系列-生成模型和判别模型

监督学习模型可以分为生成模型(generative model)和判别模型(discriminative model)

2024-02-23 10:01:03 776

原创 机器学习系列-机器学习范式

后者是递减学习,即抛弃“价值最低”的保留的训练样本。主动学习是在大多数情况下,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,此时学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,因此需要一个外在的专业人员能够对其进行标注的实体,即主动学习是交互进行的。自监督学习主要是利用「辅助任务(pretext)「从大规模的无监督数据中挖掘」自身的监督信息」来提高学习表征的质量,通过这种构造监督信息对网络进行训练,从而可以学习到对下游任务具有价值的表征。

2024-02-22 16:32:39 1047 1

原创 机器学习系列 - Mean Shift聚类

Mean Shift(均值漂移)是基于密度的非参数聚类算法,其算法思想是假设不同簇类的数据集符合不同的概率密度分布,找到任一样本点密度增大的最快方向(最快方向的含义就是Mean Shift),样本密度高的区域对应于该分布的最大值,这些样本点最终会在局部密度最大值收敛,且收敛到相同局部最大值的点被认为是同一簇类的成员。Mean Shift在计算机视觉领域的应用非常广,如图像分割,聚类和视频跟踪等。不需要设置簇类的个数,自动发现潜在的聚类中心,对于高维度和非线性分布的数据集也有很好的适应性。

2024-02-02 16:20:53 1034

原创 大语言模型系列-T5

目前已经讲解了目前LLM的三大流派的两个起始模型:GPT-1(Decoder only)、BERT(Encoder only),但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改(如添加一些线性层),Google经过庞大的预训练,最终提出了一个通用框架T5模型(Encoder-Decoder), 将所有NLP任务转化为text to text任务,微调时无需再修改模型,直接在原模型上微调即可。ps:T5最核心的理念是:使用前缀任务声明及文本答案生成,统一所有自然语言处理任务的输入和输出。

2024-01-24 16:48:15 1694

原创 大语言模型系列-BERT

前文提到的GPT-1开创性的将Transformer Decoder架构引入NLP任务,并明确了预训练(学习 text 表征)+微调这种半监督训练方法,但Transformer Decoder的Masked attention部分,屏蔽了来自未来的信息,因此GPT是单向的模型,只能考虑语境上文,无法考虑语境的下文。因此,BERT转而使用了Transformer Encoder架构,核心其实就是注意力层的区别。

2024-01-19 11:00:02 938

原创 大语言模型系列-GPT-1

前文提到的ELMo基于RNN的网络结构使得其特征提取能力弱,训练难且时间长预训练模型(仅用于特征抽取)和实际下游任务模型仍是分开的、非端到端的GPT-1基于上述缺点进行了改进。提示:以下是本篇文章正文内容,下面内容可供参考GPT-1为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 BiLSTM 换成 Transformer 的过程中,有信息丢失。ELMo 的语言模型是双向的,可以融合上下文信息,但GPT-1只能向前看,即只能利用上文信息、不能利用下文信息。

2024-01-18 11:10:05 1244

原创 大语言模型系列-Transformer

前文大语言模型系列-ELMo提到了,RNN的缺陷限制了NLP领域的发展,2017年Transofrmer的横空出世,NLP领域迎来了基于Transformer的预训练模型(LLM)的大爆发。Transformer由谷歌的2017年论文《Attention is All You Need》提出。RNN编码器-解码器结构中,仅将最后一个隐藏状态传递给解码器,会丢失信息RNN难以并行计算提示:以下是本篇文章正文内容,下面内容可供参考。

2024-01-18 09:33:55 1690

原创 大语言模型系列-ELMo

在前文大语言模型系列-word2vec为每个词汇表中每个分词静态生成一个对应的词向量表示,没有考虑到语境,因此无法无法处理多义词ps:先训练一个词嵌入模型,生成词向量表示,然后将生成的词向量输入下游任务新的模型中进行具体NLP任务训练,由于下游任务不再需要使用这些词嵌入模型,因此整个过程计算效率方面通常非常低,如Skip-Gram和GloVe。ELMo对上述缺点进行了改进。提示:以下是本篇文章正文内容,下面内容可供参考。

2024-01-17 17:14:02 1089

原创 大语言模型系列-word2vec

在前文大语言模型系列-总述创建语料库 => 数据预处理 => 分词向量化 => 特征选择 => 建模(RNN、LSTM等)如果词库过大, one-hot编码生成的向量会造成维度灾难one-hot编码生成的向量是稀疏的,它们之间的距离相等,无法捕捉单词之间的语义关系。one-hot编码是固定的,无法在训练过程中进行调整。因此,出现了词嵌入(word embedding)的概念,通过word embedding模型生成的向量是密集的,具有相似含义的单词在向量空间中距离较近,可以捕捉单词之间的语义关系。

2024-01-17 14:43:44 1444

原创 大语言模型系列-总述

研究人员发现,扩展预训练模型(Pre-training Language Model,PLM),例如扩展模型大小或数据大小,通常会提高下游任务的模型性能,模型大小从几十亿(1 B = 10亿)逐步扩展至千亿级别,后续研究者们将大型的PLM称之为LLM(Large Language Model)从下图中可以看出大语言模型的发展阶段从下图中可以看出近年来主流的大语言模型OpenAI发展史。

2024-01-15 17:58:45 1120

原创 目标检测-One Stage-YOLOv8

终于到了YOLO系列最新最火爆的网络–YOLOv8,前面YOLOv5中已经提到ultralytics团队集成了先进的YOLO系列目标检测最佳实践,YOLOv8则是他们的最新力作。YOLOv8本身的创新点不多,偏向工程实践。提示:以下是本篇文章正文内容,下面内容可供参考YOLOv8的出现进一步促进了实时目标检测的发展。

2024-01-15 09:13:22 1042 1

原创 目标检测-One Stage-YOLOv7

自YOLOv4之后,其作者提出一些新的trciks,YOLOv7诞生主要贡献分为以下3个方面设计了几种训练tricks(bag-of-freebies),使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度针对目标检测领域现有的两个问题提出解决方案:一是模块重参化如何高效合并,二是动态标签分配策略如何处理好不同输出层的分配模型重参化就是在推理阶段将多个模块合并为一个计算模块,YOLOv6的RepVGG Style就是基于这种策略设计的。

2024-01-10 16:59:24 1189 1

原创 目标检测-One Stage-YOLOv6

YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。论文题目是《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》。和YOLOv4YOLOv5等不同的是,YOLOv6对网络结构的改动较大。除了模型的结构之外,YOLOv6的数据增强和YOLOv5的保持一致;而标签分配上则是和YOLOX一样,采用了SimOTA;并且引入了新的边框回归损失:SIOU。

2024-01-09 16:41:42 920

原创 目标检测-One Stage-YOLOx

根据前文CenterNetYOLOv4等可以看出学界和工业界都在积极探索使用各种tricks(anchor-free、各种组件、数据增强技术等等)来改进One Stage网络的表现,2021年旷视科技结合先进的改进技巧,产出了多种改进模型,在多种情况下达到速度和精度的SOTA。值得一提的是,YOLOx使得YOLO系列回归到了anchor-free(YOLOv1是anchor-free的),后续YOLOv6、YOLOv7、YOLOv8均为anchor-free算法。

2024-01-09 15:01:34 1129

原创 目标检测-One Stage-CenterNet

前文提到的YOLOv3YOLOv4YOLOv5产生大量的预测框,计算量大正负样本不平衡问题:产生的预测框大部分是负样本对预定义anchor依赖:anchor-based方法的anchor box的尺度是一个超参数,不同的超参设置会影响模型性能因此出现了anchor-free这类不依赖于预定义锚框的算法,使得模型更灵活,并且在处理各种目标形状和大小时更具鲁棒性,在一些场景下取得了与传统锚框方法相媲美甚至更好的性能。

2024-01-08 17:44:33 1169

原创 目标检测-One Stage-YOLOv5

前文目标检测-One Stage-YOLOv4提到YOLOv4主要是基于技巧的集成,对于算法落地具有重大意义,YOLOv5则在工程应用方面更近一步,将算法深度集成,使得使用者不用再过多关注算法实现,且提供了多种预训练模型,到目前为止,由ultralytics团队开发的包,已经支持YOLOv3YOLOv5YOLOv6YOLOv8YOLO-NASRT-DETR等等,其中YOLOv5和当前YOLO家族最新的YOLOv8是由ultralytics团队研发的。提示:以下是本篇文章正文内容,下面内容可供参考。

2024-01-08 14:15:08 1175

原创 目标检测-One Stage-YOLOv4

自Yolov3结束,其作者不再在该系列进行研发,后续开启了工业界的狂潮,诸多公司开始研究目标检测算法的实时落地应用。YOLOv4可以说是目标检测各种小技巧(tricks)的大总结,将其推向了工业界。ps:YOLOv4算法是在原有YOLO目标检测架构的基础上,采用了近些年CNN领域中最优秀的优化策略,从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面提出各种tricks总结,虽没有理论上的创新,但是将其应用推向高峰。文章如同目标检测的trick综述。

2024-01-07 19:22:11 1181 1

原创 目标检测-One Stage-EfficientDet

EfficientDet是google在2019年11月发表的一个目标检测算法系列,其提出的背景是:之前很多研究致力于开发更高效的目标检测架构,如one-stage、anchor-free或压缩现有模型,尽管这些方法往往能获得更好的效率,但它们通常会牺牲准确性。并且这些研究并未关注工业应用上的资源约束问题。EfficientDet精度与速度全面领先于YOLO V3, MaskRCNN, RentinaNet, NAS-FPN这些常见目标检测模型,其backbone基于EfficientNet。

2024-01-05 11:00:05 1121

原创 目标检测-One Stage-YOLO v3

根据前文目标检测-One Stage-YOLOv2可以看出YOLOv2的速度和精度都有相当程度的提升,但是精度仍较低,YOLO v3基于一些先进的结构和思想对YOLO v2做了一些改进。提示:以下是本篇文章正文内容,下面内容和可供参考YOLOv3-320(28.2mAP)与SSD321一样准确(28.0mAP[.5, .95]),但速度快三倍(61ms -> 22ms)

2024-01-04 09:58:06 1152

原创 目标检测-One Stage-RetinaNet

根据前文目标检测-One Stage-YOLOv2前景(positive)和背景(negatives)类别的不平衡ps:假设我们有一个医学图像分类任务,要识别是否患有一种罕见的疾病。在这个场景中,正类别是患有疾病的图像,负类别是健康的图像。由于罕见疾病的患者数量相对较少,数据集中正类别的样本数量远远少于负类别。这就是前景和背景的类别不平衡问题。RetinaNet 针对上述缺点做了改进提示:以下是本篇文章正文内容,下面内容可供参考。

2024-01-03 09:48:23 984

原创 Kaggle之泰坦尼克号(2)

书接上篇,上面提到的解决方案一经过特征工程、模型直接预测(0.78229)、优化超参数(0.78468),精度提升了0.2个百分点,最终精度排名为1700/14296(11.89%),下面说明基于特征工程的解决方案二。

2024-01-02 13:41:04 796

原创 目标检测-One Stage-YOLOv2

根据前文目标检测-Two Stage-YOLOv1和Fast-CNN相比,速度快,但精度下降。(边框回归不加限制)YOLOv2提出了一些改进策略,如anchor-based等提示:以下是本篇文章正文内容,下面内容可供参考通过网络结构和改进和一些tricks,YOLOv2精度大大提升,同时通过多尺度训练,使得相同的YOLOv2模型可以在不同的大小下运行,从而轻松实现速度和精度之间的折衷。在67 FPS的速度下,YOLOv2在VOC 2007上达到76.8mAP。

2024-01-02 10:08:32 1063 1

原创 目标检测-One Stage-SSD

根据前文目标检测-Two Stage-YOLOv1每个格子针对目标框的回归是不加限制的,导致目标的定位并不是很精准和Faster RCNN等先进Two Stage算法相比,没有应用多尺度特征图的思想预训练时与实际训练时输入大小不一致,模型需要去适应这种分辨率的转换,会影响最终精度SSD(Single Shot MultiBox Detector)针对上述缺点做了改进提示:以下是本篇文章正文内容,下面内容可供参考。

2023-12-29 10:50:51 1045

原创 目标检测-One Stage-YOLOv1

前文目标检测-Two Stage-Mask RCNN速度上并不能满足实时的要求因此出现了新的One Stage算法簇,YOLOv1是目标检测中One Stage方法的开山之作,不同于Two Stage需要先通过RPN网络得到候选区域的方法,YOLOv1将检测建模为一个回归问题,直接在整张图的特征图(Feature Map)上进行目标的定位和分类,因此速度比当时正红的Fast R-CNN快很多。而且,也正是因为YOLOv1看的是全局的信息,把背景误判成目标的错误率比只看候选区的Fast R-CNN。

2023-12-28 15:52:48 1294

原创 目标检测-Two Stage-Mask RCNN

ROI Pooling有两次量化操作,会引入误差影响精度Mask RCNN针对这一缺点做了改进,此外Mask RCNN还添加了全卷积网络的分支,拓展了网络的应用范围,使其可用于多种视觉任务:包括目标分类、目标检测、语义分割、实例分割、人体姿态识别等提示:以下是本篇文章正文内容,下面内容可供参考整个Mask R-CNN算法非常的灵活,可以用来完成多种任务,包括目标分类、目标检测、语义分割、实例分割、人体姿态识别等多个任务。

2023-12-28 14:54:09 1248

原创 目标检测-Two Stage-Faster RCNN

前文提到了目标检测-Two Stage-Fast RCNN通过手工方法(Selective Search)寻找的候选框,非常耗时。Faster RCNN针对上述缺点做了改进提示:以下是本篇文章正文内容,下面内容可供参考相比于之前的算法,Faster RCNN由于其端到端的特性得到广泛应用,但是受Two Stage算法思想的影响,速度仍不够快,并且ROI Pooling有两次量化操作,会引入误差影响精度。

2023-12-27 17:30:46 1069

原创 目标检测-Two Stage-Fast RCNN

前文目标检测-Two Stage-SPP Net分开训练多个模型困难且复杂尽管比RCNN快10-100倍,但仍然很慢SPP Net无法更新空间金字塔池化层以下的权重,根本原因是,当每个训练样本来自不同影像时,通过SPP层的反向传播效率很低Fast RCNN针对上述缺点做了改进提示:以下是本篇文章正文内容,下面内容可供参考尽管相比于RCNN和SPP Net更快更简便,但Fast R-CNN仍是通过手工方法(Selective Search)寻找的候选框,非常耗时。

2023-12-26 17:37:29 901

原创 目标检测-Two Stage-SPP Net

SPP Net:Spatial Pyramid Pooling Net(空间金字塔池化网络)SPP-Net是出自何凯明教授于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》前文目标检测-Two Stage-RCNN2000候选框都需要进行CNN提特征+SVM分类,计算量很大。

2023-12-26 16:04:22 1026

GDAL3已编译文件(Debug x64)

GDAL3.0.1+PROJ6+SQLite3编译完成后直接可以使用的库,编译平台为Debug x64

2021-04-21

envi学习PDF.rar

ENVI(the Environment for Visualizing Images)作为一套完整的、开创性的遥感图像处理平台,具有强大的遥感图像处理功能,包括数据的输入/输出,图像的融合、纠正、变换、增加,信息的提取与分类,二维和三维的显示等功能,是科研工作者必备的软件。本套pdf教程即针对想学习ENVI软件的入门者准备,由浅入深的讲解ENVI操作,以帮助大家对该软件有一个全面认识,达到自助进行基础图像分析处理的目的。

2019-09-08

二级C无纸化考试模拟软件

未来教育二级C无纸化考试模拟软件破解版是一款非常实用的全国计算机等级考试题库软件,使用能够帮助用户模拟真实的考试,包括测验评析、错题重做、题库大全和同步练习等,集训练、测试、考试于一体,让提前熟悉考试,做到心中有数,最快的通过考试,全国计算机等级考试二级C(以下简称C)无纸化考试测试考生在Windows的环境下对标准C的编程语言的使用能力。本次小编带来的是未来教育二级C无纸化考试模拟软件最新破解版,需要的朋友不要错过了!

2019-05-03

二级C无纸化考试模拟软件

未来教育二级C无纸化考试模拟软件破解版是一款非常实用的全国计算机等级考试题库软件,使用能够帮助用户模拟真实的考试,包括测验评析、错题重做、题库大全和同步练习等,集训练、测试、考试于一体,让提前熟悉考试,做到心中有数,最快的通过考试,全国计算机等级考试二级C(以下简称C)无纸化考试测试考生在Windows的环境下对标准C的编程语言的使用能力。本次小编带来的是未来教育二级C无纸化考试模拟软件最新破解版,需要的朋友不要错过了!

2019-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除