- 博客(92)
- 资源 (13)
- 收藏
- 关注
原创 使用huggingface快速方便的实现一个扩散模型简介
在今天的数字化时代,生成式人工智能(AI)已经成为创意和技术创新的前沿。从生成逼真的图像和音频到模拟复杂的分子3D结构,AI的能力正在以前所未有的速度扩展。在这样的背景下,Hugging Face的 Diffusers库呈现为那些希望探索和实现扩散模型能力的先锋和实践者的理想选择。Diffusers是一个全面的、最先进的预训练扩散模型库,专为生成图像、音频以及分子的3D结构而设计。这个库不仅仅是一个简单的推理工具箱,它还提供了丰富的资源和支持,让用户能够训练和定制自己的扩散模型。
2024-03-11 13:39:27 395
原创 huggingface实现Bark模型
方法是模型的核心,定义了模型的前向传播过程。方法定义了模型的前向传播过程,接受多个参数,包括输入 ID、过去的键值对、注意力遮罩、位置 ID、头遮罩、标签、输入嵌入、是否使用缓存、是否输出注意力和隐藏状态以及是否返回字典形式的输出。方法定义了模型的前向传播过程,接受多个参数,包括码本索引、输入 ID、注意力遮罩、位置 ID、头遮罩、标签、输入嵌入、是否输出注意力和隐藏状态以及是否返回字典形式的输出。配置的类,它定义了模型的架构,包括语义子模型、粗糙声学子模型、细致声学子模型和编解码子模型的配置。
2024-03-10 11:41:40 840
原创 huggingface实现Autoformer时间序列深度分解与自相关预测模型
Autoformer是一种用于长期时间序列预测的模型,由Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long提出。这种模型增强了传统的Transformer架构,使其成为一个深度分解架构,可以在预测过程中逐步分解趋势和季节性组件。在实际应用中,如极端天气早期预警和长期能源消费规划,扩展预测时间是一个关键需求。此论文研究了时间序列的长期预测问题。以前基于Transformer的模型采用各种自注意力机制来发现长期依赖关系。
2024-03-10 11:01:51 969
原创 音频分类革命:如何用Hugging Face实现前沿的音频频谱图变换器
音频频谱图变换器(Audio Spectrogram Transformer,简称AST)是由Yuan Gong, Yu-An Chung, James Glass提出的一个模型。它通过将音频转换为图像(即频谱图)的方式,使用视觉变换器(Vision Transformer)来处理音频数据,并在音频分类任务上取得了最先进的结果。在过去的十年里,卷积神经网络(CNN)被广泛应用于端到端的音频分类模型中,这类模型旨在学习从音频频谱图到对应标签的直接映射。
2024-03-10 10:45:49 978
原创 使用huggingface实现AltCLIP进行对齐语言和图像
AltCLIP模型是一种为了扩展语言能力而修改CLIP中语言编码器的神经网络模型。具体而言,AltCLIP通过将CLIP的文本编码器替换为预训练的多语言文本编码器XLM-R,实现了对图像-文本对和文本-文本对的训练。这种改变使得AltCLIP不仅在几乎所有任务上都能达到与原始CLIP非常接近的性能,而且还扩展了原始CLIP的能力,如多语言理解。该模型所属的任务可以被归类为或。这类任务的目标是训练模型以理解和处理来自两种或多种语言的文本与图像的关系,以实现跨语言和跨模态的语义理解。
2024-03-09 14:18:01 944
原创 使用huggingface实现ALGN进行图像-文本相似性匹配
在许多自然语言处理(NLP)和感知任务中,预训练表示变得至关重要。虽然NLP中的表示学习已经转向在未经人工注释的原始文本上进行训练,但视觉和视觉-语言表示仍然严重依赖于需要昂贵或专业知识的精选训练数据集。对于视觉应用,表示学习大多使用具有明确类标签的数据集,如ImageNet或OpenImages。对于视觉-语言来说,像Conceptual Captions、MSCOCO或CLIP这样的流行数据集都涉及到非琐碎的数据收集(和清理)过程。这种昂贵的策展过程限制了数据集的大小,因此阻碍了模型训练的规模化。
2024-03-09 13:55:00 853
原创 入门了解huggingface实现ALBERT模型相关任务--Token Classification
是基于ALBERT模型的令牌分类实现,专门用于处理如命名实体识别(NER)等令牌级别的分类任务。这个类继承自,并且是PyTorch的子类,这意味着它可以像任何常规的PyTorch模块一样使用。
2024-03-08 15:07:37 1358
原创 入门了解使用huggingface实现ALBERT模型相关参数
在这篇博客中,我们将深入探讨使用库来实现和应用ALBERT模型时的关键参数和配置。库是由Hugging Face提供的,支持包括ALBERT在内的多种预训练语言模型,使得自然语言处理(NLP)任务的实现变得更加便捷和高效。我们将重点讨论以及的使用,这些组件是使用ALBERT模型时的核心。
2024-03-08 14:42:44 869
原创 入门了解使用huggingface实现ALBERT模型相关任务--文本分类相关任务
在近年来,自然语言处理(NLP)领域经历了一次重大变革,这主要得益于预训练语言模型的出现和发展。其中,BERT(Bidirectional Encoder Representations from Transformers)无疑是最具影响力的模型之一,它通过深度双向表示,极大地提高了多项NLP任务的性能。然而,BERT模型的一个主要挑战在于其巨大的模型规模,这导致了高昂的计算资源消耗和存储需求,限制了其在资源受限环境下的应用。
2024-03-08 14:21:33 1125
原创 快速使用transformers的pipeline实现各种深度学习任务
创建文本摘要生成的pipeline# 定义需要生成摘要的文本text = """"""# 使用summarizer生成摘要# 打印生成的摘要导入pipeline函数:这一步从库中导入pipeline函数。提供了许多预训练模型,支持各种自然语言处理任务。创建文本摘要生成的pipeline:通过调用pipeline函数并指定任务为来创建一个文本摘要生成的pipeline。这一步会自动加载一个预训练的摘要生成模型及其分词器。定义需要生成摘要的文本。
2024-03-08 13:23:05 915
原创 快速体验transformers安装、应用之旅
在当前人工智能的快速发展时代,🤗 Transformers库成为了众多开发者和数据科学爱好者的宝贵工具。它不仅简化了使用预训练模型的过程,还提供了一个易于使用的接口来进行复杂的自然语言处理、计算机视觉和音频处理任务。无论你是一名开发人员还是日常用户,只要对机器学习有所涉猎,本文将带你快速了解如何启动并运行🤗 Transformers。
2024-03-07 13:13:21 1078
原创 NLP神器Transformers入门简单概述
🤗 Transformers 提供了易于使用的 API 和工具,使得下载和训练前沿的预训练模型变得轻而易举。下表展示了库对每种模型的当前支持情况,包括它们是否有 Python 分词器(称为“慢”分词器)、由 🤗 Tokenizers 库支持的“快”分词器、以及它们在 Jax(通过 Flax)、PyTorch 和/或 TensorFlow 中的支持情况。无论你是研究人员、开发者还是AI爱好者,🤗 Transformers 都能帮助你推动项目的进展,实现惊人的成果。
2024-03-07 12:06:00 1098
原创 HuggingFace Hub系列:推动NLP前进的协作平台
在当今快速发展的机器学习(ML)领域,没有任何一个公司,包括科技巨头,能够独立“解决AI”。这是一个需要通过共享知识和资源在社区中协作来实现的目标。正是基于这个信念,Hugging Face Hub应运而生,它是一个集成了超过120,000个模型、20,000个数据集和50,000个演示的平台,旨在促进ML工作流程中的协作与共享。Hugging Face Hub提供了一个中央位置,任何人都可以在这里分享、探索、发现和实验开源机器学习。
2024-03-07 10:11:14 914
原创 使用yolo-seg模型实现自定义自动动态抠图
在这篇博客中,我们将探索如何使用YOLO-SEG模型来自动进行图像中对象的抠图。YOLO-SEG是一种结合了YOLO(You Only Look Once)快速目标检测能力和图像分割的深度学习模型,能够在单个网络中同时实现目标检测和像素级分割。
2024-02-24 16:05:15 542 2
原创 非常实用的利用SAM分割一切大模型,进行抠图。
介绍人工智能(AI)的发展趋势,特别是在图像分割领域。强调基础模型在AI发展中的作用,以及Meta AI开发的SAM模型如何定义这个新的里程碑。
2024-02-24 15:48:05 983
原创 大白话理解大语言模型预训练和微调
它结合了自回归模型的严密性和生成式模型的创新性,能够在没有针对性训练数据的情况下,通过少量的提示(Few-Shot Learning)或者没有提示(Zero-Shot Learning)来生成合理的文本。尽管生成式模型在早期不如判别模型那样流行,但随着计算能力的增强和数据集的扩大,生成式模型展示了其强大的潜力。生成式模型,如其名,不仅预测下一个词的概率,还能生成新的词汇。这种模型在预测下一个词时引入了随机性,它不会简单地选择最可能的词,而是从可能的词汇分布中进行抽样,增加了语言的多样性和创造性。
2024-01-30 09:59:19 627
原创 大模型技术关于硬件和操作系统的要求
与Windows或MacOS相比,Linux在大模型推理和微调方面提供了更完善的功能支持,并且是工业场景中最常使用的操作系统。:适用于入门级或中级的大模型应用,推荐的显卡型号为NVIDIA RTX 3090和2080ti,具体选择取决于所需的显存和预算。:对于大模型的工业级实践,尤其是全量微调,建议使用高端的NVIDIA A100 80G显卡,并且至少需要4张卡以满足高性能需求。我们还提供了具体的GPU硬件要求和成本估算,包括不同量化级别下的推理和高效微调时的GPU显存占用,以及相应的显卡配置和成本。
2024-01-30 09:41:12 928
原创 大白话理解大型语言模型(LLM):预训练和微调
大型语言模型的预训练和微调是一个不断发展的过程,每个阶段都对模型的性能和适应性有着重要影响。在人工智能的世界里,大型语言模型(LLM)已成为一种强大的工具,它们不仅能理解和生成自然语言,还能在各种复杂任务中表现出色。本文将深入探讨这些模型的两个关键阶段:预训练和微调,以及它们在实际应用中的重要性。通过这种方法,模型不仅能够理解和生成语言,还能够适应各种特定的应用场景,从而在各种领域发挥其强大的能力。随着技术的进步,我们可以期待大型语言模型在未来将会变得更加强大和灵活。
2024-01-29 17:01:22 765
原创 大模型快速入门必备使用OpenAI API进行开发(环境配置)
这篇博客是一份关于如何使用OpenAI API的详细指南,旨在帮助开发者快速入门并实践。它首先介绍了如何创建OpenAI账户和获取API密钥,然后详细说明了在不同操作系统(如MacOS和Windows)中设置环境变量以全局或项目级别使用API密钥的步骤。接着,博客概述如何安装OpenAI的Python库并创建虚拟环境。最后,提供了一个实例,展示了如何使用Python编写并运行代码,向OpenAI API发送第一个请求,特别是通过Chat Completions功能,使用模型生成创造性内容。
2024-01-29 14:40:13 1561
原创 OpenAI平台:引领人工智能的创新与应用
这些API能够在文本生成、语言理解、图像创作等多个领域提供高度智能化的支持,同时其易于集成的特性使得各种规模的企业和开发者都能快速将其应用到实际场景中。作为一个致力于确保人工智能的安全和广泛受益的组织,OpenAI通过其平台提供了一系列强大的工具和API,这些工具和API正在重塑我们与技术的互动方式。通过持续的研究和政策制定,OpenAI致力于确保其技术的负责任使用,以及减轻可能的负面影响。总之,OpenAI不仅是技术创新的代名词,更是对人工智能未来的深思熟虑和负责任的态度的体现。
2024-01-29 11:38:34 380
原创 CIFAR-10数据集
CIFAR-10数据集由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集,是从8000万张小图像数据集中筛选并标记的一部分。CIFAR-10包含60000张32x32像素的彩色图像,这些图像被分为10个类别,每个类别有6000张图像。数据集分为50000张训练图像和10000张测试图像。这些数据被分为五个训练批次和一个测试批次,每个批次包含10000张图像。测试批次中,每个类别随机选取了1000张图像。训练批次包含剩余的图像,并且图像是随机排列的,但是某些训练批次可能
2024-01-23 17:40:18 350
原创 Homicide+Reports1980-2014连环凶案数据,CSV格式
这个数据集提供了关于谋杀案件的详细信息,包括涉及的机构、受害者和肇事者的信息,以及犯罪的其他细节。这些数据可以用来分析犯罪模式,如某个地区或时间段内的谋杀案件趋势,受害者和肇事者的年龄、性别、种族特征,以及案件解决率等。此外,还可以分析不同关系类型下的犯罪情况,以及使用的武器类型。这些信息对于犯罪学研究、公共安全策略制定和法律执行都具有重要价值。
2024-01-22 16:17:00 350
原创 YOLOv8加入AIFI模块,附带项目源码链接
YOLOv8" 是一个新一代的对象检测框架,属于YOLO(You Only Look Once)系列的最新版本。YOLOv8中提及的AIFI(Attention-based Intrascale Feature Interaction)模块是一种用于增强对象检测性能的机制,它是对YOLO架构中的SPPF(Spatial Pyramid Pooling-Fast)模块的替代或改进。: 这是一种快速且准确的对象检测方法,它只需单次查看("You Only Look Once")即可检测图像中的对象。
2024-01-22 12:03:30 1113
原创 使用AFPN渐近特征金字塔网络优化YOLOv8改进小目标检测效果(不适合新手)
这张图是一个气泡图,用于比较不同的特征金字塔网络(Feature Pyramid Networks,简称FPNs)在目标检测任务中的平均精度(Average Precision,简称AP)和模型参数数量(以百万为单位)。X轴(Params (M)):表示模型的参数数量,单位是百万(M)。参数越多,可能意味着模型更复杂,能够捕获更多细节,但也可能导致过拟合,并需要更多的计算资源。Y轴(Average Precision):这是评价目标检测器在特定数据集(通常是MS COCO数据集)上准确度的一个指标。
2024-01-20 12:13:41 1395
原创 超越yolo系列的RT-DETR目标检测原理与简介
T-DETR是第一个实时端到端目标检测器。具体而言,我们设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择机制,以优化解码器查询的初始化。此外,RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而不需要重新训练,这有助于实时目标检测器的实际应用。
2024-01-20 10:39:59 845
原创 PyTorch视觉工具箱:图像变换与上采样技术详解(2)
在这篇博客中,我们探讨了PyTorch中几个关键的视觉函数,它们在进行图像和视频处理时扮演着重要的角色。和用于上采样操作,通过最近邻和双线性插值方法来增加输入张量的空间尺寸;用于更复杂的空间变换,允许根据提供的网格对输入张量进行采样和变换;生成用于空间变换的采样网格,通常与结合使用来构建空间变换网络。所有这些函数都支持多种插值和填充模式,提供了对图像的高级操作能力。
2024-01-19 16:20:49 902
原创 PyTorch视觉工具箱:图像变换与上采样技术详解(1)
这些函数的使用依赖于精确的参数设置和对应用场景的理解。每个函数都有其独特的应用范围和参数要求,如填充大小、缩放因子、插值模式等。在使用这些函数时,重要的是要注意它们在不同模式和参数下的行为,以及它们如何影响最终的输出结果。这些视觉函数为处理图像和视频数据提供了灵活而强大的手段,从基本的像素操作到复杂的空间变换,都是现代计算机视觉和深度学习应用不可或缺的部分。
2024-01-19 15:51:31 1077
原创 PyTorch各种损失函数解析:深度学习模型优化的关键(2)
本文提供了对 PyTorch 中多种损失函数(Loss functions)的详细解析,包括其用途、使用方法、重要注意事项和数学理论公式。这些损失函数涵盖了从回归问题(如mse_loss和huber_loss),多标签分类(如和),到复杂的相似度学习(如和)等多种机器学习任务。每种损失函数都有其特定的应用场景和优化目标,例如mse_loss用于计算预测值和真实值之间的均方误差,适合于回归任务;而则用于学习数据点之间的相似度,常用于特征嵌入和相似度学习。
2024-01-18 16:06:49 1119
原创 PyTorch各种损失函数解析:深度学习模型优化的关键(1)
本博客介绍了PyTorch中多种损失函数的应用和原理,包括二元交叉熵损失(BCE和BCE with logits)、泊松负对数似然损失、余弦嵌入损失、交叉熵损失、连接主义时序分类(CTC)损失、高斯负对数似然损失、铰链嵌入损失、Kullback-Leibler(KL)散度损失和L1损失。每种损失函数都有其特定的应用场景,从简单的二分类问题到复杂的序列对齐和概率分布比较,这些损失函数在深度学习模型的训练过程中发挥着关键作用。
2024-01-18 10:35:44 1455
原创 PyTorch 中的距离函数深度解析:掌握向量间的距离和相似度计算
和pdist。这些函数在深度学习和机器学习中非常重要,用于计算向量之间的距离和相似度,从而支持各种算法如聚类、k-最近邻、特征相似度度量等。每个函数都有其特定的应用场景和数学原理。计算两组向量间的成对欧几里得距离,计算两个张量间的余弦相似度,而pdist则计算一个张量内各行向量间的 p 范数距离。通过这些函数,我们能有效地分析和处理数据,特别是在高维空间中。
2024-01-18 09:28:45 1281
原创 PyTorch 稀疏函数解析:embedding 、one_hot详解
本篇博客探讨了 PyTorch 框架中几个关键的稀疏函数,包括embedding和one_hot。这些函数在处理自然语言处理(NLP)任务和其他需要高效、灵活处理大量类别或序列数据的应用中至关重要。embedding函数用于从预定义的嵌入矩阵中检索指定索引的嵌入向量,支持自定义嵌入矩阵大小、填充索引和范数限制。提供了一种高效的方法来处理变长序列,通过聚合(如求和、均值或最大值)嵌入向量,而无需单独处理每个序列。one_hot。
2024-01-17 11:20:41 1096
原创 Pytorch各种Dropout层应用于详解
本文解析了 PyTorch 框架中的几种关键的 dropout 函数,包括dropoutdropout1ddropout2d和dropout3d。每种方法都针对不同的数据维度和网络特点,提供了有效的过拟合防止和模型正则化策略。
2024-01-17 11:01:15 1425
原创 掌握 torch.nn.functional 中的 Linear 和 Bilinear 函数
介绍了这两个函数的基本用途、参数详解、使用技巧,还通过具体的代码示例展示了如何在实践中应用这些函数。linear函数用于实现基本的线性变换,适用于神经网络的构建和特征变换;而bilinear函数则用于处理两个输入数据的交互,特别适合于更复杂的场景,如图像处理或推荐系统。
2024-01-17 09:31:55 1276
原创 深入理解 PyTorch 激活函数:从基础到高效实用技巧(4)
这个公式表示输入值的指数减去其负指数,然后除以这两个指数的和。结果是一个在 -1 和 1 之间的输出,提供了一个平滑的非线性变换。这个公式表示计算输入值的负指数,加 1 后取其倒数。结果是一个在 0 和 1 之间的输出,提供了平滑的非线性变换。如果x ≤ -3,则。如果x ≥ +3,则。否则,。这个公式将输入值分为三个区域:小于等于 -3 的区域输出为 0,大于等于 +3 的区域输出为 1,介于这两者之间的区域输出为。其中σ(x)是逻辑 Sigmoid 函数。这意味着每个输入值x。
2024-01-16 14:58:09 935
原创 深入理解 PyTorch 激活函数:从基础到高效实用技巧(3)
在数学上,这相当于取 Sigmoid 函数的输出并对其应用自然对数。对数 Sigmoid 函数平滑地将每个元素映射到负无穷大到零的区间,提供了一种平滑的方式来处理接近于0和1的极端值。如果,则保持x不变。如果,则将x设为 0。这种方法通过硬阈值将输入张量中绝对值较小的元素设置为零,而保持其它元素不变。这个公式表示每个元素的值减去其双曲正切值。函数的输出是输入值和其双曲正切的差值,这种设计在输入值较小(接近零)时,输出接近零,而在输入值较大时,输出趋于饱和。
2024-01-16 10:27:45 974
原创 深入理解 PyTorch 激活函数:从基础到高效实用技巧(2)
α(alpha)是一个预定的常数,约为 1.6732632423543772848170429916717。scale是另一个预定的常数,约为 1.0507009873554804934193349852946。exp(x)表示x的指数函数 e^x(e 是自然对数的底数)。函数中的max(0, x)和组合保证了当 x 为负时有一个平滑的负饱和状态,而 x 为正时的行为类似于线性函数。这里的exp(x / α)表示x / α的指数函数 e^(x/α)。对于正值输入,CELU 函数的行为类似于线性函数。
2024-01-16 09:50:43 899
原创 深入理解 PyTorch 激活函数:从基础到高效实用技巧(1)
当 x ≤ -3,HardSwish(x) = 0当 x ≥ +3,HardSwish(x) = x否则,HardSwish(x) = x * (x + 3) / 6这意味着,如果输入 x 小于 0,输出为 0;如果输入 x 大于 6,输出为 6;否则输出为 x 本身。当 x > 0 时,ELU(x) = x当 x ≤ 0 时,ELU(x) = α * (exp(x) - 1)这个函数的目的是在保持 ReLU 正值特性的同时,为负输入值提供一个平滑的饱和转换。
2024-01-16 09:26:18 846
原创 了解PyTorch中的缩放点积注意力及演示
是一个强大的PyTorch函数,用于实现缩放点积注意力机制。它通过计算查询、键和值之间的关系,为深度学习模型提供了一种有效的方式来捕获和关注重要信息。适用于各种序列处理任务,此函数特别适合于复杂的自然语言处理和计算机视觉应用。其高效的实现和可选的优化内核使其在处理大规模数据时表现卓越。
2024-01-11 10:02:21 657
原创 PyTorch 各种池化层函数全览与用法演示
在 PyTorch 中,池化层函数是卷积神经网络(CNN)中的重要组成部分,用于降维、特征提取和防止过拟合。这些函数包括不同类型和维度的池化操作,如平均池化、最大池化和自适应池化,适用于处理一维、二维和三维数据。每种池化操作都有其特定的应用场景和参数设置,提供了灵活性以适应不同的深度学习需求。
2024-01-11 09:34:08 1100
YOLOV8-main基础项目源码
2023-12-22
matplotlib条形图、柱状图、水平柱状图、扇形图、雷达图、气泡图、棉签图、箱线图、误差图源码
2023-05-31
对问卷进行可视化统计,python可视化
2023-05-31
Python实现OLS多元线性回归,类似SPSS一样的分析统计结果,并可以导出excel格式的统计结果
2023-05-31
蓝色简约风2020年终工作总结通用PPT模板
2020-09-19
Python爬虫示例:基础网页内容抓取
2018-07-14
CIFAR-10数据集
2024-01-23
YOLOv8中引入AIFI(Attention-based Intrascale Feature Interaction)源码
2024-01-22
YOLOv8小目标检测优化AFPN网络实现
2024-01-20
药品说明书数据库医药数据查询excel
2024-01-03
计算机视觉YOLOv8模型热图可视化工具
2023-12-30
YOLOv8-EfficientViT: 创新融合用于目标检测的高效网络可执行项目源码
2023-12-28
Python实现Yolo目标检测全面数据增强脚本 - 提升模型性能和泛化能力
2023-12-28
XML&JSON 目标检测、实例分割标签转换给yolo用脚本
2023-12-27
YOLOv8目标追踪实战全套资源包 - 源码与数据集完整分享
2023-12-27
基于YOLOv8-Pose的姿态识别项目,带数据集可直接跑通的源码
2023-12-26
yolov8-seg模型源码,实例分割,带数据集,测试可执行demo
2023-12-25
计算机视觉-YOLOv8目标检测-COCO128数据集应用分析
2023-12-25
Python 圣诞树图像生成器 - 节日编程乐趣
2023-12-23
YOLOv8 图像分类项目与 MNIST160 手写数字图片数据集集成
2023-12-23
MNIST160 手写数字图片数据集 - 用于 YOLOv8 图像分类
2023-12-23
求高质量图像翻译方向的模型
2023-07-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人