- 博客(406)
- 收藏
- 关注
原创 ******写在前言******
中午吃饭的时候,和一位公司的前辈聊起来知识繁碎的问题。我:总觉得自己从上学到工作,什么都只是接触了一点点,好多学过的东西也只是记在了小本本上,后来就找不到了。前辈:你可以写到自己的博客上。我:可是博客上精通某个领域的人太多了,和他们比起来,自己写的博客根本就不能看,也害怕自己万一写错了给别人造成误解。前辈:就算不是为了给别人看,自己当作一种记录的方式也挺好的;而且,每篇文章都有它的阅读人群,太高端...
2018-04-27 14:09:17 812 2
原创 YOLOv8 检测、分割模型的 OpenVINO 部署
点击下方卡片,关注“小白玩转Python”公众号为什么需要OpenVINO?OpenVINO(Open Visual Inference and Neural network Optimization)是英特尔推出的一种深度学习推理工具包,旨在优化和加速深度学习模型的推理过程。将模型转换为OpenVINO格式的主要优势有:性能优化:OpenVINO能够针对英特尔硬件进行优化,包括 CPU、GPU、...
2024-03-27 20:37:47 263
原创 ViT:使用 HuggingFace 和 PyTorch 对 Vision Transformer 进行微调实战
点击下方卡片,关注“小白玩转Python”公众号探索 CIFAR-10 图像分类介绍你一定听说过“Attention is all your need”?Transformers 最初从文本开始,现在已无处不在,甚至在图像中使用了一种称为视觉变换器 (ViT) 的东西,这种变换器最早是在论文《一张图片胜过 16x16 个单词:用于大规模图像识别的 Transformers》中引入的。这不仅仅是另一...
2024-03-26 20:49:52 567
原创 DINOv2:结合FAISS进行图像相似性搜索
早些时候,MetaAI 通过开源 DINOv2 在计算机视觉领域取得了一个重要的里程碑,该模型是在 1.42 亿张图像的庞大数据集上训练的。此版本使 DINOv2 与 OpenAI CLIP直接竞争,初步评估表明它甚至可能在某些任务上超越它。然而,浏览现有文档可能难以利用 DINOv2 的功能。在本文中,我们将探讨图像相似性任务需要采取的步骤,并对其性能进行全面评估。图像相似性的意义在之前的故事...
2024-03-23 09:34:53 355
原创 论文:YOLOv9 — 使用可编程梯度信息学习你想学的东西
论文地址:https://arxiv.org/abs/2402.13616代码地址:https://github.com/WongKinYiu/yolov9本文介绍了一种名为可编程梯度信息(PGI)的新概念,以解决深度学习网络中数据丢失的问题,因为数据经过逐层特征提取和空间转换。PGI旨在为计算目标函数提供完整的输入信息,确保网络权重更新的可靠梯度信息。除了PGI,作者们还提出了一种名为广义高效层...
2024-03-22 10:10:25 757
原创 基于 Google MediaPipe 进行人体姿势估计演示
用于人体姿势估计的 MediaPipe 演示MediaPipe简介MediaPipe是一个开源框架,用于构建跨平台、多模式应用机器学习管道。它由 Google 开发,旨在促进基于机器学习的功能的快速开发和部署,特别关注音频、视频和时间序列数据。我可以将 MediaPipe 用于商业用途来运营我的业务吗?我们可以将MediaPipe用于商业目的。 MediaPipe 是根据 Apache Licen...
2024-03-19 09:57:04 1001
原创 PicoDet:专为移动CPU优化的快速目标检测
概述PicoDet是在2021年11月发布的一种机器学习模型。它将最近在目标检测模型方面的研究成果集成到一个轻量级模型中,以在移动CPU上实现高准确度和高速目标检测。COCO dataset架构PicoDet通过使用轻量级结构作为骨干,提高了特征提取的速度。通过改进损失函数,它还提高了训练的稳定性和效率。最近几年来,基于无锚点的检测器在目标检测中变得越来越受欢迎,而全卷积单阶段目标检测(FCOS)...
2024-03-15 09:58:16 905
原创 医学YOLOv8 | 脑肿瘤检测实战
在医疗保健领域,准确和高效地识别脑肿瘤是一个重大挑战。本文中,我们将探讨一种使用 YOLOv8,一种先进的目标检测模型,将脑肿瘤进行分类的新方法,其准确率达到了 99%。通过将深度学习与医学图像相结合,我们希望这种方法将提高脑肿瘤识别的速度和准确性。首先,我们将从 Kaggle 获取脑肿瘤分类数据集。然后,我们将利用各种数据清理方法来准备数据,以输入到我们的模型中。接下来,我们将从 Ultraly...
2024-03-15 09:58:16 908
原创 结合检测、人员追踪和姿势估计的案例分析
我们生活在一个不断发展的世界,安全已成为一项基本优先事项。在这个不断变化的时代,安全问题已经成为焦点。对安全的日益关注在各种公共场所明显,包括机场、学校、购物中心等等。这种关切源于人群中广泛存在的枪支。令人震惊的是,仅在2023年初,美国就因与枪支有关的暴力事件发生了超过2万起致命案件。这些令人担忧的统计数字强调了我们社会迫切需要进行讨论和采取行动,以提高安全性并遏制枪支在我们社会中造成的毁灭性影...
2024-03-14 10:43:38 989
原创 基于Transformer的经典目标检测之DETR
背景DETR,即DEtection TRansformer,是由尼古拉斯·卡里翁及其团队于2020年在Facebook AI Research首次提出的,它在目标检测领域开创了一种新的波潮。虽然目前并未保持最先进(State Of The Art)的地位,但DETR对目标检测任务的创新重新定义显著影响了后续的模型,例如CO-DETR,它是当前LVIS上目标检测和实例分割的最先进技术。摆脱传统的一对...
2024-03-13 10:17:57 855
原创 基于 YOLOv8 的动物物种检测
简介动物在车辆碰撞中被撞死,这种现象被称为路边死亡,是一个重要的全球问题,导致野生动物死亡率高。仅在美国,每天有超过100万种脊椎动物在车辆碰撞中丧生。全球范围内,这一数字每天超过550万,年总数超过20亿。最近的一项研究已经确定了易受危害的动物种群,例如豹(面临由路边死亡引发的绝种风险增加了83%)、巴西狼(增加了34%的绝种风险)、巴西猫(增加了0至75%的绝种风险)和南非鬣狗(增加了0至75...
2024-03-13 10:17:57 380
原创 基于机器学习和OpenCV的激光雷达数据分割和分类
背景目前,先进传感器的使用使得在自然资源监测方面能够以高效的方式进行创新,激光雷达技术就是这样一种情况。激光雷达技术是GPS技术、惯性测量单元和激光传感器的集成结果,用于通过收集以三维坐标(x、y、z)呈现的数据来测量可变距离的范围。这些数据用于定义地表,并生成数字地形模型(DTM)和数字地表模型(DSM),从中生成冠高模型(CHM),该模型等于地面和地面上方对象顶部之间的高度或残余距离(图1)。...
2024-03-12 10:01:31 978
原创 7个Python内存优化技巧,你用过几个?
当我们的项目变得越来越大时,高效管理计算资源是一个不可避免的要求。不幸的是,与低级语言如C或C++相比,Python在内存效率方面似乎不够。那么,现在应该更改编程语言吗?当然不是。事实上,有许多方法可以显著优化Python程序的内存使用,从优秀的模块和工具到先进的数据结构和算法。本文将聚焦于Python的内置机制,并介绍7个原始但有效的内存优化技巧。掌握这些技巧将显著提高我们的Python编程技能...
2024-03-11 10:40:13 874
原创 探索性数据分析(EDA)的数据可视化 | 附代码
数据可视化是探索性数据分析的重要组成部分,因为它有助于分析和可视化数据,以获得对数据分布、变量之间的关系和潜在异常值的启示性见解。Python具有丰富的库,可以快速高效地创建可视化。在Python中,通常使用以下几种类型的可视化进行探索性数据分析:柱状图:用于显示不同类别之间的比较。折线图:用于显示随时间或不同类别的趋势。饼图:用于显示不同类别的比例或百分比。直方图:用于显示单个变量的分布。热图:...
2024-03-10 10:36:56 458
原创 基于 Python 的人脸检测 — 人脸识别的前提
人脸检测是一种识别数字图像中人类面孔的技术。人脸检测是一项相对成熟的技术,还记得在您的数码相机的旧日子里,当您通过取景器看时?您会看到围绕在取景器中的人们脸部的矩形框。在进行人脸识别之前,您需要学习的技术就是人脸检测,也就是试图给脸部赋予一个名字。对于人脸检测,其中最著名的算法之一是被称为Viola-Jones人脸检测技术,通常称为Haar级联。Haar级联在深度学习流行之前就被发明了,是最常用于...
2024-03-08 10:05:00 817
原创 目前超火的LLM,也能在您的私有数据上部署问答系统
介绍本文将探讨如何利用语言模型和文本分块构建一个问答系统。我们将使用PyPDF2、langchain、Hugging Face和FAISS等工具从PDF中提取文本,将其处理成可管理的块,创建嵌入并利用这些嵌入进行高效的基于检索的问答。什么是LLM?LLM代表“语言模型”,它是一类用于自然语言处理(NLP)任务的人工智能模型。语言模型被设计用于理解和生成人类语言文本。它们具有预测句子中下一个词、完成...
2024-03-05 09:48:13 839
原创 基于 Python 的声音克隆实例
最近给电话银行打电话,鼓励我“将我的声音用作密码”。他们说这样更快更安全。你只需要说一些类似“我的声音是我的密码”的话,你就能通过安全验证。这让我想到了生成式AI和语音克隆,它究竟有多容易做到以及有多大的风险。我花了几个小时的时间,就能够从WhatsApp的语音留言中克隆出某人的声音!理论上来讲,你只需要至少三个大约10秒的样本,就能够克隆出某人的声音。语音样本可以来自任何地方。微信语音、电话记录...
2024-03-04 10:31:06 336
原创 入门LLMs开发 — LangChain
像OpenAI的GPT-4这样的大型语言模型(LLMs)已经风靡全球。它们可以自动执行各种任务,如回答问题、翻译语言、分析文本等。LLMs是第一种真正感觉像“人工智能”的机器学习类型。然而,在将LLMs应用于实际产品时仍然存在挑战。特别是其中一个最棘手和繁琐的挑战是LLM的管理。如果我们想要构建由LLMs驱动的应用程序,我们需要管理以下几个方面:不同类型的LLM —— OpenAI、Anthrop...
2024-03-03 10:20:13 861
原创 Transformer 在医学图像分类中的应用
这篇文章的重点是Vision Transformer(ViT)及其在实际问题中的应用。Transformer架构已经成为自然语言处理任务的事实标准。什么是Vision Transformer(ViT)?ViT架构基于图像表示,将图像表示为一组补丁。图像补丁是大小为16x16像素的非重叠图像块。例如,在分辨率为224x224的图像中,有(224 / 16) (224 / 16) = 14 14 =...
2024-03-01 09:53:48 913
原创 PyTorch 精髓之张量和张量计算
在深度学习领域(也包括ChatGPT构建的领域)中,最重要的库之一是PyTorch。与Tensorflow框架一样,PyTorch是软件开发人员和数据科学家可以使用的最著名的神经网络训练框架之一。除了其易用性和简单的API外,它在灵活性和内存使用方面表现出色,使其在多维计算中极其快速(这是反向传播的重要组成部分,该技术用于优化神经网络的权重) — 这些细节使其成为公司在构建深度学习模型时最追求的库...
2024-02-28 10:00:22 937
原创 从数据库获取数据,必须要了解Python生成器
介绍作为数据工程师,我们经常面临这样的情况:我们必须从运营数据库中获取一个特别大的数据集,对其进行一些转换,然后将其写回分析数据库或云对象存储(例如S3桶)。如果数据集太大无法装入内存,但同时使用分布式计算不值得或不可行,该怎么办呢?在这种情况下,我们需要找到一种方法,在不影响数据团队其他同事(例如通过使用Airflow实例中可用内存的大部分)的情况下完成工作。这就是Python生成器可能会派上用...
2024-02-23 09:00:16 866
原创 Python数据科学家和ML工程师应该了解的5个库
这篇文章非常适合初学者或中级机器学习工程师或数据科学家。我们已经选择了自己喜欢的机器学习库,如 PyTorch 或 TensorFlow,并掌握了选择模型架构的技巧。我们还可以训练模型并解决实际问题。本文将介绍五个库,使得我们机器学习的开发过程更加简单。1. MLFlow 实验和模型跟踪假设我们是一名机器学习开发人员,正在进行一个项目,构建一个预测客户流失的模型。我们开始使用 Jupyter 笔记...
2024-02-22 09:00:28 932
原创 可视化新工具 —— HoloViews
觉得绘制数据像是迷宫而不是地图吗?那么,HoloViews来拯救我们了!它就像是Python中的一种神奇工具,让处理数据变得轻而易举。想象一下,我们可以让我们的数据自己展示,让我们专注于有趣的事情,而不是头疼于绘图的问题。HoloViews保持简单 - 只需几行代码,我们就可以开始了。告别令人困惑的图表,迎接不费吹灰之力地探索我们的数据。为什么选择HoloViews?我们可能会想,Python已经...
2024-02-20 10:02:15 756
原创 增强UNet:通过迁移学习定制分割模型
引言本文着重于在PyTorch框架中实现基于迁移学习的UNET架构的变体。UNET架构最初由Olaf Ronneberger等人于2015年在德国弗莱堡大学进行生物医学图像分割时开发,其名称来源于其独特的收缩和扩展路径,形成了层次结构的U形。这种架构及其变体在许多应用中被证明能够有效捕捉复杂的细节并保留空间信息。然而,在不断追求性能提升的过程中,探索各种技术仍然是至关重要的,其中之一就是整合迁移学...
2024-02-19 09:02:22 486 1
原创 Google AI 轻松通过眼睛预测你的年龄
新的模型可以通过分析眼部照片揭示衰老的秘密近年来,谷歌一直在研究各种人工智能模型,可以分析眼睛(内部和外部)的图像并监测某些参数。正如之前提到的,开发能够从眼睛中提取信息的 AI 模型意味着能够以经济高效和无创伤的方式监测患者。此前,谷歌已经证明,通过使用 AI 和视网膜或外部眼睛的图像,可以测量疾病风险、生物标志物等。谷歌最近发表了一篇新论文,描述了如何使用 AI 模型在视网膜图像上开发一个衰老...
2024-02-08 10:00:32 935
原创 一文看懂,为什么Python运行速度如此慢?
在编程社区中,众所周知Python编程语言在速度方面并不占优势。"但是就是慢..."在这篇文章中,我将介绍Python的不同特性,我们将了解为什么这使其成为当今最完整的语言之一,但速度不够快。但首先,让我们掌握一些关于编程语言的基本知识。抽象级别正如我们可能知道的那样,编程语言通常根据其抽象级别进行描述。低抽象级别表明该语言更接近硬件(难以解释)高级别表示代码更接近用户(易于解释)。抽象级别(从硬...
2024-02-08 10:00:32 953
原创 烹饪第一个U-Net进行图像分割
今天我们将学习如何准备计算机视觉中最重要的网络之一:U-Net。如果你没有代码和数据集也没关系,可以分别通过下面两个链接进行访问:代码:https://www.kaggle.com/datasets/mateuszbuda/lgg-mri-segmentation?source=post_page-----e812e37e9cd0--------------------------------Ka...
2024-02-06 09:56:57 1855
原创 0基础如何进行人脸识别?DeepFace可以做到
通常,检测人脸是你通常执行的第一步,接着是人脸识别。人脸识别是一个过程,其中你将数字图像或视频帧中的人脸与一个人脸数据库进行匹配。有几个深度学习模型可以用于进行人脸识别,但所有这些都要求你具备一些神经网络的知识,而且你还需要使用自己的数据集对它们进行训练。对于那些想要进行人脸识别但不想深入了解神经网络工作原理的人来说,有一个真正简化人脸识别的API — DeepFace。什么是DeepFace?D...
2024-02-05 09:56:52 993
原创 OCR升级版 — 微调EasyOCR实战
OCR是从图像中提取文本的有价值工具。然而,有时您使用的OCR在特定需求上的表现不如您所希望的那样好。如果您面临这样的问题,微调OCR引擎是解决的一种方法。在本教程中,我将向您展示如何微调EasyOCR,这是一个免费、开源的OCR引擎,您可以在Python中使用。概述先决条件安装所需的软件包克隆所需的Git存储库生成数据集将数据集转换为lmdb格式检索预训练的OCR模型:运行微调使用微调后的模型运...
2024-02-04 10:06:21 1169
原创 计算机视觉中的目标跟踪
从保护我们城市的监控系统到自动驾驶车辆在道路上行驶,目标跟踪已经成为计算机视觉中的一项基础技术。本文深入探讨了目标跟踪,探索了其基本原理、多样化的方法以及在现实世界中的应用。什么是目标跟踪?目标跟踪是深度学习在计算机视觉中广泛应用的重要应用之一。它指的是在动态环境中通过分析轨迹自动识别和跟踪物体,一旦初始位置已知。目标跟踪隐式地使用技术来识别和分类帧中的对象,并为每个对象关联一个唯一的标识。通常,...
2024-02-02 09:54:01 1310
原创 说再见Python循环,“向量化”让我们代码更高效
介绍循环在我们身边自然而然地出现,我们几乎在所有编程语言中都学过循环。因此,默认情况下,每当有重复操作时,我们就开始实现循环。但是当我们处理大量迭代(数百万/数十亿行)时,使用循环就是一种罪行。我们可能会卡住好几个小时,最后意识到它行不通。这就是在Python中实现向量化变得非常关键的地方。什么是向量化?向量化是在数据集上实现(NumPy)数组操作的技术。在后台,它将操作应用于数组或系列的所有元素...
2024-01-31 09:58:23 392
原创 初学者在Python中的基本图像处理库 - OpenCV和imutils
处理图像处理和操作的最常用的库之一是 Python 的 OpenCV。对于图像分类、目标检测或光学字符识别,在人工智能领域与图像相关的任何工作大多数时候都需要某种形式的图像处理和操作。在本教程中,我们将专注于 OpenCV 的一些基本功能。这些功能基础且有时非常有用。我们将通过示例学习它们。在开始之前,这是我们今天将要使用的库。import cv2import matplotlib.pyplot...
2024-01-29 10:01:17 990
原创 使用Mediapipe实现CPU上的实时人脸检测(每秒30帧)
对计算机视觉和人脸检测感兴趣吗?在这个初学者指南中,我们将探讨如何使用Mediapipe和Python进行实时人脸检测。了解如何利用Mediapipe和Python这一强大组合,在CPU上以惊人的30帧每秒的速度检测人脸。让我们开始吧。照片已检测到人脸关于Mediapipe的一点介绍Mediapipe是一个用于构建跨平台、可定制的实时和流媒体机器学习解决方案的开源框架。它可用于执行各种计算机视觉任...
2024-01-28 10:01:29 893
原创 自定义目标检测:探索YOLO流程并在自定义数据上进行训练
深度学习在过去的十年里取得了巨大的进展,尽管早期模型难以理解和应用,但现代框架和工具使得每个具备一些代码理解能力的人都能训练自己的神经网络来处理计算机视觉任务。在这篇文章中,我将详细演示如何加载和增强数据以及边界框,训练目标检测算法,并最终查看我们在测试图像中能够多精确地检测对象。虽然随着时间推移可用的工具包变得更易于使用,但仍然存在一些可能遇到的陷阱。计算机视觉(CV)简介计算机视觉既是一个非常...
2024-01-27 09:55:25 929
原创 创建Transformer编码器和多头注意力层 | 一篇文章就可以讲明白
引言如今,计算自然语言处理(NLP)是一个迅速发展的领域,其中计算力量与语言学相结合。其中语言学的一部分主要归功于约翰·鲁珀特·弗斯的分布语义理论。他曾说过以下的名言:“你可以通过它的伙伴了解一个词的含义”。因此,一个词的语义表示取决于它所在的上下文。正是基于这一假设,Ashish Vaswani等人的论文“Attention is all you need” 才具有开创性的重要性。它将Trans...
2024-01-23 09:00:41 876
原创 构建人脸识别应用程序的两种思路:基于Python、OpenCV、Transformers和Qdrant
人脸识别应用程序工作流程方法一:使用Python、OpenCV和Qdrant进行人脸识别人脸识别技术已经成为一股无处不在的力量,正在重塑安全、社交媒体和智能手机认证等行业。在本博客中,我们深入探讨了人脸识别领域,携带着强大的Python、OpenCV、Image Embedding和Qdrant这三大工具。加入我们,一起揭开创建强大人脸识别系统的复杂性。第一部分:人脸识别简介在第一部分,我们通过深...
2024-01-21 10:10:30 874
原创 RetinaNet:推动计算机视觉中的目标检测
介绍在计算机视觉领域,目标检测是一项基础任务,使机器能够识别和定位图像或视频帧中的对象。这种能力在各个领域都有深远的影响,从自动驾驶车辆和机器人技术到医疗保健和监控应用。RetinaNet,作为一种开创性的目标检测框架,已经成为解决在复杂场景中检测各种大小的对象时准确性和效率方面挑战的显著解决方案。目标检测:一个基础挑战目标检测涉及在图像中识别多个对象,同时提供有关它们的空间位置和类别标签的信息。...
2024-01-20 09:44:13 1091
原创 树莓派也可以部署基于YOLO的目标检测
YOLO目标检测结果在本文的第一部分中,我测试了YOLO(You Only Look Once)这一流行的目标检测库的“复古”版本。只使用OpenCV运行深度学习模型,而不使用“沉重”的框架如PyTorch或Keras,对于低功耗设备来说是有前途的,因此我决定深入研究这个主题,看看最新的YOLO v8模型在树莓派上的工作原理。让我们深入了解。硬件在云中运行任何模型通常不是问题,资源几乎是无限的。但...
2024-01-18 09:30:38 1025 1
原创 从零创建自动文本数据提取&表单填充系统
在一个数据是业务运营生命线的时代,从大量非结构化文本中提取有价值的信息可能是一项艰巨的挑战。无论是解析合同、发票还是手写笔记,准确而高效的文本数据提取需求变得愈发紧迫。该项目涉及多种方法和技术,包括用于文本识别的OCR、用于信息提取的语言模型和命名实体识别(NER),以及用于特定数据模式匹配和填充表单的正则表达式/规则。动机开发用于准确文本数据提取的OCR和语言模型的动机是多方面的,每个都受到利用...
2024-01-17 09:20:55 981
原创 Python vs. Rust:打破三大障碍
在我周围的每个人都知道我是Python 的忠实粉丝。大约15年前,当我对 Mathworks Matlab 感到厌倦时,我开始使用Python。虽然Matlab的理念看起来不错,但在掌握了Python之后,我再也没有回头。我甚至成为了我所在大学的Python传道者,"传播这个词"。会编码并不等于成为软件开发者。当我了解到强类型、SOLID原则和通用编程架构等主题时,我也瞥见了其他编程语言以及它们如...
2024-01-16 09:32:56 1078
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人