李明朔-CSDN博客

原创 LlamaIndex——RAG概述

目前，以下组件是 Transformation 对象：文本分割器、节点解析器、元数据提取器、Embeddingsmodel（查看我们支持的嵌入列表）。除了这些模块，我们可以自定义转换操作，例如import re],

2024-04-03 06:16:34 707

原创 Introduction to Machine Learning in Production

下图展示了一个机器学习项目包含的内容数据标注时可能会对数据有不同的标注，如下图所示这三种标注方法都有一定意义，但如果数据集中包含了这三种方法，学习到的模型可能会很糟糕。多个数据标注人员标注同一张图创建一个新标签数据标注的方法：内部自己标注、外包、众包。

2024-03-20 07:08:59 792

大模型训练moe是指混合专家（Mixture-of-experts，简称MoE）的，这是一种用于提高大型神经网络性能的技术，它可以将模型的一部分替换为多个专家，每个专家只负责处理一部分输入数据，从而增加模型的参数量和表达能力，同时减少计算量和训练时间。指令可以作为模型的输入的一部分，也可以作为模型的输出的一部分，具体取决于任务的类型。上下文扩展技术的，这是一种用于提高大型语言模型（LLM）对长文本的处理能力的技术，它可以让模型在不增加参数量的情况下，扩展其注意力范围，从而提高模型的语言理解和生成能力。

2024-02-27 05:24:00 1043

原创 Pyspark

Standalone 模式：Standalone模式是Spark自带的独立部署模式，它是一种简单的分布式模式，支持在独立的集群上运行Spark应用程序。它是Spark 2.0及以上版本中引入的概念，取代了之前版本中的SparkContext和SQLContext，并将它们的功能整合在一个统一的接口中。Local模式适用于开发和测试，Standalone模式适用于简单的分布式部署，YARN和Mesos模式适用于与Hadoop或Mesos集成的部署，而Kubernetes模式适用于容器化的部署。

2024-01-23 11:20:45 1148 1

原创 AWS学习（二）——数据工程

Amazon Athena:Amazon Athena是一种无服务器的查询服务，用于在Amazon S3上执行交互式SQL查询。它适用于在原始数据存储在S3上的场景，支持标准SQL查询，并无需预先加载或转换数据。适用场景：快速数据探索、数据查询和分析，适合数据湖架构，不需要预先定义模式。AWS EMR (Elastic MapReduce):AWS EMR是一种完全托管的大数据处理服务，它支持在分布式集群上运行和管理大规模数据处理工作负载。

2024-01-23 11:19:47 867

原创 MLops学习

Terraform 的核心思想是将基础设施的定义与实际的基础设施状态保持同步，实现可重复、可管理的基础设施管理。GitHub Actions中的CI的主要目标是确保新的代码变更能够顺利地集成到主代码库，并且通过运行测试和其他验证步骤来确保代码质量。通过一个简单的YAML文件，可以配置应用程序的服务、网络和卷，并使用docker-compose命令启动、停止和管理整个应用程序的生命周期。通过使用不同的变量文件，你可以在不同的环境中使用相同的 Terraform 模块，使用。以下是一个简单的实例。

2023-12-05 05:50:42 838

转载扩散模型学习（四）

音频的’波形’从时间上表现出了源音频 - 比如，这可能是接收自麦克风的电信号。从这种’时域’的表达方式上做处理会有些棘手，所以有种更普遍的做法把它转换成其他形式，通常把这叫做频谱。这条音频的采样率会更高 - 如果我们想用目前的这个pipeline，需要对它’重采样’来匹配。这个片段也比pipeline所预设的长度更长。幸运的是，当我们使用pipe.mel在加载音频时，会自动把它切片成更短的片区。音频不是直接被扩散模型生成，而是这个pipeline有着与图像生成pipelines类似的2D Unet结构。

2023-11-08 12:31:03 145

转载扩散模型学习（三）

此外，除了把用于暗示带噪程度的timestep输入进 UNet 作为条件外，这里模型也把文字提示（prompt）的文本嵌入（text embeddings）作为了额外输入。可变分自编码器（VAE）是一种模型，它可以将输入编码成一种被压缩过的表示形式，再把这个“隐式的”表示形式解码成某种接近输入的输出。首先，我们手动进行分词，并将它输入到文本编码器中，再使用管线的 _encode_prompt 方法，观察一下完成的过程，这包括补全或截断分词串的长度，使得分词串的长度等于最大长度 77。

2023-11-01 07:04:14 144

转载扩散模型学习（二）

另外，由于这个过程是可微分的，我们可以使用它作为损失函数去引导我们的扩散模型。第一，我们是在从 UNet 得到噪声预测后才给 x 设置 requires_grad 的，这样对内存来讲更高效一点（因为我们不用穿过扩散模型去追踪梯度），但这样做梯度的精度会低一点。这里我们要介绍引导（guidance），它可以用来在采样的过程中施加额外控制。第一步，我们先创建一个函数，定义我们希望优化的一个指标（损失值）。第二种方法是，我们先给 x 设置 requires_grad，然后再送入 UNet 并计算预测出的 x0。

2023-10-27 12:56:23 166

转载扩散模型学习（一）

噪声管理器决定在不同的迭代周期时分别加入多少噪声。大多数扩散模型使用的模型结构都是一些 U-net 的变形。Diffusers 为我们提供了一个易用的UNet2DModel类，用来在 PyTorch 创建所需要的结构。),),

2023-10-19 14:18:11 500

原创 GCP学习笔记（二）——大数据和机器学习

我们可以将GCP大数据和机器学习服务分为以下四类：数据读取和处理、存储、分析、机器学习，一个完整的工作流程如下图所示。

2023-06-26 09:13:39 850

原创 GCP学习笔记（三）——存储和安全

Google Cloud Platform (GCP) 提供强大且可扩展的网络基础设施来支持各种云服务和应用程序。GCP 网络旨在提供高性能、安全性和可靠性。虚拟私有云 (VPC)：VPC 是 GCP 内逻辑隔离的全球网络，允许您创建和管理虚拟机实例、容器和其他资源。每个VPC都与一个IP地址范围相关联，并且可以进一步划分为子网。子网：子网是 VPC 的细分，使您能够隔离网络资源。您可以指定子网的 IP 地址范围并使用防火墙规则控制子网之间的流量。

2023-06-26 09:13:06 1699

原创 Coursera自动驾驶2.3-2.4——传感器：IMU，GNSS，LiDAR

LiDAR（激光雷达）可以感知到汽车四周所有方向并且能够提供非常准确的距离信息。如果要在一维空间中构建一个基本的 LIDAR，通常需要三个组件：一个激光器、一个光电探测器和一个非常精确的秒表。激光器首先沿着一些已知的射线方向发射近红外频带内的短脉冲。与此同时，秒表开始计数。激光脉冲以光速从传感器向外行进并击中远距离目标。只要目标表面没有抛光或发亮，激光脉冲就会从目标表面向各个方向散射，其中一些反射光会沿着原始光线方向返回。光电探测器捕捉到返回脉冲，秒表会告诉你从脉冲第一次消失到它回来之间经过了多长时间。

2023-06-02 00:29:56 558

原创 Coursera自动驾驶2.1——最小二乘法和线性和非线性卡尔曼滤波

卡尔曼滤波器与线性递归最小二乘滤波器非常相似。递归最小二乘可以更新参数的估计值，但卡尔曼滤波器却能够对状态量进行估计和更新。卡尔曼滤波器的目标是对该状态量进行概率估计，主要是分两步实时更新：预测和修正。首先从时间 k − 1 时的初始概率估计开始，我们使用从车轮里程计或惯性传感器测量得出的数据使用运动模型来预测汽车的位置。然后，我们使用从 GPS或Lidar 测量得出的数据并使用测量模型来修正 k 时刻汽车的位置。

2023-06-02 00:29:02 815

原创图形学大纲

文章目录基础视图变换：计算机图形学二：视图变换(坐标系转化，正交投影，透视投影，视口变换)三角形的重心坐标：计算机图形学补充1：重心坐标(barycentric coordinates)详解及其作用渲染管线渲染管线概述：计算机图形学笔记（一）渲染管线概述三角形光栅化：（超详细！）计算机图形学入门篇 3. 光栅化(Rasterization)Z-buffer：Z缓冲区消隐算法——计算机图形学笔记反走样（抗锯齿）：图形学随笔：反走样（抗锯齿）—Antialiasing光线追踪：

2023-04-21 03:23:58 344

原创 Coursera自动驾驶1.4——车辆建模

车辆建模

2022-11-18 08:27:35 1971 4

原创 Coursera自动驾驶1.5——纵向控制和横向控制

自动驾驶——汽车纵向控制和横向控制

2022-11-15 08:27:50 4025

原创 Coursera自动驾驶1.1-1.2——自动驾驶基础和软硬件架构

自动驾驶基础和软硬件架构

2022-11-11 08:02:50 1462

原创 AWS Python应用

AWS Python基础

2022-07-06 01:27:34 1475 3

原创 AWS学习（一）——AWS云技术基础

aws基础

2022-06-07 02:54:55 9953

原创数据库管理学习笔记（一）——实体关系建模

文章目录一、实体关系建模1.概念（1）实体、关系和属性（2）约束2.ER图绘制3.实体关系模型存在的问题（1）Fan Traps（2）Chasm Traps二、增强实体关系建模1.Specialization/Generalization（1）Superclasses and Subclasses（超集和子集）（2）ER图画法（3）泛化/特化的约束2.Aggregation3.Composition一、实体关系建模1.概念（1）实体、关系和属性实体关系建模是一种自顶而下的数据库设计方法，通过定义一些

2022-01-23 09:46:43 4829

原创系统设计（三）——约会软件系统设计

文章目录一、需求分析1.功能性需求2.非功能性需求二、API接口三、high level design四、细节描述——如何存储用户图片一、需求分析1.功能性需求拥有一个账户能够上传照片通过一些特定指标来获得附近的人资料，例如地理位置、性别、年龄等通过左滑或右滑的方式来筛选推荐过的用户不会再次被推荐当用户匹配时用户之间可以交流分析/监控可以进行视频/语音聊天2.非功能性需求容错率，高可用性，最小化读/写延迟，可扩展性，数据一致性（consistency），重复性（dualility

2021-12-28 00:55:59 1390

原创系统设计（一）——Overview

文章目录一、系统设计概述二、分布式系统1.分布式系统概述2.分布式系统的安全（1）对称密钥加密（2）非对称密钥加密一、系统设计概述系统设计面试的步骤：了解需求：包括功能性（functional）需求和非功能性（non-functional）需求。功能性需求一般指软件需要实现的具体功能，非功能性需求一般指系统运行时的特性，例如安全性、可靠性、互操作性、健壮性、易使用性、可维护性、可移植性、可重用性、可扩充性。容量估计（capacity estimation）：通过估计用户总数、活跃用户总数等指标来估

2021-12-27 04:58:04 328

原创系统设计（二）——TinyURL系统设计

文章目录一、需求分析1.功能性需求2.非功能性需求二、API接口三、high level design四、细节描述五、数据库设计一、需求分析1.功能性需求给定一个长链接能够生成一个独特的短链接（写操作）给定一个短链接能够找到对应的长链接（读操作）短链接应该包含6个字符（可以改变）短链接是随机生成的生成短链接需要提供用户账户监控/分析系统2.非功能性需求容错率，高可用性，最小化读/写延迟，可扩展性，数据一致性（consistency），重复性（dualility），代价最小二、API接口

2021-12-22 06:04:39 911

原创 Tensorflow2.0数据和部署（四）——Tensorflow高级模型部署

文章目录一、TF Serving1.安装2.搭建服务（1）构建模型（2）保存模型（3）运行TF Model Server3.使用服务（1）将数据传递给服务器（2）从服务器获取结果二、Tensorflow_hub三、Tensorboard四、联邦学习（federated learning）一、TF ServingTensorflow Serving是TFX（Tensorflow Extended）的一部分，是一个专门为生产环境下机器学习服务的API，使用TF Serving，可以在云平台通过HTTP来访问

2021-07-14 10:12:08 1909 1

原创 Tensorflow2.0数据和部署（三）——基于Tensorflow数据服务的数据管道

文章目录一、概述二、split和slice三、数据导出四、表现一、概述二、split和slice三、数据导出四、表现

2021-07-08 21:33:24 717 3

原创 Tensorflow2.0数据和部署（二）——基于设备的模型与TensorFlow Lite

文章目录一、概述1.模型存储2.量化方法二、基于安卓的TF模型三、基于IOS的TF模型四、基于嵌入式设备的TF模型一、概述TensorFlow Lite的两个主要部分：转换器和解释器。转换器的主要作用是将TF模型转换为轻量化的可被解释器读取的模型结构，解释器主要是为了在不同的平台上进行部署。下图为TensorFlow Lite的结构：由于移动设备的计算能力限制，我们需要对模型进行优化，优化方法如下：量化（主要）：降低模型权重和偏差中数字的精度，float32->int8剪枝：减少参数总

2021-06-30 14:35:18 740 1

原创 Tensorflow2.0数据和部署（一）——基于浏览器的模型与TensorFlow.js

文章目录一、总体介绍编程实践1.创建一个简单的网页2.编写脚本文件加载TensorFlow.js3.完整代码4.从csv文件中读取数据4.设计更复杂的神经网络二、图像分类1.编写一个CNN网络2.可视化工具tfvis加载tfjs-vis在回调函数中设置tfvis三、模型转换为Json格式四、使用预训练模型进行迁移学习一、总体介绍TensorFlow.js的设计和架构如下图所示；从上图可以看出，我们既可以使用友好的高级API，也可以使用低级的API进行直接编程。我们希望他能够运行在浏览器和Node.j

2021-06-18 16:46:30 722

原创剪枝综述论文阅读：Methods for Pruning Deep Neural Networks

文章目录一、摘要以及概述二、三、四、论文链接：Methods for Pruning Deep Neural Networks一、摘要以及概述二、三、四、

2021-06-11 09:46:56 5952 4

转载 Docker组队学习（三）

Docker 数据管理一、数据卷1.创建一个数据卷2.启动一个挂载数据卷的容器3.查看数据卷的具体信息4.删除数据卷二、挂载主机目录1.挂载一个主机目录作为数据卷2.挂载一个本地主机文件作为数据卷一、数据卷数据卷是一个可供一个或多个容器使用的特殊目录，它绕过 UFS (UNIX File System) ，可以提供很多有用的特性：数据卷可以在容器之间共享和重用对数据卷的修改会立马生效对数据卷的更新，不会影响镜像数据卷默认会一直存在，即使容器被删除1.创建一个数据卷使用命令$ docker

2021-04-16 19:23:20 111

转载 Docker组队学习（二）

文章目录一、Docker镜像1.获取镜像2.列出镜像3.删除本地镜像Untagged 和 Deleted4.Dockerfile制作镜像二、Docker容器内容来源于Chapter 2 Docker镜像与容器一、Docker镜像1.获取镜像Docker Hub 上有大量的高质量的镜像可以用，从 Docker 镜像仓库获取镜像的命令是 docker pull。其命令格式为：$ docker pull [选项] [Docker Registry 地址[:端口号]/]仓库名[:标签]具体的选项可以通

2021-04-15 20:34:43 101

转载 Docker组队学习（一）

文章目录一、Docker简介二、三大基本概念1.镜像（Image）分层存储2.容器（Container）3.仓库（Repository）（1）Docker Registry 公开服务（2）私有 Docker Registry三、Docker安装一、Docker简介Docker 使用 Google 公司推出的 Go 语言进行开发实现，基于 Linux 内核的 cgroup，namespace，以及 OverlayFS 类的 Union FS 等技术，对进程进行封装隔离，属于操作系统层面的虚拟化技术。由于隔

2021-04-12 19:52:07 126

原创模型压缩资料整理

文章目录一、剪枝二、蒸馏三、结构搜索（NAS）四、量化五、高效结构设计’参考文章：模型压缩工作总结深度学习模型压缩与加速综述剪枝：【AI不惑境】模型剪枝技术原理及其发展现状和展望模型剪枝之pytorch prune模型加速与压缩 | 剪枝乱炖蒸馏：知识蒸馏（Knowledge Distillation）知识蒸馏是什么？一份入门随笔Knowledge Distillation（知识蒸馏）Review–20篇paper回顾7 Papers | CVPR 2020获奖论文；知识蒸馏综述架

2021-03-15 20:21:28 174 2

原创零基础入门语义分割-Task6 分割模型模型集成

文章目录一、集成学习方法二、深度学习中的集成学习1.Dropout2.TTA3.Snapshot一、集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boosting，同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期，如果硬件设备不允许建议选取留出法，如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证，训练得到10个语义分割模型。那么在10个CNN模型可以使用如下方式进行集成

2021-03-07 15:42:36 455

原创零基础入门语义分割-Task5 模型训练与验证

使用Pytorch来完成CNN的训练和验证过程,逻辑结构如下：构造训练集和验证集；每轮进行训练和验证，并根据最优验证集精度保存模型。train_loader = torch.utils.data.DataLoader( train_dataset, batch_size=10, shuffle=True, num_workers=10, )val_loader = torch.utils.data.DataLoader( val_dataset, batch_si

2021-03-03 19:48:23 197 1

原创零基础入门语义分割-Task4 评价函数与损失函数

这里写目录标题一、Dice评价指标二、IoU评价指标三级目录一、Dice评价指标Dice系数Dice系数（Dice coefficient）是常见的评价分割效果的方法之一，同样也可以改写成损失函数用来度量prediction和target之间的距离。Dice系数定义如下：Dice(T,P)=2∣T∩P∣∣T∣∪∣P∣=2TPFP+2TP+FN Dice (T, P) = \frac{2 |T \cap P|}{|T| \cup |P|} = \frac{2TP}{FP+2TP+FN} Dice(T,

2021-03-01 14:42:51 289

原创图像语义分割模型综述

文章目录一级目录二级目录三级目录一级目录二级目录三级目录

2021-02-25 13:18:02 7477 1

原创零基础入门语义分割——Task2 数据扩增

文章目录一、OpenCV数据扩增二、albumentations数据扩增三、Pytorch数据读取数据扩增方法：数据扩增是一种有效的正则化方法，可以防止模型过拟合，在深度学习模型的训练过程中应用广泛。数据扩增的目的是增加数据集中样本的数据量，同时也可以有效增加样本的语义空间。对于图像分类，数据扩增方法可以分为两类：标签不变的数据扩增方法：数据变换之后图像类别不变；标签变化的数据扩增方法：数据变换之后图像类别变化；对于语义分割而言，常规的数据扩增方法都会改变图像的标签。如水平翻转、垂直翻转、旋转

2021-02-23 19:33:41 340

原创零基础入门语义分割——Task1 赛题理解

文章目录一、赛题数据二、数据标签三、评价指标四、读取数据比赛地址：零基础入门语义分割-地表建筑物识别一、赛题数据遥感技术已成为获取地表覆盖信息最为行之有效的手段，遥感技术已经成功应用于地表覆盖检测、植被面积检测和建筑物检测任务。本赛题使用航拍数据，需要参赛选手完成地表建筑物识别，将地表航拍图像素划分为有建筑物和无建筑物两类。左边为原始航拍图，右边为对应的建筑物标注。二、数据标签赛题为语义分割任务，因此具体的标签为图像像素类别。在赛题数据中像素属于2类（无建筑物和有建筑物），因此标签为有建筑物的

2021-02-20 19:31:56 290

原创目标检测综述——单阶段检测器

文章目录一、SSD（(Single Shot MultiBox Detector)）1.Default box2.训练过程3.数据增强4.其他变体1.DSSD2.DSOD3.FSSD4.RSSD二、YOLO（You Only Look Once）1.YOLO_V12.YOLO_V2、YOLO9000（1）better（2）faster（3）Stronger3.YOLO_V3（1）backbone（2）output（3）损失函数4.YOLO_V4（1）输入端Mosaic数据增强（2）BackBoneCSPDa

2021-02-01 14:38:57 5533

空空如也

空空如也