页页读-CSDN博客

原创【小技巧】解析 chmod 700 的数字的含义

举例：命令在 Unix 和类 Unix 系统中用于改变文件的权限。具体来说，chmod是 “change mode” 的缩写，用于设置文件或目录的访问权限。

2024-04-17 13:19:33 299 1

原创【小技巧】机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)

为了可视化高维数据（比如你的256维向量）在低维空间（通常是2D或3D）的分布，常用的方法包括主成分分析（PCA）和t-SNE。这两种方法可以帮助我们理解数据在高维空间中的内在结构。下面，我会展示如何使用Python的库和matplotlib来可视化这些向量。我将使用PCA和t-SNE两种方法来降维，并在3D平面上展示结果。如果你有标签数据，这将有助于我们看到不同簇的分布。import os""""""# 使用PCA将数据降到3维# 使用t-SNE将数据降到3维。

2024-04-12 13:58:12 882

原创【MultiViewTracking】MultiView Tracking 中Spatial Consistency(空间一致性)是什么？具体怎么维护？有哪些方法，它们的原理是什么？

在多视图跟踪（Multiview Tracking）中，“空间一致性”（Spatial Consistency）指的是在跨越多个相机视图时，跟踪对象在不同视图中的位置和移动应当遵循现实世界的空间关系和约束。这种一致性是基于场景的几何结构和相机的配置（如它们的位置、方向和视场），确保在不同相机视图中跟踪到的同一对象在空间上是一致的。在多个视图中同时进行对象检测，并利用检测结果的空间一致性来关联各个视图中的同一对象。：将来自不同相机的信息融合，在保持空间一致性的同时，增强对场景的整体理解和对象跟踪的鲁棒性。

2024-04-10 11:35:36 871

原创【小技巧】gitlab怎么在每次git push的时候不用输入账号密码？使用 SSH 密钥的原理是什么？

使用 SSH 密钥进行身份验证是一种安全且广泛采用的方法，它利用公钥加密技术确保只有密钥的合法持有者才能访问服务。这种方法不仅用于 Git 仓库的访问控制，也被广泛应用于远程服务器的安全访问。

2024-04-03 19:18:25 613

原创【名词解释】ImageCaption任务中的CIDEr、n-gram、TF-IDF、BLEU、METEOR、ROUGE 分别是什么？它们是怎样计算的？

n-gram是自然语言处理（NLP）中一种基本的概念，它指的是文本中连续的n个项（可以是音节、字或词）组成的序列。n-gram模型通过考察这些连续项的出现概率来捕捉文本中的语言规律，从而用于各种语言模型和文本处理任务，如拼写检查、语音识别、机器翻译以及搜索引擎中的查询预测等。TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索和文本挖掘的常用加权技术。它反映了一个词在文档集合中的重要性。

2024-04-02 15:04:09 869

原创【查漏补缺】异常检测是生成模型吗？是无监督模型吗？常用的模型有哪些？

自编码器通常由两部分组成：编码器（Encoder）和解码器（Decoder）。编码器的任务是将输入数据压缩成一个低维表示（即潜在空间），而解码器则尝试从这个低维表示中重构原始数据。编码器：可能包含多层，每一层都进一步压缩数据，直到达到一个编码（低维表示）。解码器：结构通常与编码器镜像对称，逐层将编码扩展回原始数据的维度。

2024-03-26 10:24:34 525

原创【概率基础】从概率角度去解释回归和分类的主要区别是什么?

虽然从理论上讲，在回归任务中使用KL散度作为损失函数是可能的，但由于其在处理连续目标变量时的复杂性、对特定概率分布假设的需求，以及在实际应用中提供的优势有限，因此不如MSE或MAE等直接衡量预测误差的损失函数来得普遍和实用。在大多数回归任务中，直接衡量预测值和真实值之间差异的损失函数更为直接和高效。

2024-03-25 20:04:58 1008

原创【概率基础】生成式模型与判别式模型最大的区别是什么？两者可以互相转化吗?

生成式模型与判别式模型最大的区别在于它们对数据的建模方式和目标。PXYPY∣XXY简而言之，生成式模型和判别式模型的最大区别在于它们的目标和方法：生成式模型试图理解数据如何生成，而判别式模型专注于如何根据输入数据进行有效的预测。

2024-03-25 20:03:36 919

原创【数学常识】常用的希腊数学符号，并注明读音

这些符号在数学、物理学和工程学等领域中被广泛使用。它们通常用于表示特定的常数、变量、函数等。

2024-03-25 11:09:37 282

原创【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的？为什么这样做？

上面这段话是摘自llava原论文。下面说明这个处理过程。

2024-03-21 19:07:19 894

原创【基础知识】熵、交叉熵、相对熵(KL散度) 是什么以及它们之间的区别

熵（Entropy）和交叉熵（Cross-Entropy）是信息论中的两个基本概念，它们在机器学习、深度学习等领域有着广泛的应用。

2024-03-14 10:16:53 1282

原创【DiffusionModel系列】Sora揭底系列模型介绍 (VAE/DDPM/SD/DiT/Sora)

该文档介绍了几种深度学习模型，特别是那些在图像合成和处理方面有显著应用的模型。文档内容涉及变分自编码器（VAE）、去噪扩散概率模型（DDPM）、稳定扩散（Stable Diffusion）、扩散变换器（DiT），以及Sora模型的介绍。变分自编码器（VAE）：VAE通过最大化数据的边缘似然来训练模型，采用变分下界（ELBO）和KL散度来近似似然函数，从而学习数据的隐含结构。它利用重参数化技巧来使梯度反向传播可行。去噪扩散概率模型（DDPM）

2024-03-13 20:46:05 415

原创【基础知识】DDPM中的解码器部分(“L0”)解释以及概率密度函数的解释

概率密度函数（Probability Density Function, PDF）是连续随机变量的概念，描述了该随机变量在不同值上取值的相对可能性。对于随机变量XXX，其概率密度函数fxf(x)fx满足以下条件：1.fx≥0fx≥0对所有xxx都成立，这意味着概率密度不可能是负值。2.∫−∞∞fxdx1∫−∞∞fxdx1，这意味着随机变量取所有可能值的概率之和为1。

2024-03-13 14:51:06 884

原创【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文

该论文提出了一种综合VAE+ViT+DDPM的基础架构，主要是在latent patches(可以去看VAE)空间进行操作，这样做的好处是首先计算cost会减小很多，例如如果在原始的图片上操作，例如256x256,那在latent patches空间就可以是32x32. Latent patches是指训练一个图像编码器,我们首先可以把原始图像编码为embeding, 也就是E(x), 编码后的空间就是论文中所说的latent patches空间.的变体结构效果最好. 具体的各个变体的说明可以看论文.

2024-03-13 10:55:18 1005

原创【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题

论文提出了RLHF-V，一种旨在通过细粒度人类反馈对多模态大型语言模型（MLLMs）行为进行校准的框架，以解决模型产生的幻觉问题，即生成的文本与关联图片不符。通过从细粒度的人类反馈中学习，显著减少基础MLLM的幻觉率，提高了模型的可信度和实用性。RLHF-V提供了一种有效的方法来解决MLLMs中的幻觉问题，通过精细的人类反馈和新颖的优化技术，提高了模型在多模态任务中的可信度和实用性。RLHF-V通过细粒度的人类反馈校准MLLMs的行为，显著提高了模型的可信度，并在开源MLLMs中取得了最先进的性能。

2024-03-13 10:40:52 1605 1

原创【基础知识】Swin Transformer 中的“滑动窗口”有什么作用？

Swin Transformer 是一种基于 Transformer 架构的，专为视觉任务设计的创新模型。它由微软研究院提出，并迅速成为计算机视觉领域的热门研究方向，特别是在图像分类、目标检测和语义分割等任务上表现出色。Swin Transformer 的核心优势在于其能够有效处理图像中的层次性结构和大尺度变化，同时保持较高的计算效率。：与传统的Transformer模型不同，Swin Transformer 引入了层次化的设计，使其能够更有效地处理不同尺寸的图像。

2024-03-12 10:53:08 498

原创【NLP基础知识】VSM | D-VSM | Word2Vec 介绍

VSM（向量空间模型）是一种在信息检索、文本挖掘和自然语言处理中广泛使用的概念，特别是在处理和比较文本文档方面。它将文本文档表示为向量，每个向量的维度对应于词汇表中的一个单词，而每个维度的值代表该单词在文档中的重要性，这通常通过词频（TF）或逆文档频率（IDF）等方法来量化。在向量空间模型中，每个文档都被表示为一个向量，向量中的每个元素对应于词汇表中的一个词。例如，假设我们有一个包含三个词的简单词汇表：{Python, 编程, 项目}。

2024-03-12 10:23:50 776

原创【基础知识】DPO(Direct Preference Optimization)的原理以及公式是怎样的？

DPO方法的关键在于直接利用人类偏好数据来优化语言模型，从而避免了RLHF流程中奖励模型拟合和RL优化的复杂性和不稳定性。这种方法简化了偏好学习的过程，降低了实现的复杂性，并有可能提高模型根据人类偏好生成输出的效率和准确性。

2024-03-11 20:03:35 1698

原创【DDPM】DDPM中为什么从xt到x_{t-1}还需要加上一个随机变量z?

然而，因为原始的生成过程包含了随机性（通过噪声的增加），所以在恢复过程中也需要引入相应的随机性来模仿这个噪声。这样，我们就能够遍历所有可能的噪声路径来找到对应于我们想要生成的数据的路径。恢复过程（也称为去噪过程）必须尝试估计在每个时间步加入的噪声，这通常是通过神经网络来实现的，网络试图学习从带噪声的数据恢复出去噪声数据的映射。这项是必要的，它保证了生成过程能够探索所有可能的生成路径，从而增强模型生成数据的多样性。这个恢复过程是通过一个受控的方式逐步减少噪声，以便最终能够恢复出准确的原始数据。

2024-03-11 16:51:10 1004

原创【基础知识】为什么在ControlNet中的zero init是有效的，核心原理是什么？

在ControlNet或任何特定的神经网络架构中，使用"zero initialization"（零初始化）或其他特定的初始化方法的有效性取决于多个因素，包括网络的设计、优化目标以及训练数据的性质。虽然在许多情况下，权重的零初始化并不是首选（因为它可能导致对称性破坏问题和梯度消失），在一些特定场景或网络层中，零初始化却可能带来特定的优势。

2024-03-11 16:09:14 696

原创【基础知识】VAE中编码器预测了潜在空间z的分布，引入随机噪声ϵ后，对方差的梯度也引入了随机性，那么它是怎么控制这种随机性来实现确定性训练的呢？

在变分自编码器（VAE）中，重参数化技巧是用来解决随机变量的梯度优化问题的一个关键步骤。具体来说，重参数化允许我们对含有随机变量的模型进行梯度下降优化，而不是直接对随机变量本身进行操作。这是通过将随机性从模型的参数中分离出来实现的，从而使得梯度下降算法可以用于模型的训练。

2024-03-07 20:41:21 854

原创【基础知识】DDPM中的“Langevin动力学”的概念

这句话描述的是与Langevin动力学相关的一个概念，在这里提到的是使用εθ作为数据密度的学习梯度。总的来说，这句话讲述的是在Langevin动力学的框架下，利用εθ作为一个经过学习的梯度，来模拟或采样数据分布，从而使得生成的样本更接近真实的数据分布。在机器学习和深度学习中，Langevin动力学可以用于训练生成模型，如生成对抗网络（GANs）和变分自编码器（VAEs），通过有效地从复杂的数据分布中采样，以生成新的数据点（如图片、文本等）。），这允许粒子跳出局部最小值，增加探索不同区域的可能性。

2024-03-06 14:26:09 1019

原创【基础知识】DDPM中提到的“Rao-Blackwell定理和闭式解(closed form expressions)”

在这段文本中，作者在描述一种高效的训练方法，该方法涉及到使用随机梯度下降优化损失函数 L 的随机项。进一步的改进来自于通过重写损失函数 L（参见公式(3)）来减少方差。特别地，公式(5)使用了KL散度（Kullback-Leibler散度），这是一种度量两个概率分布之间差异的方法。在这里，KL散度用于直接比较在给定x0x_0x0的条件下，时间t−1t-1t−1的真实数据分布pθxt−1∣xtpθxt−1∣xt。

2024-03-05 17:36:35 978

原创【基础知识】什么是 PPO（Proximal Policy Optimization，近端策略优化）

PPO（Proximal Policy Optimization，近端策略优化）是一种强化学习算法，由John Schulman等人在2017年提出。PPO属于策略梯度方法，这类方法直接对策略（即模型的行为）进行优化，试图找到使得期望回报最大化的策略。PPO旨在改进和简化以前的策略梯度算法，如TRPO（Trust Region Policy Optimization，信任域策略优化），它通过几个关键的技术创新提高了训练的稳定性和效率。

2024-03-05 11:39:22 1282

原创【基础知识】VAE 变分推断公式|变分分布|先验分布|后验分布|KL散度|边缘似然

在VAE的上下文中，先验分布提供了对潜在变量应该如何分布的假设，而后验分布则是给定观测数据后，对潜在变量分布的更新。VAE的训练过程涉及到调整编码器和解码器（Decoder）的参数，以最小化重构误差（使解码器输出尽可能接近输入数据）和正则化项（通常是KL散度，使变分后验接近先验）。通过这种方式，VAE能够学习到能够生成数据的有效的潜在表示。

2024-03-05 11:35:12 1396

原创【扩散模型基础知识】Diffusion Model中的重参数化和VAE中的重参数化的区别

在机器学习中，重参数化（reparameterization）是一种技术，用于改变模型参数的表达方式，以便能够更高效或者更稳定地进行优化。它在不同的模型中有不同的应用和含义。下面我们分别看看在扩散模型（Diffusion Models）和变分自编码器（Variational Autoencoder, VAE）中重参数化的含义及其区别。

2024-03-05 11:27:10 1489

原创【基础知识】FID（Fréchet Inception Distance）公式及解释

FID（Fréchet Inception Distance）是一种用于评估生成模型，尤其是在图像生成任务中，生成图像的质量和多样性的指标。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。计算每个集合的特征向量的均值和协方差矩阵。设生成图像的特征向量的均值和协方差矩阵分别为。FID分数越低，表示生成图像与真实图像的分布越接近，通常认为生成的图像质量越高。的乘积的平方根，表示通过取两个矩阵乘积的特征值的平方根得到的矩阵。，真实图像的特征向量的均值和协方差矩阵分别为。

2024-03-05 11:20:03 1627

原创【基础知识】协方差矩阵/协方差

协方差矩阵是一个描述多维随机变量线性相关性的矩阵。它是由各个随机变量的协方差组成的矩阵。在统计学和概率论中，协方差是用来衡量两个随机变量在它们的均值变化时是如何一起变化的。对于一组随机变量XX1X2...Xn，它们的协方差矩阵ΣΣiiXiΣiiVarXiΣijXiXjΣijCovXiXj协方差矩阵的大小是n×n，其中n是随机变量的数量。

2024-02-28 10:55:19 877

翻译 Sora技术报告: Video generation models as world simulators作为世界模拟器的视频生成模型

在推理时，我们可以通过在适当大小的网格中排列随机初始化的patch来控制生成视频的大小。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。随着训练计算的增加，样本质量显著提高。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。先前的工作通常关注一小类视觉数据、较短的视频或固定大小的视频，Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。

2024-02-23 20:02:46 404

原创【Git】Git统计一个repo中所有代码的行数

一行代码列出仓库中所有代码，计算它们的行数。

2024-02-19 10:44:48 389

原创【PaperReading】5. Open-Vocabulary SAM

这篇论文主要的亮点是他引入了两个模块：SAM2CLIP 和 CLIP2SAM，实现了CLIP和SAM的对齐，这种融合方法是隐式的，而不是简单的concat或者直接crop出来feature。SAM2CLIP模块的主要功能是将SAM的图像分割能力传递给CLIP，这样CLIP不仅能识别图像中的对象，还能理解这些对象的确切边界。该方法结合了两个模型：分割任何模型（SAM）和CLIP（对比语言图像预训练），创建了开放词汇的SAM。这个模型通过结合SAM的分割能力和CLIP的现实世界识别能力，显著提高了计算效率。

2024-01-11 20:56:41 881

原创【PaperReading】4. TAP

通过对掩码token上的分割和语义token上的概念预测进行联合优化，模型表现出强大的区域识别和定位能力。另一方面，CLIP通过在网规模的图像-文本对上进行对比学习，训练了一个识别基础模型，展示了在识别任务中强大的零样本能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同，作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。最后，他们强调，带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer，其中token化的区域特征可以直接用于提示因果语言建模。

2024-01-11 20:48:38 828

原创【PaperReading】3. PTP

通过将PTP引入多个先进的VLP框架中，我们观察到在代表性的跨模态学习模型架构和多个基准测试中都取得了显著的改进。例如，PTP在MSCOCO数据集的图像-文本检索任务中，相对于ViLT基线，平均回忆率提高了5.3%，并且在类似的框架和数据量下取得了与ALBEF接近的结果。就是借助于检测模型和现有的caption模型对各个block进行简单的caption并生成这种固定格式的 prompt，帮助模型生成完备准确的描述，这种方法尤其对提高方位相关的描述有用。

2024-01-11 20:45:41 898

原创【PaperReading】2. MM-VID

我们讨论了MM-VID的不同能力，例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。实验结果表明MM-VID在处理挑战性任务方面的有效性，包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。提出了MM-VID，一个综合系统，结合了GPT-4V和专门的视觉、音频和语音工具，以促进高级视频理解。MM-VID从输入的视频文件开始，输出描述视频内容的脚本，使LLM能够实现各种视频理解功能。, 新加坡国立大学Show实验室。

2024-01-11 20:38:36 722

小技巧机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)

Sora揭底系列模型介绍 (VAE/DDPM/SD/DiT/Sora)

【PaperReading】5. Open-Vocabulary SAM

【PaperReading】5. Open-Vocabulary SAM

【PaperReading】5. Open-Vocabulary SAM

DDR3L 手册

空空如也

Sora揭底系列模型介绍(VAE/DDPM/SD/DiT/Sora)