- 博客(486)
- 资源 (1)
- 收藏
- 关注
原创 vscode连接服务器与FileZilla上传到服务器
https://www.cnblogs.com/qiuhlee/p/17729647.html
2024-02-26 19:31:46 417
原创 使用apt可以查看linux中已经导入了哪些python包
apt命令是Debian和Ubuntu Linux中的高级包管理器,可以用于安装、升级和删除软件包。
2023-12-18 09:40:01 460
原创 解决ImportError: cannot import name ‘VectorQuantizer2‘ from ‘taming.modules.vqvae.quantize‘
运行中遇到一个错误:ImportError: cannot import name ‘VectorQuantizer2’ from ‘taming.modules.vqvae.quantize’ ,按 https://github.com/CompVis/stable-diffusion/issues/72 中的方法处理,即用 https://github.com/CompVis/taming-transformers/blob/master/taming/modules/vqvae/quantize.py
2023-12-11 20:54:18 1057
原创 解决RuntimeError: PytorchStreamReader failed reading zip archive: failed finding central directory
我的是权重模型损坏换了一个就好了。
2023-12-11 20:52:46 464
原创 nn.linear()的用法
https://blog.csdn.net/zhaohongfei_358/article/details/122797190
2023-11-23 16:32:30 90
原创 linux:(.text+0x24): undefined reference to `main‘
原因:这是没有使用了共享库,没有链接,添加了-shared选项之后,即可。
2023-11-06 10:39:01 234
原创 Classifier-Free Guidance
顾名思义,在原来扩散模型的基础上加上一个引导,让扩散模型朝着我们想要的方向去生成图像。从上图可以了解到生成下一张图像是有分类器参与的。1.为什么需要分类引导。要参与下一张图像的生成。无分类器就是这种形式。
2023-11-02 20:03:44 274
原创 计算机视觉中一些常用的指标的意思
FID:fid是一种度量两个图片数据集相似度的方法,我们生成的图片与真实图片越相似越好。相似度高对应的是fid值小。慢慢收录,以后遇到还会增加。
2023-10-11 14:42:11 97
原创 Transformer模型
id=1651219987457222196&wfr=spider&for=pc(可以参考这篇博客)Transformer模型的主要架构。
2023-10-10 15:13:01 80
原创 VAE(变分自动编码器)
自编码器的隐空间的规则性是一个难点,其取决于初始空间中数据的分布、隐空间的大小和编码器的结构。在训练VAE时最小化的损失函数由一个重构损失和一个正则化项(KL散度)组成,重构损失倾向于使编码解码方案尽可能高性能,而一个正则化项通过使编码器返回的分布接近标准正态分布,来规范隐空间的组织。同标准自编码器一样,变分自编码器也是一种由编码器和解码器组成的结构,经过训练以使编码解码后的数据与初始数据之间的重构误差最小。实践中,通常选择正态分布作为编码的分布,使得可以训练编码器来返回描述高斯分布的均值和协方差矩阵。
2023-10-05 17:17:51 140
原创 谈谈对于归纳偏差的理解
归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好,
2023-10-02 16:37:18 303
原创 了解”变分下界“
变分下界”:在变分推断中,我们试图找到一个近似概率分布q(x)来逼近真实的概率分布p(x)。,通常用来求解最优的近似分布。它的计算涉及到对概率分布的积分或期望的估计。
2023-10-02 13:32:30 286
原创 什么是向量量化层以及向量量化层在生成模型中的作用
这些离散向量通常被称为“码字(codewords)”或“聚类中心,码本的大小决定了离散向量的数量,也决定了生成模型中的表示能力和复杂度。通常情况下,码本的大小是预先定义的,并且在生成模型的训练过程中是固定的。通过将输入向量映射到离散的码本中,向量量化层可以降低模型的复杂度、减少参数量,并且有助于控制模型生成的多样性和生成结果的稳定性。具体而言,编码器通过计算输入向量与码本中所有离散向量之间的距离,然后选择距离最近的离散向量。编码器的输出结果是离散向量的索引或表示,它表示了输入向量映射到离散向量的结果。
2023-09-30 16:38:50 107
原创 对抗-基于块的对抗
基于块的对抗目标通过将图像划分为不同的块,并在每个块上分别计算对抗损失,来解决这个问题。具体来说,它采用一个判别器网络,该网络不仅仅对整个图像进行判别,还对每个块进行判别。而判别器的目标是准确地识别出哪些块是真实的,哪些是生成的。通过在每个块上进行对抗性训练,基于块的对抗目标可以更好地保持图像的局部真实性。传统的对抗生成网络(GAN)使用全局对抗目标,即通过训练一个生成器和一个判别器来最小化生成图像与真实图像之间的整体差异。它可以避免生成图像模糊或不真实的问题,并提高生成器的性能和生成图像的质量。
2023-09-30 09:20:59 24
原创 NLP中token总结
在自然语言处理(NLP)中,“token” 是指文本中的一个基本单位,通常可以是一个单词、一个词组、一个标点符号、一个字符等,取决于文本处理的需求和方法。将文本划分为若干个 token 是文本处理的第一步,这个过程被称为 “tokenization”
2023-09-26 10:52:59 1047
原创 深度学习中什么是embedding
使用One-hot 方法编码的向量会很高维也很稀疏。假设我们在做自然语言处理(NLP)中遇到了一个包含2000个词的字典,当使用One-hot编码时,每一个词会被一个包含2000个整数的向量来表示,其中1999个数字是0,如果字典再大一点,这种方法的计算效率会大打折扣。
2023-09-25 20:59:05 141
原创 Perceptual Compression与Semantic Compression的含义
Semantic Compression 保留数据的实际意义,例如图片包含了人物、建筑,人物之间的关系等。Perceptual Compression 保留人类能够感知的重要信息,例如纹理,局部边缘等。这是我在读LDMS的学到的。
2023-09-25 19:07:00 233
原创 python函数参数里面带*是什么意思
符号后面的参数,调用函数时,必须使用key=value的形式进行参数传递。在Python的标准库中,有不少模块的接口函数的定义都在使用这种方式。文章参考:https://blog.csdn.net/jiangkejkl/article/details/121346940。符号后跟字母,表示这是一个tuple参数,tuple内数据的个数,就不限制了。我们在设计函数参数的时候,如果使用一个。3.dict参数(**kwargs)在函数定义时,使用了一个独立的。1.函数参数定义中使用独立的。2.tuple参数(
2023-09-19 15:18:56 211
原创 深度学习:cross-attention介绍以及与self-attention的区别
Cross-attention将两个相同维度的嵌入序列不对称地组合在一起,而其中一个序列用作查询Q输入,而另一个序列用作键K和值V输入。当然也存在个别情况,在SelfDoc的cross-attention,使用一个序列的查询和值,另一个序列的键。总而言之,QKV是由两序列拼凑的,不单一。Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外,基本一致。self-attention输入则是一个单一的嵌入序列。
2023-09-18 14:06:06 1187
原创 了解预训练以及在自编码器中的应用
预训练是一种机器学习技术,在这种技术中,模型被训练以在标注数据少或不存在的情况下自动从未标记的数据中学习。预训练可以为模型提供先验知识,使其能够在特定任务上更好地泛化。无监督预训练:模型使用未标记的数据进行预训练。在这个阶段,模型尝试从输入数据中学习出一些潜在的有用特征。有监督微调:在无监督预训练之后,使用有标签的数据对模型进行微调,以适应特定的任务。这个阶段的目标是进一步优化模型,使其适应特定任务的要求。预训练过程通常分为两个阶段:无监督预训练和有监督微调。
2023-09-17 16:15:14 142
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人