冰冰冰泠泠泠-CSDN博客

原创 DDPM和EulerScheduler

如果是用Euler算法求解DDPM，就是解上面的ODE，要注意做scale。部分保证是原始训练的量级，其他部分是non-scaled的。一般的perturbation kernel有下面的形式。EDM论文的C.3.1证明上面的公式等于论文中。对应，所以t变成了实数，不再是计数count。为non-scaled变量，即。

2024-01-30 22:26:37 301

原创 Offset Noise

如果尝试用stable diffusion生成特别暗或特别亮的图像，它几乎总是生成平均值相对接近 0.5 的图像。Offset Noise正是为了解决这个问题的一个trick。

2024-01-25 21:49:51 535

原创 Denoising diffusion implicit models 阅读笔记2

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本，需要迭代多次，速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了在复用DDPM训练的网络的前提下，加速采样过程。加速采样的基本思路是，原本的生成过程是从T⋯1的序列逐步采样，加速时考虑从T⋯1的子序列采样，通过跳步的方式减少采样的步数。

2024-01-25 11:08:20 836

原创 Consistency Models 阅读笔记

Consistency models可以直接一步采样就生成图片，但是也允许进行多步采样来提高生成的质量。Consistency models可以从预训练的扩散模型蒸馏得到，也可以作为独立的生成模型从头训练得到。

2023-11-18 19:47:39 363

原创 Stable Diffusion XL简介

SDXL是一个文生图模型。

2023-10-29 18:18:54 935

原创 Elucidating the Design Space of Diffusion-Based Generative Models 阅读笔记

文章使用模块化（modular）的思想，分别从采样、训练、score network设计三个方面分析和改进diffusion-based models。

2023-10-16 12:09:46 2006

原创 Denoising diffusion implicit models 阅读笔记

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本，需要迭代多次，速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了加速采样过程，减少迭代的次数，并且要求DDIM可以复用DDPM训练的网络。

2023-09-21 11:38:39 418

原创 Proximal Policy Optimization(PPO)和文本生成

在文本生成的情况下，给一个prompt，生成完整的response，是一个episode。动作空间是vocabulary。每生成一个词是一个时间步。

2023-08-10 23:53:21 254

原创 Flamingo

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本，输出是文本。

2023-08-08 20:58:17 490

原创 BLIP2

BLIP2的任务是基于已有的固定参数的图像encoder和语言大模型（LLM）搭建一个具有图像理解能力的图文模型，输入是图像和文本，输出是文本。

2023-08-08 17:18:25 723

原创 SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS 阅读笔记

建立一个连续时间索引的扩散过程xtt0Tt∈0T，其满足x0∼p0是需要学习的目标数据分布，xT∼pT是便于采样的先验分布。dxfxtdtgtdw5w是标准Wiener过程，f⋅t是称为drift coefficient的向量函数，gt是称为diffusion coefficient的标量函数。通过从xT∼pT采样，并逆转上面的过程，我们可以得到x0∼p0，从而得到目标数据分布的样本。d。

2023-08-07 13:11:38 455

原创在conda环境中安装tensorflow和cuda

不同版本的tensorflow官方提供的编译好的whl文件只对应一个cuda版本，这让tensorflow的安装很麻烦。我选择的方式是在conda中新建一个环境，安装需要的tensorflow和cuda。

2023-06-15 17:11:03 2064 1

原创 Shap·E: Generating Conditional 3D Implicit Functions 阅读笔记

Shape·E是一个从图像或者文本生成3D模型的生成模型。Shape·E生成的是隐函数的参数。

2023-05-22 18:08:40 503 2

原创阅读笔记 First Order Motion Model for Image Animation

文章解决的是图片动画的问题。假设有源图片和驱动视频，并且其中的物体是同一类的，文章的方法让源图片中的物体按照驱动视频中物体的动作而动。文章的方法只需要一个同类物体的视频集，不需要而外的标注。

2023-04-25 23:01:57 837

原创阅读笔记DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

DeepAR是一个概率时间序列预测模型

2023-03-10 20:37:40 660

原创 import pytorch_lightning出现Segmentation fault (core dumped)

import lightning Segmentation fault (core dumped)

2023-03-01 16:44:44 547

原创最优传输问题和Sinkhorn

最优传输问题加上熵正则化

2023-02-28 22:02:28 1616

原创论文笔记NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF使用神经网络来表示场景。给定一个场景，输入该场景稀疏的视角图片，NeRF可以合成该场景新的视角的图片。

2023-02-16 23:03:41 822

原创 Noise-contrastive estimation简介

Noise-contrastive estimation（NCE）是一种估计参数化统计模型参数的方法。基本思想是用非线性逻辑回归（nonlinear logistic regression）区分观测数据和一些人为产生的噪声数据。

2023-02-14 01:45:47 532

原创论文笔记Neural Ordinary Differential Equations

Neural Ordinary Differential Equations

2023-01-05 20:21:56 1640 6

原创论文笔记Point·E: A System for Generating 3D Point Clouds from Complex Prompts

该文章提出的方法从文本生成一个3D模型只需要单GPU1-2分钟。虽然生成的3D模型的质量并不是当下最好的，但是生成速度很快，因此在现实中很有意义。

2022-12-22 00:34:07 1845 2

原创论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

论文提出了TimeGrad模型，处理是多变量概率时间序列预测（multivariate probabilistic time series forecasting）的任务。

2022-12-19 20:25:30 2387 5

原创论文笔记High-Resolution Image Synthesis with Latent Diffusion Models

该论文在预训练的自编码器的隐含空间中训练扩散模型，并使用cross-attention机制为扩散模型引入条件。

2022-12-19 01:29:02 2914 11

原创论文笔记CATEGORICAL REPARAMETERIZATION WITH GUMBEL-SOFTMAX

Gumbel-Softmax分布是一个定义在单纯形上的可以近似categorical分布的连续分布。

2022-12-16 20:11:41 1548

原创 Neural Discrete Representation Learning (VQ-VAE) 简介

Vector QuantisedVariational AutoEncoder (VQ-VAE)是VAE的变种，其隐含变量是离散的。

2022-12-15 22:35:19 3050

原创 Generative Modeling by Estimating Gradients of the Data Distribution阅读笔记

论文提出了一种生成模型，并将其用于图形生成任务。论文先介绍了传统score-based generative modeling方法，然后分析传统score-based generative modeling存在的问题，最后提出解决问题的算法noise conditional score network。

2022-12-14 21:49:08 733

原创 Denoising Diffusion Probabilistic Models简介

Denoising Diffusion Probabilistic Models的介绍

2022-12-13 19:15:48 3009

原创 Score Matching算法介绍

score matching是一种用观测数据估计总体分布参数的统计学算法。

2022-12-13 11:27:50 1494

原创在colab中运行shell

只需要在cell单元格第一行加上%%shell，然后按运行按钮，就可以将单元格的内容当做shell执行了。参考例子https://colab.research.google.com/drive/1N7p0B-7QWEQ9TIWRgYLueW03uJgJLmka#scrollTo=i7cDqnvavT9i

2021-09-01 15:29:04 3939 1

原创 ffmepg介绍

ffmepg介绍基本语法ffmpeg [global_options] {[input_file_options] -i input_url} … {[output_file_options] output_url} …ffmepg的输入文件可以是多个，输出文件也可以是多个。输入文件地址用命令-i接地址指定，没有命令指定的地址是输出文件地址。ffmpeg对选项的顺序敏感，选项作用于下一...

2020-04-23 17:31:35 1187

原创 pytorch中使用numpy生成随机数每个epoch都一样

pytorch中使用numpy生成随机数每个epoch都一样问题原因解决途径问题最近在使用pytorch做实验的过程中发现，在dataset里面使用numpy生成随机数，每个epoch生成的随机数是一样的。代码import numpy as npimport torchfrom torch.utils.data import Datasetfrom torch.utils.data ...

2020-04-20 12:05:10 1591

原创 SSH正向连接和反向连接

ssh -L sourcePort:forwardToHost:onPort connectToHost意思：连接主机connectToHost，监听本地的端口sorcePort，通过主机connectToHost，把到本地端口sorcePort的连接转发到主机forwardToHost的端口onPort。图中的两个例子：your host是敲命令的主机。ssh -L 123:local...

2019-04-27 14:34:48 6165

原创 linux给用户添加sudo权限

切换到拥有sudo权限的用户下。输入命令"sudo vim /etc/sudoers"开始编辑/etc/sudoers文件。找到"root ALL=(ALL:ALL) ALL"这一行，在它下面添加"xxx ALL=(ALL:ALL) ALL"(这里的xxx是你的用户名)，然后保存退出。因为是只读模式，输入":wq!"强制保存并退出。...

2019-04-13 19:15:55 3575

原创 linux修改文件所有者

修改文件所有者使用命令chownList item命令格式命令格式chown [选项]… [所有者][:[组]] 文件…命令格式chown users:jessie file1.txtchown -R runoob:runoobgroup *...

2019-04-13 17:03:05 26457

原创 Self-Attention Generative Adversarial Networks (SAGAN) 笔记

该方法在生成器和判别器中引入self-attention。

2019-01-27 01:35:53 801 1

原创 AUTOLOSS: LEARNING DISCRETE SCHEDULE FOR ALTERNATE OPTIMIZATION

许多机器学习任务涉及迭代交替优化多个目标。比如GANs交替地优化generator和discriminator。Multi-task learning中，交替优化不同的任务目标。不同的优化策略会导致不同的收敛质量和速度。这篇文章提出AutoLoss。AutoLoss是元学习的框架，自动选择迭代（iterative）和交替（alternate）的优化策略，以提高优化算法的收敛的质量和速度。Auto...

2019-01-13 20:44:01 652

原创 GENERATING HIGH FIDELITY IMAGES WITH SUBSCALE PIXEL NETWORKS AND MULTIDIMENSIONAL UPSCALING阅读笔记

最近越来越多的文章在做高保真度（high fidelity）图片的生成，比如bigGAN和glow。这篇文章提出了Subscale Pixel Network (SPN)用来生成high fidelity图片。

2019-01-11 15:25:43 521 1

原创 Multi-Task Learning as Multi-Objective Optimization 阅读笔记

Multi-Task Learning as Multi-Objective Optimization 阅读笔记

2019-01-10 20:57:31 11434 13

Batch Normalization (BN) 论文阅读笔记

以前偷懒没有看BN的论文，现在找工作，每个面试官必问BN，必须花时间弄清BN的原理。奉劝找算法工程师的人一定要熟练掌握BN，不能只知道它在做标准化这么简单。Batch Normalization（BN）解决的是Internal Covariate Shift （ICS）的问题。Internal Covariate Shift在文中定义为The change in the distrib...

2018-09-12 00:56:02 2541

空空如也

空空如也