莫叶何竹-CSDN博客

原创 diffusion model(十五) : IP-Adapter技术小结

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

2024-04-05 18:13:34 747

原创 DreamSim技术小结

虽然在大量数据上训练的vision foundation model提取的embedding具备丰富的high level特征并在图像搜索等业务取得了大量成功，但模型计算的相似性和human perceptual similarity还是有一定的差距。10轮标注后，每一个三元组都有10份标注结果，若当前三元组超过6份标注结果一致，则认为该标注结果可信。通过模型预测和标注的差异来评估模型对human perceptual similarity的对齐程度。表示当前三元组的标注结果。)，参考图片Ref(

2024-03-31 16:46:41 687

原创 diffusion model(十四)： prompt-to-prompt 深度剖析

基于扩散模型（

2024-03-19 20:29:37 1313

原创 diffusion model(十三)：DiT技术小结

DDPMLDM(隐空间扩散模型基本原理，stable diffusion 底层架构)classifier-free guided(文生图基本原理)

2024-03-10 11:30:37 947

原创 diffusion model(十二)： StableCascade技术小结

前置知识：latent diffusion model（stable diffusion）知乎个人博客 paperclassifier-free guided: 知乎个人博客 paperDiffusion model()的提出将图像生成任务推到了前所未有的高度。随着应用人数的增多，人们对文生图模型有了更高的期望：生成质量更高、生成分辨率更大、推理速度更快、生成的图片与文本的alignment更强等。更大的分辨率意味着更大的算力需求。现在的常用做法是先用先生成一个分辨率相对较低的图片，

2024-03-10 11:27:02 838

原创 Matryoshka Representation Learning技术小结

来映射到表征空间，再接入一个classifier（也是个全连接层）得到该图片在类别上的概率分布。用这个方法训练，一次训练我们只能得到一种维度的图片表征（如图中是2048维））这篇paper介绍了一个很简单但有效的方法能实现一次训练，获取不同维度的表征提取。不同维度的表征在imagenet1K上linear classification和1-NN的准确率。为了一次训练获得不同维度的图片表征，最简单粗暴的方法就是我们可以用多个。和Classifier进行分片，从而实现不同维度的表征训练。更多实验结果见原论文。

2024-02-28 18:11:52 933 1

原创 Google Universal Image Embedding前五名方案小结

leaderboard排名。

2024-02-28 18:08:14 931

原创 YOLO-World技术小结

的key，value，将text embedding作为query进行特征交互，从而得到image-aware的文本特征向量。目前我们可以很方便的拿到图片对数据，此处的目标是如何将图文对数据转化成，图片-instance annotation （还可以根据传入的图片和text，输出预测的box及相关的object embedding。当推理的词表是固定的时候，此时text encoder的输出是固定的，再通过NMS过滤掉冗余的bounding box。的标签是用2.3.1节的方法生成的，含有较多噪声导致。

2024-02-21 18:17:44 1388

原创 diffusion model(十一) InstantID技术小结

本文提出了一种plug-and-play 定制人脸生成模型（Plugability），给定一张人脸照片，就能生成指定风格和pos的照片。InstantID不仅前期训练成本低（compatibility），还能实现inference without fine-tune （Tuning-free）和高保真图像的生成。（Superior performance）。取得了fidelity、efficiency、flexible三者很好的平衡。

2024-01-30 09:14:22 988

原创 diffusion model (十) anydoor技术小结

这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。从上面的描述中我们知道anydoor的训练目标是给定目标图片和场景生成该目标在该场景下不同姿态的图片。因此容易知道训练集是三元组组成的集合，即（输入目标图片，场景图片+位置，输出图片）。该公式的核心就是，提取图片中object的高频信息，随后将其与scene图片拼接。中，用diffusion model的生成方式进行图片生成。

2023-12-29 08:16:26 901

原创 RLHF对LLM泛化性和多样性的影响

作者猜测，这是由于设置的diversity指标偏好相对短的模型输出，但Instruction Following的输出都相对较长，并且SFT和RLHF的输出长度偏好也不同（RLHF倾向更长的输出），导致计算的diversity不够准确。从结果可见，不论是in-domain还是out-of-domain数据集generalisation的排序都是RLHF>BoN>SFT，明显感受到RLHF对指令的理解更具优势。模型生成N个结果，然后用RW模型对这N个结果进行打分，取分数最大的一个。)来作为RW的输出。

2023-12-20 08:03:37 1087

原创 MiniGPT4系列小结（MiniGPT4，MiniGPT4-v2）

简单的概括：通过投影层来将图片的特征转化为LLM能够理解的token，剩下的就和LLM做的一样了。用了更丰富的指令集数据集、微调更多的训练参数、用了更多的GPU training hours，使minigpt支持更为丰富的多模态能力。为了避免生成caption答非所问的情况，作者还对生成的每一个图文对进行了人工check，以此保证数据集的质量。我们训练自己的多模态模型的时候，可以根据需要构建自己的instruction数据集。对多模态模型进行指令集微调，通过不同的instruction来实现不同的任务。

2023-12-10 10:25:52 1211

原创 diffusion model (九) EmuEdit技术小结

作者将image-edit分为了三大类，分别是Region-based Editing、Free-From Editing、Vision tasks，每个大类中有若干小类。下图展示了每一个image-edit任务所做的事。

2023-11-27 21:49:13 968

原创 DeepMind: 训练LLM的scale law

为了探究计算资源（FLOPs）、模型大小（model size）、训练数据规模（training tokens）的关系。作者通过400个不同大小语言模型在5B-50B数据训练不同的时长，来探究LLM的scale law。作者固定FLOPs为：6e18，1e19， 3e19，6e19，1e20，3e20，6e20，1e21，3e21。因为在作者的实验中训练的token数少于实际的语料数，此时平滑的训练误差是测试误差的无偏估计。作者对每一种大小的模型进行了4种不同数量的训练序列的训练。: 最后的训练loss。

2023-11-15 08:52:45 167

原创 diffusion model (八) Dalle3 技术小结

创建时间： 2023-10-25。

2023-10-30 21:50:10 922

原创 BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

本文系统总结了BLIP系列文章的技术方案与技术细节。

2023-10-30 21:42:55 902

原创 BLIP 小结

代码：https://github.com/salesforce/BLIP。

2023-10-07 18:31:11 370

原创 BLIP-2小结

引用量：376（截止2023-09）

2023-10-07 18:27:12 398 2

原创 Attention Free Transformer(AFT)

paper: An Attention Free Transformerdate: 2021-05org: Apple原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。首先回顾一下经典的Multi-Head Attention(MHA)，每一个head的计算如下fi(X)=σ(Qi(Ki)Tdk)Vi, s.t. Qi=XWiQ,Ki=XWiK,Vi=XWiV,(1)f _ { i

2023-09-16 15:16:34 358

原创 Nougat 深度剖析

图文对构造的整体pipeline由下图所示。从arXiv拿到的Tex源码出发拿到全篇文章的markdown标记，与pdf每页的图片与文本Branch1:TEX⟶LaTeXMLHTML⟶ParsermarkdownTEX⟶LaTeXMLHTML⟶ParsermarkdownBranch2:TEX⟶PDFLatexPDF⟶MuPDFpage1textpage2。

2023-09-05 14:23:01 393

原创 diffusion model classifier-guided与classifier-free的区别

需要重新训练diffusion model，训练成本较大。stable diffusion 在Laion5B用了256张A100训练15w 机时，一般公司无法承担如此大的训练成本。只需训练diffusion model ，但该diffusion model有一个语义输入。生成过程每一个时间步的生成需要将语义embedding也输入到diffusion model中，详细可参考。不用重新训练diffusion model就能引导朝向期望类别的图片生成。只能生成特定类别的图片，无法实现语义级别的生成。

2023-08-17 09:08:05 564

原创 diffusion model (七) diffusion model是一个zero-shot 分类器

Paper: Your Diffusion Model is Secretly a Zero-Shot ClassifierWebsite: diffusion-classifier.github.io/最近，出现了一系列大规模的文生图模型，它们极大地增强了我们通过文字生成图片的能力。这些模型可以根据各种提示生成逼真的图片，展现出惊人的综合创作能力。到目前为止，几乎所有的应用都只关注了模型的生成功能，但实际上，这些模型还能提供条件密度估计，这对于处理图像生成之外的任务也很有用。本篇文章指出类似这样的大规模文

2023-08-17 09:01:34 243

原创 diffusion model（六）Dalle2技术小结

这是因为虽然CLIP在训练过程中通过对比损失使得图片特征与文本特征进行对齐，但是模态间还是有存在Gap[^6]，Prior模块的很大的意义是给定文本embedding，准确预测出其对应CLIP的image embedding，更有益于重建的效果。Step1：将图片文本对输入到CLIP[^4]模型中获得对应的文本向量编码（text embedding）文本中每个token的编码（text encoding）及图像向量编码（image embedding）。该模型的作用是预测分布。时刻的图片向量编码。

2023-08-07 08:00:49 591

原创 diffusion model（五）stable diffusion底层原理（latent diffusion model， LDM）

论文地址]

2023-07-28 08:02:35 2437

原创 CAN源码解析（HMER:Counting-Aware Network for HandwrittenMathematical Expression Recognition）

整体损失函数包括两个部分，其一是计数模块的smooth L1损失。其二是序列预测的交叉熵损失。CAN是一个基于encoder-decoder架构的模型。整体由3个组成部分构成。内部的详细pipeline如下。位置编码用了常规的正余弦编码。论文中的图片架构图如下。

2023-07-24 08:59:34 89

原创 [pytorch踩坑记录]使用DataParallel出现TypeError: Caught TypeError in replica 1 on device 1.

【代码】[pytorch踩坑记录]使用DataParallel出现TypeError: Caught TypeError in replica 1 on device 1.

2023-07-17 09:59:57 380

原创 mathocr论文翻译(一):When Counting Meets HMER:Counting-Aware Network for HandwrittenMathematical Expressio

目前大多数手写数学表达式识别（handwritten mathematical expression recog-nition， HMER）方法采用架构，直接从公式图像中使用注意力机制预测标记序列。然而，由于书写风格或空间布局的巨大变异性，这样的方法可能无法准确读取结构复杂或生成长标记序列的公式，因为注意力结果通常不准确。为了解决这个问题，我们提出了一种针对HMER的非常规网络，名为Counting-Aware Network（CAN），它联合优化两个任务：HMER和符号计数。

2023-07-14 09:55:13 151

原创 diffusion model（四）文生图diffusion model（classifier-free guided）

在classifier-guided这篇博客我们提到对于一般的DM（如DDPM， DDIM）的采样过程是直接从一个噪声分布，通过不断采样来生成图片。但这个方法生成的图片类别是随机的，classifier-guided通过额外训练一个分类器来不断矫正每一个时间步的生成图片，最终实现特定类别图片的生成。Classifier-free的核心思路是：我们无需训练额外的分类器，直接训练带类别信息的噪声预测模型来实现特定类别图片的生成.

2023-07-11 08:07:35 4478

原创 TinyViT: 一种高效的蒸馏方法

收缩因子有6个：embedding的维度、每个stage中block的个数、最后3个stage 的window size、MbConv block的通道扩展率、transformer中MLP的通道扩展率、多头attention，每个头的维度。作者认为主要的原因可能是imagenet21k的有些标签间的类间差异很小，例如椅子和家具，马和动物，因此基于one-hot的GT标签不能很好的表征物体的类别信息。A: 模型的性能随着数据量的增加而呈现加速度不断降低的增大，同样的数据量，最终的性能受限于模型的大小。

2023-06-30 08:06:28 422

原创 diffusion model（三）—— classifier guided diffusion model

classifier guided diffusion model背景对于一般的DM（如DDPM， DDIM）的采样过程是直接从一个噪声分布，通过不断采样来生成图片。但这个方法生成的图片类别是随机的，如何生成特定类别的图片呢？这就是classifier guide需要解决的问题。方法大意为了实现带类别标签yyy的DM的推导，进行了以下定义q^(x0):=q(x0)q^(y∣x0):=Know labels per sampleq^(xt+1∣xt,y):=q(xt+1

2023-06-26 20:49:25 1342

原创 diffusion model（二）—— DDIM技术小结

论文地址：Denoising Diffusion Implicit Modelsgithub地址：https://github.com/ermongroup/ddim背景去噪扩散概率模型 (DDPM1) 在没有对抗训练的情况下实现了高质量的图像生成，但其采样过程依赖马尔可夫假设，需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models 2)是更有效的迭代隐式概率模型，其训练过程与 DDPM 相同，但相比DDPM，采样过程快 10

2023-06-26 20:41:57 1621

原创 diffusion model（一）DDPM技术小结 (denoising diffusion probabilistic)

DDPM技术小结 (denoising diffusion probabilistic)1 从直觉上理解DDPM在详细推到公式之前，我们先从直觉上理解一下什么是扩散对于常规的生成模型，如GAN，VAE，它直接从噪声数据生成图像，我们不妨记噪声数据为zzz,其生成的图片为xxx对于常规的生成模型：学习一个解码函数(即我们需要学习的模型)ppp，实现 p(z)=xp(z)=xp(z)=xz⟶px(1)z \stackrel{p} \longrightarrow x \tag{1}z⟶px(1)

2023-06-26 20:31:38 852 2

原创 Segment Anything学习小结

近日，MetaAI团队开源了一个用于分割的10亿个masks，1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。SAM从算法层面来看，基本都是已有的算法。他的亮点主要在于model-in-loop创建数据集的pipeline和二阶段推理交互逻辑（先提取图片特征，在用一个轻量模型配合用户做交互）。之所以能够达到这么惊艳的效果，主要还是取决于训练的样本足够大、质量足够高。他让我们看到了现有模型的上界。

2023-06-06 19:39:46 879 1

原创采用Windows PowerShell运行conda activate xx出现 C:\Users\xxx\Documents\WindowsPowerShell\profile.ps1报错问题

解决步骤采用管理员运行Windows PowerShell输入 Set-ExecutionPolicy -ExecutionPolicy RemoteSigned 回车重启Windows PowerShell即可。

2021-08-23 10:36:31 337

原创匈牙利算法与python实现

匈牙利算法0 引出最近看DETR论文，发现其通过匈牙利算法来进行预测和ground truth匹配，从而实现set prediction。这个思路很有意思，并且该匹配算法能适用多种问题，因此，对其进行详细记录，便于后续回顾。首先来看，匈牙利算法能够解决什么问题。不妨以宝可梦作为例子引入。现在有五个工作（搬砖、送快递、洗衣服、打扫、做饭）需要安排给有5个宝可梦（皮卡丘、杰尼龟、喷火龙、小拳石、妙蛙草）。每个宝可梦对每一项工作收费标准不同。如何安排工作使得成本最低。（注：①每个宝可梦只能做一项工作；②

2021-05-17 17:29:31 2736 6

空空如也

空空如也