Kun Li-CSDN博客

原创创意项目开源，文生图、排序/优选等...，持续开源更新！！

learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。，中文文生图算法集合。

2023-12-03 15:08:05 212

原创 sd_webui的实用插件，prompt/lama/human matting/...，持续开源更新！！

3.sd_webui_sghm 人像抠图，在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1278

原创多模态大模型训练数据以及微调数据格式

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. - Qwen-VL/README_CN.md at master · QwenLM/Qwen-VL。这里llava格式是应用最为广泛的，除了qwen-vl系列，几乎所有的系列都是llava格式。多模态数据，尤其是中文多模态数据，找一些中文多模态的数据。6423张Xray图片，

2024-04-17 19:42:49 579

原创 Efficient Multimodal learning from data-centric perspective

llm包括phi 1.3B，StableLM2 1.6B，phi 2.7B，vision encoder包括SigLIP，EVA-CLIP，都是4.28B，cross modality projector，参照llava，使用带有gelu激活函数的两层mlp。对多模态调优可能会损害其从预训练语言模型中继承的认知能力，可能的原因是多模态训练数据中的信息量较少，且多样性不足，在调优数据集中保持一定量的高质量纯文本数据可以缓解这个问题。近期几天会梳理下多模态小模型相关的论文，做个汇总。

2024-04-15 20:27:05 382

原创 llama_factory微调QWen1.5

我们开源了包括0.5B、1.8B、4B、7B、14B和72B共计6个不同规模的Base和Chat模型，, 以及一个MoE模型（点击博客了解详情），并同步放出了各尺寸模型对应的量化模型。请访问here开始使用，我们建议您试用Qwen1.5-72B-chat。模型效果为了全面洞悉 Qwen1.5 的效果表现，我们对 Base 和 Chat 模型在一系列基础及扩展能力上进行了详尽评估，包括如语言理解、代码、推理等在内的基础能力，多语言能力，人类偏好对齐能力，智能体能力，检索增强生成能力（RAG）等。

2024-04-15 17:16:13 944

原创多模态对齐方案

本文中我们介绍了 13 中常见的大型多模态模型（Large Multimodal Models, LMM），包括 BLIP-2，LLaVA、MiniGPT、Qwen-VL 以及 Ferret 等。最全 LMM 模型结构（13种）综述。单层linear投影、两层mlp。

2024-04-14 17:33:45 294

原创多模态小模型总结

算法名：Multi-crop LLaVA-3b HF 模型地址： visheratin/MC-LLaVA-3b · Hugging Face博客地址： Breaking resolution curse of vision-language models简介这并不是一篇论文算法，而是一种解决输入分辨率限制的…GitHub - LinkSoul-AI/Chinese-LLaVA: 支持中英文双语视觉-文本对话的开源可商用多模态模型。MoE-LLaVA：多模态大模型稀疏化，3B模型可与7B模型性能相当。

2024-04-11 17:58:21 711

原创 PixArt-σ：Weak-to-strong training of diffusion transformer for 4k text-to-image generation

PixArt-Σ在其前…PixArt-σ提出了一种更为激进的压缩策略KV compression，其提出的动机在于计算attention中，key和value存在一定的特征冗余，换言之，如果用压缩后的key和value进行计算，并不会对PixArt-σ生成的结果带来太大的性能损失。值得注意的是，一旦分辨率发生变化，原有的positional encoding（PE）也无法继续适用，这里PixArt-Σ用到了DiffFit中的一个PE Interpolation技巧，操作很简单，就是将原来的PE。

2024-04-11 17:10:48 915

原创 PixArt-β：Fast and controllable image generation with latent consistency models

controlnet是unet的设计范式，因此pixart提出了controlnet-transformer，将diffusion transformer copy一份作为条件信号的输入，controlnet-transformer中的zero conv则用zero linear layers代替。PixArt-β对现有的几个lcm-based方法进行了对比，可以看到，在1024x1024分辨率下的图片生成，用一张A100推理仅0.5s。对基础的pixart-α升级，使其支持LCM和Controlnet。

2024-04-11 16:59:22 366

原创 PixArt-α：Fast Training of diffusion transformer for photorealistic text-to-image synthesis

第二个变动是将原始的AdaLN改成了AdaLN-single，原始的DiT中，每个DiT block中均有一个单独的AdaLN，由于这里需要一个MLP来得到6个scale和shift，所以参数量还是很多（27%），而AdaLN-single是所有的DiT blocks都共享一个MLP，然后每个DiT block再加上一个可训练的embedding，这样即实现了每个DiT block参数有所区分，又减少了参数量。进过这两个变动，预训练模型就转变为一个文本引导的条件扩散模型，这个阶段用256x256训练。

2024-04-11 16:52:22 588

原创 open-sora

整个架构包括一个预训练好的VAE，一个文本编码器和一个利用空间-时间注意力机制的STDiT模型，在训练阶段首先采用预训练好的VAE的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本embedding一起训练STDiT，在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声与提示词prompt embedding一起输入STDiT中，得到去噪之后的特征，最后输入到VAE的解码器中，解码得到视频。LLaVA-1.6-Yi-34B的多模态LLM来实现Video-Caption，生成高质量的视频文本对。

2024-04-11 14:28:26 826

原创视频剪辑方法总结

视频剪辑这块，传统做法还是不少的，但是我认为目前比较合理的还是基于多模态大模型（基于大模型的视频理解）的做法更好，扩展性更强，否则还是避免不了写一些逻辑和场景受限。汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。目前用的，主要是切的镜头。通过音频来裁剪视频。

2024-04-11 11:18:38 401

原创 Latte:Latent diffusion transformer for video generation

假设有一个潜在空间中的video clip VL∈FxHxWxC，现将VL转成tokens，记Z'∈nf x nh x nw xd，F表示帧数，HWC表示潜在空间中视频帧的高宽通道数，video clip在潜在空间中的token总数是nf x nh x nw，d表示每个token的维度，将spatial-temporal positional embedding p添加在Z'中，得到Z=Z'+p，作为transformer backbone的输入。2.扩散过程在视频的潜在空间中进行，以建模潜在的时空信息。

2024-04-11 11:01:59 915

原创 VideoGPT：Video Generation using VQ-VAE and Transformers

对于视频展示，选择哪种模型比较好？在没有空间和时间溶于的降维潜在空间中进行自回归建模是否优于在所有空间和时间像素级别上的建模？选择前者：自然图像和视频包括了大量的空间和时间冗余，这些冗余可以通过学习高分辨率输入的去噪降维编码来消除，例如，空间和时间维度上的4倍降采样会导致64倍的分辨率降低，在潜在空间建模，不是像素空间，可以提高采样速度和计算需求。第一阶段：为了学习一组离散的潜在code，首先在视频数据上训练一个VQVAE，编码器结构包括一系列在时空维度上进行下采样的3D卷积，如图所示，

2024-04-10 20:13:01 568

原创 Brushnet:a plug-and-play image inpainting model with decomposed dual-branch diffusion

额外分支的输入包括噪声潜在向量，mask图像的潜在向量和下采样后的mask，串联输入模型，噪声潜在向量在生成过程中提供信息，帮助brushnet增强mask图像特征的语义一致性，mask图像潜在向量通过VAE从mask图像中提取，与预训练的UNet的数据分布对齐，为了确保mask大小和潜在向量和mask图像潜在向量对齐，使用立方插值对mask进行下采样。2.专用修复模型，通过扩展基础扩散模型的输入通道维度，以整合提供的损坏图像和mask，对专门设计的图像修复模型进行微调。

2024-04-10 19:44:43 540

原创基于sd的单分支和双分支方案

单分支：1.ip-adapter2.photomaker3.CLE-Diffusion4.powerpaint5.videocomposer6.animateanything7.pixeldance8.aniamtediff双分支： 1.controlnet2.instanceid3.brushnet4.ootdiffusion5.MagicAnimate7.animateanyone

2024-04-10 17:58:24 210

原创 llamafactory:unified efficient fine-tuning of 100+ lanuage models

使用transformers的AutoModel API加载模型并初始化参数，为了使框架兼容不同模型架构，建立了一个模型注册表，存储每层的类型，从而更方便的使用高效的微调技术，当word embedding的词汇大小超过tokenizer的容量时，会调整层的大小，并使用噪声均值初始化新参数，为了计算RoPE缩放的缩放因子，计算了输入序列长度的最大值与模型的上下文长度的比率。相反，Lora冻结所有的预训练权重，并在指定层中引入一对可训练的低秩矩阵，当与量化结合时，称之为QLora。

2024-04-10 17:18:00 436

原创 TAIYI-DIFFUSION-XL:advancing bilingual text-to-image generation with lvlm support

基础模型是一个视觉-语言大型模型，类似于clip，能够有效的对齐文本和图像，从预训练英文的clip开始，并扩展其训练以适应双语和高质量图形-文本数据的要求，训练的第一阶段涉及处理大规模的双语数据集，包括Laion，Wukong，重点放在数据清洗和质量增强上，第二阶段在丰富的数据集上训练，强调高质量图像文本对。一个高质量图像文本对（X,Y），其中X代表图像，Y是描述性文本，与传统数据集中离散标签不同，我们数据集强调全面描述，捕捉材料，风格，颜色和空间布局。训练基于sdxl，学习率1e-5，余弦。

2024-04-10 14:18:17 131

原创 photomaker：customizing realistic human photos via stacked id embedding

我们的解决方案也非常简单，如图所示，首先，我们希望在训练时，我们的输入图像和输出的目标图像都不来源于同一个图像。Stacked ID embedding中存取的每个embedding它们的图像来源可能姿态不同，表情不同以及配饰不同，但ID都是相同的，因此可以隐式的将ID与其他与ID无关的信息解耦，以使其只表征待输出的ID信息。接下来的例子中我们可以看到，我们固定这个拜登对应的embedding权重为1.0，调大奥巴马的对应的embedding的权重，可以看到图像长得会更加像奥巴马。对用户来说非常不友好。

2024-04-10 11:43:30 1450

原创控ID型sd生成 - AI写真

1.lora2.dreambooth3.串联型：facechain4.串联型：easyphoto5.instanceid6.photomaker7.ip-adapter-faceid

2024-04-10 10:20:42 168

原创 Diffusion model alignment using direct preference optimization

开始训练时，reference model和policy model都是同一个模型，只不过在训练过程中reference model不会更新权重，目标是下面的公式最大，即希望左半部分和右半部分的margin越大越好，左半部分的含义是good response相较于没训练之前的累计概率差值，右半部分代表bad reponse相较于没训练之前的累计概率差值，yw某条偏好数据中好的reponse，yl某条偏好数据中差的reponse。LLM两个阶段，1.预训练，2.对齐，微调以使其与人类偏好更好的对齐。

2024-04-09 20:10:56 288

原创 modelscope-agent:Building your customizable agent system with open-source large language models

3.agent将使用提取的API参数执行选定的API，并将API结果返回给LLM，LLM将继续计划是否调用其他API，如果需要另一个API调用，则重复这个过程。基于llm构建可定制的智能代理系统。一个工具使用模块和一个内存模块用于交互，在接收到人类指令后，代理程序将自动规划任务，选择性的使用工具，利用内存中的知识，并最终向用户提供有帮助的响应。LLMs作为代理的大脑，负责计划和分解用户请求，选择性的调用工具，执行检索，并整合来自前面步骤的所有信息已生成最终响应。配置和管理代理中使用的各种API集合。

2024-04-09 14:32:31 287

原创 scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是，想干大模型，清洗干净数据，然后把数据tokens量堆上来，然后搭建一个海量H100的集群，干就完了。训练模型不需要啥技巧，模型结构也没啥好设计的，对算法精度影响…https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型，假设模型的参数量为N，数据集tokens个数为D（token数），那么模型的计算量C约为6ND，模型的计算量C一定后，模型的

2024-04-09 11:56:47 376

原创 SD3:Scaling rectified flow transformers for hhigh-resolution image synthesis

sd3先在256x256尺寸下训练，但最终会在1024x1024为中心的多尺度上微调，这就需要MM-DiT的位置编码需要支持变尺度，sd3采用的是插值和扩展。MM-DiT的模型参数主要是模型的深度d，即transformer block的数量，此时对应的模型中间特征维度大小是64xd，这意味着当模型的深度d增大到rxd，模型的参数量会增大到r的三方，比如深度为24的MM-DiT参数量为2B，最大的MM-DIT深度为38，其参数量为2Bx(38/24)^3=8B。sd3基于DiT，参数量为8B。

2024-04-09 11:28:07 1205

原创 Tokenize Anything via Prompting

SA-1B构建了11M张图像上1.1B个高质量的mask，用于训练sam，Laion-2B从网络上收集了2b个图像文本对，训练clip，引入了SemanticSA-1B数据集，在SA-1B的每个分割区域，使用一个具有5B参数的强大clip模型提取出一个词汇，该模型在LAION图像文本对上训练。利用SemanticSA-1B数据集，训练了一个统一和可推广的模型，能够同时对任何物体进行分割、识别和标题生成，在SAM的架构内合并CLIP的功能，即通过prompt对任何物体进行token的模型。

2024-04-07 11:30:55 727

原创 InstanceID:zero-shot identity-preserving generation in sconds

人脸ID涉及更微妙的语义，需要更高标准的细节和保真度。这些特征可以作为文本嵌入的一般补充，但对于需要精确ID保留的任务来说，更强的语义和更高的保真度至关重要。Image Adapter. 在预训练文本到图像扩散模型中的图像提示能力显著增强了文本提示，特别是对于那些用文本难以描述的内容，采用了一个类似于IP-Adapter的策略用于图像提示，引入一个轻量级的adapter模块，解耦的cross-attention，以支持图像作为提示，不同之处在于我们使用ID嵌入作为图像提示，而不是粗略对准的CLIP嵌入。

2024-03-28 20:47:26 855

原创 comfyui 插件

最近发现很多人在搬运我的文章，，，，那我也发前言：相信大家玩 Stable Diffusion（以下简称SD）都是用的 web UI 操作界面吧，不知道有没有小伙伴听说过 ComfyUI。代码结构上，architecture都是原作者的代码，最核心的在nodes.py中，requirements.txt中是需要安装的库，安装comfyui的插件很简单，主要就是将其放置在custom_nodes目录下即可，实践一个简单的comfyui的插件，以。为例，也是一个很简单的例子。在__init__.py中。

2024-03-28 16:47:07 462

imagemagick.zip

图像篡改检测.zip

空空如也