自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(714)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 212

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1278

原创 多模态大模型训练数据以及微调数据格式

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. - Qwen-VL/README_CN.md at master · QwenLM/Qwen-VL。这里llava格式是应用最为广泛的,除了qwen-vl系列,几乎所有的系列都是llava格式。多模态数据,尤其是中文多模态数据,找一些中文多模态的数据。6423张Xray图片,

2024-04-17 19:42:49 579

原创 Efficient Multimodal learning from data-centric perspective

llm包括phi 1.3B,StableLM2 1.6B,phi 2.7B,vision encoder包括SigLIP,EVA-CLIP,都是4.28B,cross modality projector,参照llava,使用带有gelu激活函数的两层mlp。对多模态调优可能会损害其从预训练语言模型中继承的认知能力,可能的原因是多模态训练数据中的信息量较少,且多样性不足,在调优数据集中保持一定量的高质量纯文本数据可以缓解这个问题。近期几天会梳理下多模态小模型相关的论文,做个汇总。

2024-04-15 20:27:05 382

原创 llama_factory微调QWen1.5

我们开源了包括0.5B、1.8B、4B、7B、14B和72B共计6个不同规模的Base和Chat模型,, 以及一个MoE模型(点击博客 了解详情),并同步放出了各尺寸模型对应的量化模型。请访问here开始使用,我们建议您试用Qwen1.5-72B-chat。模型效果 为了全面洞悉 Qwen1.5 的效果表现,我们对 Base 和 Chat 模型在一系列基础及扩展能力上进行了详尽评估,包括如语言理解、代码、推理等在内的基础能力,多语言能力,人类偏好对齐能力,智能体能力,检索增强生成能力(RAG)等。

2024-04-15 17:16:13 944

原创 多模态对齐方案

本文中我们介绍了 13 中常见的大型多模态模型(Large Multimodal Models, LMM),包括 BLIP-2,LLaVA、MiniGPT、Qwen-VL 以及 Ferret 等。最全 LMM 模型结构(13种)综述。单层linear投影、两层mlp。

2024-04-14 17:33:45 294

原创 多模态小模型总结

算法名:Multi-crop LLaVA-3b HF 模型地址: visheratin/MC-LLaVA-3b · Hugging Face博客地址: Breaking resolution curse of vision-language models简介 这并不是一篇论文算法,而是一种解决输入分辨率限制的…GitHub - LinkSoul-AI/Chinese-LLaVA: 支持中英文双语视觉-文本对话的开源可商用多模态模型。MoE-LLaVA:多模态大模型稀疏化,3B模型可与7B模型性能相当。

2024-04-11 17:58:21 711

原创 PixArt-σ:Weak-to-strong training of diffusion transformer for 4k text-to-image generation

PixArt-Σ在其前…PixArt-σ提出了一种更为激进的压缩策略KV compression,其提出的动机在于计算attention中,key和value存在一定的特征冗余,换言之,如果用压缩后的key和value进行计算,并不会对PixArt-σ生成的结果带来太大的性能损失。值得注意的是,一旦分辨率发生变化,原有的positional encoding(PE)也无法继续适用,这里PixArt-Σ用到了DiffFit中的一个PE Interpolation技巧,操作很简单,就是将原来的PE。

2024-04-11 17:10:48 915

原创 PixArt-β:Fast and controllable image generation with latent consistency models

controlnet是unet的设计范式,因此pixart提出了controlnet-transformer,将diffusion transformer copy一份作为条件信号的输入,controlnet-transformer中的zero conv则用zero linear layers代替。PixArt-β对现有的几个lcm-based方法进行了对比,可以看到,在1024x1024分辨率下的图片生成,用一张A100推理仅0.5s。对基础的pixart-α升级,使其支持LCM和Controlnet。

2024-04-11 16:59:22 366

原创 PixArt-α:Fast Training of diffusion transformer for photorealistic text-to-image synthesis

第二个变动是将原始的AdaLN改成了AdaLN-single,原始的DiT中,每个DiT block中均有一个单独的AdaLN,由于这里需要一个MLP来得到6个scale和shift,所以参数量还是很多(27%),而AdaLN-single是所有的DiT blocks都共享一个MLP,然后每个DiT block再加上一个可训练的embedding,这样即实现了每个DiT block参数有所区分,又减少了参数量。进过这两个变动,预训练模型就转变为一个文本引导的条件扩散模型,这个阶段用256x256训练。

2024-04-11 16:52:22 588

原创 open-sora

整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT模型,在训练阶段首先采用预训练好的VAE的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本embedding一起训练STDiT,在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声与提示词prompt embedding一起输入STDiT中,得到去噪之后的特征,最后输入到VAE的解码器中,解码得到视频。LLaVA-1.6-Yi-34B的多模态LLM来实现Video-Caption,生成高质量的视频文本对。

2024-04-11 14:28:26 826

原创 视频剪辑方法总结

视频剪辑这块,传统做法还是不少的,但是我认为目前比较合理的还是基于多模态大模型(基于大模型的视频理解)的做法更好,扩展性更强,否则还是避免不了写一些逻辑和场景受限。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。目前用的,主要是切的镜头。通过音频来裁剪视频。

2024-04-11 11:18:38 401

原创 Latte:Latent diffusion transformer for video generation

假设有一个潜在空间中的video clip VL∈FxHxWxC,现将VL转成tokens,记Z'∈nf x nh x nw xd,F表示帧数,HWC表示潜在空间中视频帧的高宽通道数,video clip在潜在空间中的token总数是nf x nh x nw,d表示每个token的维度,将spatial-temporal positional embedding p添加在Z'中,得到Z=Z'+p,作为transformer backbone的输入。2.扩散过程在视频的潜在空间中进行,以建模潜在的时空信息。

2024-04-11 11:01:59 915

原创 VideoGPT:Video Generation using VQ-VAE and Transformers

对于视频展示,选择哪种模型比较好?在没有空间和时间溶于的降维潜在空间中进行自回归建模是否优于在所有空间和时间像素级别上的建模?选择前者:自然图像和视频包括了大量的空间和时间冗余,这些冗余可以通过学习高分辨率输入的去噪降维编码来消除,例如,空间和时间维度上的4倍降采样会导致64倍的分辨率降低,在潜在空间建模,不是像素空间,可以提高采样速度和计算需求。第一阶段:为了学习一组离散的潜在code,首先在视频数据上训练一个VQVAE,编码器结构包括一系列在时空维度上进行下采样的3D卷积,如图所示,

2024-04-10 20:13:01 568

原创 Brushnet:a plug-and-play image inpainting model with decomposed dual-branch diffusion

额外分支的输入包括噪声潜在向量,mask图像的潜在向量和下采样后的mask,串联输入模型,噪声潜在向量在生成过程中提供信息,帮助brushnet增强mask图像特征的语义一致性,mask图像潜在向量通过VAE从mask图像中提取,与预训练的UNet的数据分布对齐,为了确保mask大小和潜在向量和mask图像潜在向量对齐,使用立方插值对mask进行下采样。2.专用修复模型,通过扩展基础扩散模型的输入通道维度,以整合提供的损坏图像和mask,对专门设计的图像修复模型进行微调。

2024-04-10 19:44:43 540

原创 基于sd的单分支和双分支方案

单分支:1.ip-adapter2.photomaker3.CLE-Diffusion4.powerpaint5.videocomposer6.animateanything7.pixeldance8.aniamtediff双分支: 1.controlnet2.instanceid3.brushnet4.ootdiffusion5.MagicAnimate7.animateanyone

2024-04-10 17:58:24 210

原创 llamafactory:unified efficient fine-tuning of 100+ lanuage models

使用transformers的AutoModel API加载模型并初始化参数,为了使框架兼容不同模型架构,建立了一个模型注册表,存储每层的类型,从而更方便的使用高效的微调技术,当word embedding的词汇大小超过tokenizer的容量时,会调整层的大小,并使用噪声均值初始化新参数,为了计算RoPE缩放的缩放因子,计算了输入序列长度的最大值与模型的上下文长度的比率。相反,Lora冻结所有的预训练权重,并在指定层中引入一对可训练的低秩矩阵,当与量化结合时,称之为QLora。

2024-04-10 17:18:00 436

原创 TAIYI-DIFFUSION-XL:advancing bilingual text-to-image generation with lvlm support

基础模型是一个视觉-语言大型模型,类似于clip,能够有效的对齐文本和图像,从预训练英文的clip开始,并扩展其训练以适应双语和高质量图形-文本数据的要求,训练的第一阶段涉及处理大规模的双语数据集,包括Laion,Wukong,重点放在数据清洗和质量增强上,第二阶段在丰富的数据集上训练,强调高质量图像文本对。一个高质量图像文本对(X,Y),其中X代表图像,Y是描述性文本,与传统数据集中离散标签不同,我们数据集强调全面描述,捕捉材料,风格,颜色和空间布局。训练基于sdxl,学习率1e-5,余弦。

2024-04-10 14:18:17 131

原创 photomaker:customizing realistic human photos via stacked id embedding

我们的解决方案也非常简单,如图所示,首先,我们希望在训练时,我们的输入图像和输出的目标图像都不来源于同一个图像。Stacked ID embedding中存取的每个embedding它们的图像来源可能姿态不同,表情不同以及配饰不同,但ID都是相同的,因此可以隐式的将ID与其他与ID无关的信息解耦,以使其只表征待输出的ID信息。接下来的例子中我们可以看到,我们固定这个拜登对应的embedding权重为1.0,调大奥巴马的对应的embedding的权重,可以看到图像长得会更加像奥巴马。对用户来说非常不友好。

2024-04-10 11:43:30 1450

原创 控ID型sd生成 - AI写真

1.lora2.dreambooth3.串联型:facechain4.串联型:easyphoto5.instanceid6.photomaker7.ip-adapter-faceid

2024-04-10 10:20:42 168

原创 Diffusion model alignment using direct preference optimization

开始训练时,reference model和policy model都是同一个模型,只不过在训练过程中reference model不会更新权重,目标是下面的公式最大,即希望左半部分和右半部分的margin越大越好,左半部分的含义是good response相较于没训练之前的累计概率差值,右半部分代表bad reponse相较于没训练之前的累计概率差值,yw某条偏好数据中好的reponse,yl某条偏好数据中差的reponse。LLM两个阶段,1.预训练,2.对齐,微调以使其与人类偏好更好的对齐。

2024-04-09 20:10:56 288

原创 modelscope-agent:Building your customizable agent system with open-source large language models

3.agent将使用提取的API参数执行选定的API,并将API结果返回给LLM,LLM将继续计划是否调用其他API,如果需要另一个API调用,则重复这个过程。基于llm构建可定制的智能代理系统。一个工具使用模块和一个内存模块用于交互,在接收到人类指令后,代理程序将自动规划任务,选择性的使用工具,利用内存中的知识,并最终向用户提供有帮助的响应。LLMs作为代理的大脑,负责计划和分解用户请求,选择性的调用工具,执行检索,并整合来自前面步骤的所有信息已生成最终响应。配置和管理代理中使用的各种API集合。

2024-04-09 14:32:31 287

原创 scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响…https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的

2024-04-09 11:56:47 376

原创 SD3:Scaling rectified flow transformers for hhigh-resolution image synthesis

sd3先在256x256尺寸下训练,但最终会在1024x1024为中心的多尺度上微调,这就需要MM-DiT的位置编码需要支持变尺度,sd3采用的是插值和扩展。MM-DiT的模型参数主要是模型的深度d,即transformer block的数量,此时对应的模型中间特征维度大小是64xd,这意味着当模型的深度d增大到rxd,模型的参数量会增大到r的三方,比如深度为24的MM-DiT参数量为2B,最大的MM-DIT深度为38,其参数量为2Bx(38/24)^3=8B。sd3基于DiT,参数量为8B。

2024-04-09 11:28:07 1205

原创 Tokenize Anything via Prompting

SA-1B构建了11M张图像上1.1B个高质量的mask,用于训练sam,Laion-2B从网络上收集了2b个图像文本对,训练clip,引入了SemanticSA-1B数据集,在SA-1B的每个分割区域,使用一个具有5B参数的强大clip模型提取出一个词汇,该模型在LAION图像文本对上训练。利用SemanticSA-1B数据集,训练了一个统一和可推广的模型,能够同时对任何物体进行分割、识别和标题生成,在SAM的架构内合并CLIP的功能,即通过prompt对任何物体进行token的模型。

2024-04-07 11:30:55 727

原创 InstanceID:zero-shot identity-preserving generation in sconds

人脸ID涉及更微妙的语义,需要更高标准的细节和保真度。这些特征可以作为文本嵌入的一般补充,但对于需要精确ID保留的任务来说,更强的语义和更高的保真度至关重要。Image Adapter. 在预训练文本到图像扩散模型中的图像提示能力显著增强了文本提示,特别是对于那些用文本难以描述的内容,采用了一个类似于IP-Adapter的策略用于图像提示,引入一个轻量级的adapter模块,解耦的cross-attention,以支持图像作为提示,不同之处在于我们使用ID嵌入作为图像提示,而不是粗略对准的CLIP嵌入。

2024-03-28 20:47:26 855

原创 comfyui 插件

最近发现很多人在搬运我的文章,,,,那我也发 前言:相信大家玩 Stable Diffusion(以下简称SD)都是用的 web UI 操作界面吧,不知道有没有小伙伴听说过 ComfyUI。代码结构上,architecture都是原作者的代码,最核心的在nodes.py中,requirements.txt中是需要安装的库,安装comfyui的插件很简单,主要就是将其放置在custom_nodes目录下即可,实践一个简单的comfyui的插件,以。为例,也是一个很简单的例子。在__init__.py中。

2024-03-28 16:47:07 462

原创 comfyui api

stable diffusion comfyui的api使用教程,为什么要使用comfyui的api?comfyui的api设计,其中comfyui-api写的不错的,用的还是websocket,cog-comfyui可以同时把comfyui启起来。stable diffusion comfyui的api使用教程_厦门外里科技的技术博客_51CTO博客。comfyui api接口文档_51CTO博客_api接口文档怎么用。comfyui api接口文档,comfyuiapi接口文档。

2024-03-28 11:08:05 376

原创 comfyui 代码结构分析

comfyui的服务器端是用aiohtttp写的,webui是fastapi直接构建的,但是其实comfyui的这种设计思路是很好的,也许我们不需要在后端起一个复杂的前台,但是可以借助json结构化pipeline,然后利用node节点流把整个流程重新映射出来。comfy中实现了具体的方法,当安装外部插件时,新增的后端代码放在custom_nodes中,前端代码放在web中,comfyui中的前端代码都在web/extension/core中,还算是一个前后分开的项目。

2024-03-27 17:23:31 490

原创 OOTDIffusion:Outfitting fusion baed latent diffusion for controllable virtual try-on

给定目标人体图像x∈3xHxW和输入服饰图像g∈3xHxW,OOTDiffusion能够生成逼真的穿着图像Xg,我们利用openpose和humanparsing生成带蒙版的人体图像xm,并使用VAE编码器将其转换为潜在空间中的表示delta(Xm)∈4xhxw,其中h=H/8,w=W/8,降采样8倍,我们将dalta(Xm)与高斯噪声4xhxw连接起来,作为去噪UNet的输入潜在表示zT∈8xhw,在去噪UNet的第一个卷积层中添加了4个零初始化的通道,以支持输入的8个通道。

2024-03-22 16:29:18 908

原创 sd-scripts lora训练IP形象

目前主流的方式一般是dataset-tag-editor和lora_scripts来训练的。我就lora-scripts和sd-scripts稍作了修改,依然基于基本的toml文件来训练lora。1.2 扣完图,opencv的findContours找出来边缘裁出来,当然也不是都好,后续还是要自己处理;sd-scripts,只用了caption打标,加了触发词,并对caption的标签做了初步修改。没有统一尺寸,用的sd-scripts中统一尺寸操作。lora-scripts,V1一样的数据,

2024-03-22 11:03:29 205

原创 lora-scripts 训练IP形象

CodeWithGPU | GitHub AI算法复现社区,能复现才是好算法。直接秋叶的lora-scripts,做的非常专业。CodeWithGPU | 能复现才是好算法。主要就是把其中识别错误的tag做一些替换。1.wd 1.4打标。配置一下数据集和模型。

2024-03-22 10:36:27 371

原创 lora-scripts代码分析

用fastapi写的前后端,确实是好代码,没用webui了,这样可以直接在内网就打开页面,还是非常实用的,以往用FastAPI封的很简单,这块值得学习。

2024-03-22 10:34:42 207

原创 [SaaS] AIGC营销创意应用方向

U设计周2023,阿里妈妈重磅推出创意工具,可变字体,虚拟人3大AI创意能力升级,创意生成效率,创意质量以及多元经营场景的适配率都得到了质的提升,极致的满足着品牌日益精细化的创意诉求。以大促会场设计为例,介绍我们设计师如何在营销活动设计中,构建AI工作流与多元化的AIGC能力应用,来一起一探究竟吧~🔍。设计不用等,30秒搞定生鲜零售设计!营销大促、品类项目、氛围计划、市场营销传播、门店美陈空间标准、阿里妈妈 X U设计周|AI 设计赋能商业狂飙!用AI做大促设计 | 轻松又高效,躺着也能做设计。

2024-03-18 11:39:38 641

原创 基于stable diffusion的IP海报生成

,无需训练Lora模型!dataset-tag-editor,逐个检查,概括要点,一是自然语言+关键词描述,两个相互结合,要把画面中出现的元素都打上,且那想让AI记住什么,就不要去打那个关键词,例如熊本熊黑色红色腮红,那些特征性的东西不要去打。加触发词,我发现有的教程说可以不加,但是我发现固定IP 的话,加上等于触发,没尝试过不加,但是我都会加上。白底IP图,场景IP结合图,单独场景图,训练尺寸统一,512x512,512x768,768x1152,如果尺寸不是64的倍数,会对图片进行裁剪。

2024-03-18 11:39:05 956

原创 [SaaS] 盒马营销设计

看盒马设计营销创意设计师们如何尝试将AIGC应用到日常工作中。AIGC浅尝,探索如何将它融入到营销创意设计中?

2024-03-18 11:06:52 173

原创 [SaaS] 母亲节海报设计

人工智能技术正在不断发展和演变,因此设计师需要时刻保持学习和更新的状态,以跟上技术的发展,帮助自己创造出更加创新和独特的设计作品。提升AI可控 & 出图质量。

2024-03-18 10:19:16 136

原创 [SaaS] 城市消费券项目

面对时代趋势,团队早在22年底就开展了AIGC在「电商行业领域」的研究和探索,旨在运用新技术帮助团队提升工作效率和质量,高效地解决业务难题。「AIGC实战」城市消费券项目经验。

2024-03-15 17:50:23 199

原创 [SaaS] AI试衣间

淘宝AI试衣间,1秒换装,立即解锁不一样的你!我在淘宝用AI试了1000件衣服~

2024-03-15 16:09:38 141

原创 [SaaS] 淘宝设计AI

Midjounery出创意视觉大方向—>Topaz Photo AI 高清处理—>PS beta 优化+修改局部画面—>SD细节融合+优化材质—>Found快速合成超级符号.下面是一个完整的品牌营销海报设计流程,AIGC起到了巨大作用,但是仍然很难去一步解决这个问题,还是逐步修改的一个过程。“淘宝设计+AI” 让国际大牌造世界。双11超级品牌 超级发布。

2024-03-15 16:04:09 236

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除