- 博客(690)
- 资源 (2)
- 收藏
- 关注
原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!
learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。
2023-12-03 15:08:05 196
原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!
3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。
2023-12-02 12:17:55 1247
原创 comfyui 插件
最近发现很多人在搬运我的文章,,,,那我也发 前言:相信大家玩 Stable Diffusion(以下简称SD)都是用的 web UI 操作界面吧,不知道有没有小伙伴听说过 ComfyUI。代码结构上,architecture都是原作者的代码,最核心的在nodes.py中,requirements.txt中是需要安装的库,安装comfyui的插件很简单,主要就是将其放置在custom_nodes目录下即可,实践一个简单的comfyui的插件,以。为例,也是一个很简单的例子。在__init__.py中。
2024-03-28 16:47:07 80
原创 comfyui api
stable diffusion comfyui的api使用教程,为什么要使用comfyui的api?comfyui的api设计,其中comfyui-api写的不错的,用的还是websocket,cog-comfyui可以同时把comfyui启起来。stable diffusion comfyui的api使用教程_厦门外里科技的技术博客_51CTO博客。comfyui api接口文档_51CTO博客_api接口文档怎么用。comfyui api接口文档,comfyuiapi接口文档。
2024-03-28 11:08:05 191
原创 comfyui 代码结构分析
comfyui的服务器端是用aiohtttp写的,webui是fastapi直接构建的,但是其实comfyui的这种设计思路是很好的,也许我们不需要在后端起一个复杂的前台,但是可以借助json结构化pipeline,然后利用node节点流把整个流程重新映射出来。comfy中实现了具体的方法,当安装外部插件时,新增的后端代码放在custom_nodes中,前端代码放在web中,comfyui中的前端代码都在web/extension/core中,还算是一个前后分开的项目。
2024-03-27 17:23:31 145
原创 OOTDIffusion:Outfitting fusion baed latent diffusion for controllable virtual try-on
给定目标人体图像x∈3xHxW和输入服饰图像g∈3xHxW,OOTDiffusion能够生成逼真的穿着图像Xg,我们利用openpose和humanparsing生成带蒙版的人体图像xm,并使用VAE编码器将其转换为潜在空间中的表示delta(Xm)∈4xhxw,其中h=H/8,w=W/8,降采样8倍,我们将dalta(Xm)与高斯噪声4xhxw连接起来,作为去噪UNet的输入潜在表示zT∈8xhw,在去噪UNet的第一个卷积层中添加了4个零初始化的通道,以支持输入的8个通道。
2024-03-22 16:29:18 803
原创 sd-scripts lora训练IP形象
目前主流的方式一般是dataset-tag-editor和lora_scripts来训练的。我就lora-scripts和sd-scripts稍作了修改,依然基于基本的toml文件来训练lora。1.2 扣完图,opencv的findContours找出来边缘裁出来,当然也不是都好,后续还是要自己处理;sd-scripts,只用了caption打标,加了触发词,并对caption的标签做了初步修改。没有统一尺寸,用的sd-scripts中统一尺寸操作。lora-scripts,V1一样的数据,
2024-03-22 11:03:29 150
原创 lora-scripts 训练IP形象
CodeWithGPU | GitHub AI算法复现社区,能复现才是好算法。直接秋叶的lora-scripts,做的非常专业。CodeWithGPU | 能复现才是好算法。主要就是把其中识别错误的tag做一些替换。1.wd 1.4打标。配置一下数据集和模型。
2024-03-22 10:36:27 268
原创 lora-scripts代码分析
用fastapi写的前后端,确实是好代码,没用webui了,这样可以直接在内网就打开页面,还是非常实用的,以往用FastAPI封的很简单,这块值得学习。
2024-03-22 10:34:42 164
原创 [SaaS] AIGC营销创意应用方向
U设计周2023,阿里妈妈重磅推出创意工具,可变字体,虚拟人3大AI创意能力升级,创意生成效率,创意质量以及多元经营场景的适配率都得到了质的提升,极致的满足着品牌日益精细化的创意诉求。以大促会场设计为例,介绍我们设计师如何在营销活动设计中,构建AI工作流与多元化的AIGC能力应用,来一起一探究竟吧~🔍。设计不用等,30秒搞定生鲜零售设计!营销大促、品类项目、氛围计划、市场营销传播、门店美陈空间标准、阿里妈妈 X U设计周|AI 设计赋能商业狂飙!用AI做大促设计 | 轻松又高效,躺着也能做设计。
2024-03-18 11:39:38 586
原创 基于stable diffusion的IP海报生成
,无需训练Lora模型!dataset-tag-editor,逐个检查,概括要点,一是自然语言+关键词描述,两个相互结合,要把画面中出现的元素都打上,且那想让AI记住什么,就不要去打那个关键词,例如熊本熊黑色红色腮红,那些特征性的东西不要去打。加触发词,我发现有的教程说可以不加,但是我发现固定IP 的话,加上等于触发,没尝试过不加,但是我都会加上。白底IP图,场景IP结合图,单独场景图,训练尺寸统一,512x512,512x768,768x1152,如果尺寸不是64的倍数,会对图片进行裁剪。
2024-03-18 11:39:05 863
原创 [SaaS] 母亲节海报设计
人工智能技术正在不断发展和演变,因此设计师需要时刻保持学习和更新的状态,以跟上技术的发展,帮助自己创造出更加创新和独特的设计作品。提升AI可控 & 出图质量。
2024-03-18 10:19:16 114
原创 [SaaS] 城市消费券项目
面对时代趋势,团队早在22年底就开展了AIGC在「电商行业领域」的研究和探索,旨在运用新技术帮助团队提升工作效率和质量,高效地解决业务难题。「AIGC实战」城市消费券项目经验。
2024-03-15 17:50:23 172
原创 [SaaS] 淘宝设计AI
Midjounery出创意视觉大方向—>Topaz Photo AI 高清处理—>PS beta 优化+修改局部画面—>SD细节融合+优化材质—>Found快速合成超级符号.下面是一个完整的品牌营销海报设计流程,AIGC起到了巨大作用,但是仍然很难去一步解决这个问题,还是逐步修改的一个过程。“淘宝设计+AI” 让国际大牌造世界。双11超级品牌 超级发布。
2024-03-15 16:04:09 213
原创 Midjourney视觉垫图
midjourney以图生图,从sd角度出发,将图像信息输入的方式有很多种,包括ip-adapter,在fooocus中针对midjourney中的功能做了对比,midjourney应该不是将图片先转成prompt,在拼prompt输出的,sd中的img2img,实际上是将图片通过vae得到image embedding,再和latent拼在一起得到输出。一、设计师前言随着数字时代的到来,人工智能正在被广泛应用于各个领域,其中艺术和设计领域的AI应用备受瞩目。
2024-03-15 15:12:53 545
原创 [SaaS] 家作->装修设计师
构建用户对未来家的想象,是家装家居多年来持续探索的方向,如今利用AI技术,我们设计了一款搭配产品,用户只需提供心仪的商品图片,选择自己想要的风格,便可快速生成一张围绕该商品的场景搭配,当前主要面向商家,未来希望人人都可以用它来装修自己的家。一张商品图,结合用户的自定义输入,便可生成多张场景效果。生图:核心逻辑是扩图,会在淘宝海量的商品图上训练模型,再结合行业运营对风格趋势的把控,在根据商品的特征及用户的选择,先搭配软装(controlnet),再搭配硬装环境(inpainting),最后渲染出图。
2024-03-15 11:49:22 347
原创 Salient object detection 显著图检测
这篇论文提出了一个预测-优化的框架,BASNet,以及一个新的针对边界感知显著目标检测的混合损失。1.为了捕获全局和局部的信息,提出了一个新的预测-优化网络,将unet的深度监督的encoder-decoder网络和一个新的残差模块结合,encoder-decoder将输入图像转换为一个概率图,而优化模块则通过学习粗糙的特征图和gt之间的残差来优化预测的输出.将全卷积应用到显著性检测,显著性检测的2个挑战,1.显著性检测主要是由整张图像的全局的明暗对比度定义而来,而不是局部或像素点的特征;
2024-03-12 09:48:25 848
原创 automatic matting业务流总结
抠图分为辅助输入和自动抠图,辅助输入主要是需要trimap图/分割图/背景图,其中trimap图主要就是通过分割的方法或者显著图检测的方法先腐蚀再膨胀生成的,二阶段可以输入trimap在获得精确的alpha图,alpha图是0-1之间的值,通常分割输出0/255值,显著图输出0-1之间的值,通常来讲基于trimap二阶段方法还是要轻量化一点,如果是二阶段流程的话,一阶段其实用抠图,显著图检测,分割的方法都可以,加一个后处理的库即可,这块rembg中的是pymatting这个后处理的库。
2024-03-11 13:46:13 179
原创 stable diffusion的额外信息融入方式
conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。
2024-03-06 15:22:42 338
原创 主流抠图算法trimap-based/free
抠图类任务目前是基础类任务,是我们不需要去训练的,目前开源的抠图类算法很多,包括通用抠图,头部抠图,物体抠图,人像抠图,视频抠图这些目前都是有相当丰富的开源接口可以使用,通常来说,最多需要finetune一次,基本拿来即用,在基础的ai项目上,其实有很多项目都不需要在训练了,比如说目前的行人识别,行人骨骼点识别,人脸识别等很多项目主要是在部署这块,包括后处理逻辑的开发和多平台的移植这块,算法侧的训练和优化早不是重点了。文章浏览阅读283次。输入可以是trimap,粗略二进制分割图,低质量alpha,
2024-03-05 15:46:25 907
原创 DiffusionMat:Alpha Matting as sequential refinement learning
在SDEdit中,由于随机噪声带来的随机性,可以将噪声引导的trimap图像去噪为任意的alpha抠图,然而作为一项感知任务,图像抠图只有一个确定性的alpha抠图,为了获取精确的alpha,我们使用GT反转引导来纠正中间去噪结果,具体来说,给定GT alpha,通过DDIM反转将其映射到预训练的扩散模型上,并获得确定性的反转轨迹,可以纠正过程中用作监督信号。DiffusionMat的基本思想是未知区域的抠图可以逐步改进,并从每一次的迭代的反馈中受益,纠正和细化结果。
2024-03-05 15:45:40 473
原创 MatteFormer:Transformer-based image matting via prior-tokens
本文核心2点:1.提出了PA-WSA(Prior-Attentive Window self-attention),2.通过trimap生成Prior-tokens。目前基于transformer的matting方法,大多就是把swin transformer修修改改,加一些模块,当然也很难验证其所加模块的有效性,也许是transformer本身的能力带来的算法增益。文章浏览阅读1.2k次。
2024-03-05 14:04:01 439
原创 ViTMatte:Boosting image matting with pretrained plain vision transformers
给定一个RGB图像HXWX3以及其对应的trimap HXWX1,按通道连接它们并输入到ViTMatte中,ViT作为基础特征提取器,生成一个stride=16的单个特征图,detail capture模块由一系列卷积层组成,用于捕捉和融合图像matting中的详细信息,简单的在不同尺度上采样和融合特征,以预测最终的alpha。将普通VIT中的block分层m组G,每个组中包含n个transformer块,对于G中的块,我们仅在最后一个块bn中应用全局注意力,而在其他块中使用窗口注意力,而非全局注意力。
2024-03-04 20:09:00 303
原创 M3Net:Multilevel,Mixed and Multistage attention network for salient object detection
为了促进多层特征之间,提出了Multilevel interaction block,引入了cross-attention机制以实现多层特征的交互,让高层特征引导低层特征以增强显著区域。多阶段解码器的细节,通过上采样方法将多级特征转换为相同分辨率,为了更好的整合特征融合后的显著信息,我们进一步进行混合注意力,上面这个图结合网络结构图,看,并不是F3那一层的mib直接入两个特征,后面两个接入三个特征,看b也发现,其实接入三个,也是两两一个,mib很简单就是一个cross-attention.
2024-03-04 16:28:29 400
原创 Semantic human matting
将3通道图像与来自TNet的3通道图串联作为6通道输入,DIM使用3通道图和1通道trimap(1,0.5,0表示前景,未知区域和背景)作为4通道输入,6通道输入和4通道输入几乎有相同的性能,MNet有13个卷积层和4个最大池化层,编码器网络和VGG16相同,VGG16的conv1是3个输入通道,MNet有6个输入通道,每个卷积层后面添加了批归一化,移除了conv6和deconv6.TNet预训练,膨胀alpha生成trimap,400x400;扮演着语义分割的角色,输出3通道图,PSPNet50.
2024-03-01 14:27:55 303
原创 Mask Guided Matting via Progressive Refinement network
网络以图像和粗略mask作为输入,并输出抠图 ,在解码过程中,RPN在每个特征级别产生一个边缘抠图输出,在不同尺度上已经证明边缘输出对于改善特征学习是有效的,线性融合边缘输出对于抠图不理想,因为靠近物体边界的图像区域需要较低级别特征来勾勒前景,而识别物体内部区域需要更高级别的指导。0代表黑,1代表白,结合上面这张图分析,PRM的第一行,当前级别l,使用以下函数从前一个级别的抠图输入alphal-1生成gl,如何生成呢?输入可以是trimap,粗略二进制分割图,低质量alpha,
2024-02-29 15:58:05 228
原创 Highly accurate dichotomous image segmentation
在图像分割组件Fsg中,在生成概率图之前,图像I被转换为一组高维中间特征图,每个特征图与其对应的GT中间特征图具有相同的维度,接着,中间监督通过高维特征一致性损失,对中间特征进行监督。大多数模型在训练集上容易过度拟合,可以对给定的深度网络的中间输出进行监督,通过神经网络的最后一层特征图而产生的单通道概率图,然而将高维特征转换为单通道概率图本质上是一种降维操作,不可避免的丢失关键信息。使用GIMP对每张图进行像素级精度手动标记,平均每张图图像的标记时间约30分钟,有些图像的标记时间长达10h。
2024-02-28 14:40:56 416
原创 F,B,Alpha Matting
Resnet50,输入通道从3增加到9以适应trimap,使用三个不同尺度的前景和背景掩码的高斯模糊来编码trimap,与现有的matting方法不同,通常将trimap编码为具有值为1的单通道前景,值为0.5的未知值和值为0的背景。其次,移除了resnet50的layer3和layer4,并将膨胀率增加到2和4,可以在最高尺度上进行处理,而不降低分辨率。输出层包含7个通道,对应alpha,F,B,将alpha的值归一化0-1之间,sigmoid函数,F和B也采用sigmoid函数,以保持在0-1之间。
2024-02-26 14:35:40 254
原创 outpainting的几种实现方式
这是一个基于stable diffusion的扩展绘画工具(outpainting). Contribute to WatchTower-Liu/diffusion-outpainting development by creating an account on GitHub.大部分扩图还是第一种,init_img+init_mask,把原图的区域扩大,扩大后的区域可以用马赛克或者噪声图代替,制作只有原图的mask,尺寸和扩大的图片尺寸一直,再进行inpainting即可。
2024-02-04 17:53:03 1043
原创 Revisiting image pyramid structure for high resolution salient object detection
SICA的整体操作遵循OCRNet的方法。拉普拉斯金字塔存储了每个尺度中低通滤波图像与原始图像之间的差异,可以将拉普拉斯图像解释为低通滤波信号的余项,即高频细节,我们重新设计我们的网络,通过构建拉普拉斯金字塔,集中于边界细节并从最小的阶段到其原始大小重新构建显著图,从最上层的阶段stage-3开始,将初始显著性图作为输入,并从拉普拉斯显著图中聚合高频细节。在多尺度编码器中使用了UACANet中的PAA-e来减少骨干特征图的通道数,并使用PAA-d在最小阶段(即stage3)上预测初始显著图。
2024-02-01 19:09:34 534
原创 U2net:Going deeper with nested u-structure for salient object detection
图2中d用了inception结构,通过扩张卷积来扩大感受野,受unet启发,RSU用于捕捉阶内多尺度特征,RSU和残差连结最大的不同在于,RSU使用了一个类似于UNET的结构来替换单一流的普通卷积,并用一个权重层转换的局部特征来代替原始特征。U2net是一种为SOD设计的两级嵌套U结构,不使用图像分类的预训练骨干网络,在底层设计了一种新颖的Residual U-blocks,能够提取多尺度特征而不降低特征图分辨率,在顶层,有一个类似UNET的结构,每个极端都由RSU填充。交叉熵监督sup0-6,
2024-01-31 15:57:29 386
原创 Boosting semantic human matting with coarse annotations
tensorflow,按顺序对三个网络进行训练,在输入到MPN之前,对所有的图进行降采样处理,192x160,在每个训练上随机翻转,在MPN上训练20个epoch,将低分辨率图像和输出的前景mask连接起来作为输入来训练QUN,在训练QUN时,对精细化注释数据执行随机滤波(滤波器大小为3或5),二值化和形态学操作(腐蚀膨胀)以生成配对的高质量和低质量mask数据。第一阶段预测的是粗糙的mask,所有的训练数据调整为192x160,使用所有数据进行训练,包括低质量和高质量的注释数据。
2024-01-30 17:36:25 876
原创 BASNet:Boundary-aware salient object detection
这篇论文提出了一个预测-优化的框架,BASNet,以及一个新的针对边界感知显著目标检测的混合损失。1.为了捕获全局和局部的信息,提出了一个新的预测-优化网络,将unet的深度监督的encoder-decoder网络和一个新的残差模块结合,encoder-decoder将输入图像转换为一个概率图,而优化模块则通过学习粗糙的特征图和gt之间的残差来优化预测的输出.将全卷积应用到显著性检测,显著性检测的2个挑战,1.显著性检测主要是由整张图像的全局的明暗对比度定义而来,而不是局部或像素点的特征;
2024-01-25 16:38:58 1029
原创 算法训练平台资源
总之试来试去,还是autodl比较方便,但是autodl的资源是真的紧张,经常释放了就等不到卡了。现在很多平台都把github、huggingface都屏蔽了,太麻烦了。
2024-01-25 09:44:49 362
原创 automatic matting 抠图算法汇总
电商图抠图算法,主要还是关注商品图抠图,内部也有自研的抠图算法,下面主要关注开源抠图算法。一般来说关注trimap-free的方法,即一步抠图,业务上也是trimap-free更加友好,当然业务流上可以先计算trimap,然后再走trimap-based抠图。都是和我们抠图类似的思路,先显著性检测Tracerb7模型,在Trimap-based fbamatting精细化抠图。编码器处理单帧图片,先降采样,中间虚线是之前的特征,递归解码器逐步解码,深导滤波器,就是一个可学习的引导滤波器。
2024-01-02 15:36:55 927
原创 Style Aligned image generation via shared attention
可以应用于任何基于注意力的文本到图像扩散模型上,在扩散过程中通过从每个生成的图像到batch中的第一个图像进行最小的attention sharing operations,可以得到一组具有一致风格的图像,此外利用扩散反演,可以根据参考风格图像生成具有一致风格的图像,无需优化或微调。QKV分别为从集合Li的深层特征投影中得到的query,key和value,full attention sharing可能会影响生成图的质量,会导致图像之间的内容泄露,例如图5所示,图像集中的独角兽染上了恐龙身上的绿色颜料。
2023-12-30 16:09:09 526 1
原创 Deep image matting:A comprehensive survy
采用不同的输入方式,适用于自动和辅助方法,对于需要辅助信息来约束解空间的方法,输入方式可以进一步分为多种类型,包括带有trimap的RGB图像,带有background image的RGB图像,带有coarse maps的RGB图像,带有user click的RGB图像,带有flexible inputs的RGB图像,带有text description的RGB图像。图像抠图是指从任意图像中准确提取前景物体的alpha,I表示输入图像,F表示前景,B表示背景,alpha表示不透明度。
2023-12-30 11:14:11 906
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人