莫余-CSDN博客

原创 Transparent Image Layer Diffusion using Latent Transparency

在这种情况下，通过专注于前景和背景的LoRAs，模型被训练来区分和生成多层次的图像，其中每一层都可以独立地表示图像的不同部分（如前景和背景），并可能包含自己的透明度。比如，用户可以独立调整每个图层的透明度，或者将几个图层组合起来形成一个完整的场景，这个场景能够根据文本提示精确地展现出细节丰富的图像，如乱发的细节和火焰的半透明效果。概念，扩展了现有潜在扩散模型的能力，使其能够生成具有高质量透明度的图像，这对于图像生成、图形设计和许多其他应用领域都是一项重要的进步。对于多层模型的训练（b），情况则有所不同。

2024-03-12 13:56:59 989

原创 Could not load library libcudnn_ops_infer.so.8.

在此路径下查看是否有libcudnn_ops_infer.so.8文件。如果存在的话，直接添加下环境变量即可。在你的虚拟环境中，如。

2024-02-26 09:44:45 466 2

原创【CCEdit】通过扩散模型进行创意且可控的视频编辑

CCEdit是一个基于扩散模型的多功能视频编辑框架，它通过一个创新的三叉戟网络结构，分别控制视频的结构和外观，从而实现精确和创造性的编辑能力。它是整个网络的基础，确保在编辑时，视频的基本结构不会被破坏，从而保持了视频内容的连贯性和真实性。：在初始运行中处理了第一组"L + 1"帧之后，接下来的运行会将上一次运行的最后一帧作为新的起始帧，这样做是为了在视频的连续帧之间保持编辑效果的连贯性。在训练期间，我们固定主分支的空间权重和结构分支的权重，同时更新主分支中新加入的时间层的参数，以及外观分支的权重。

2024-02-20 11:14:17 955

原创 Sora到底有多强？现实已经不存在了

新发布的Sora到底有多强？和runway PiKa相比强在哪？

2024-02-17 11:38:46 521

原创 Kafka Producer/Consumer 关系解释及测试demo

这就像在Kafka中，如果某个Partition的消息积压，负责这个Partition的消费者就需要更快地处理消息，以防止延迟。这时，厨师们（Producers）开始忙碌起来，每准备好一道菜，就会放到服务台（Topic）的指定位置（Partition）。在这个餐厅中，有时候会有特别多的订单，厨师需要快速高效地准备菜肴。通过这个例子，我们可以看到，Kafka的Producer和Consumer之间是如何通过Topic（服务台）和Partition（服务台的不同部分）协作的，以实现高效、可靠的消息处理。

2024-02-16 23:08:36 1094 1

原创解决报错：RuntimeError: Found more than one stateful callback of type `ModelCheckpoint`.

保存ckpt的时候，可以按照modelcheckpoint 的every_n_train_steps 进行保存。如果metrics_over_trainsteps_checkpoint 的 every_n_train_steps 与之一样的话，这样是无法在多个ckpt 进行打分，适当选择留 ckpt的。所以，metrics_over_trainsteps_checkpoint 的 every_n_train_steps需要大于modelcheckpoint 的every_n_train_steps。

2024-01-02 14:00:04 463

原创 Exporting the operator ‘aten::scaled_dot_product_attention‘ to ONNX opset version 14 is not support.

我将 pytorch从2.0 版本降至 pytorch1.13 版本之后，就可以运行了。更换版本也未能解决，正要写算子进行替换时，不小心重装了另一个版本的pytorch。

2023-12-01 10:45:51 864

原创【OpenSTL】方便好用的时空预测开源库

我们提供了一个使用OpenSTL在自定义数据上进行训练、评估和可视化的教程。这个教程可以帮助用户快速使用OpenSTL构建自己的项目。详细信息请参考examples/目录中的。Colab链接。

2023-11-24 10:35:13 306

原创【Stable Fast 报错】ImportError: dynamic module does not define module export function (PyInit__C)

本来想着使用 stable-fast 来加速文生图，结果报了ImportError。报错的意思是：动态模块没有被定义和导出，我不清楚是否将这个文件复制到某处就可以？暂未解决，解决之后会更新。如若有人遇到相似问题，可评论区留言。当我在env中打开sfast的文件夹时，发现有。

2023-11-05 21:58:41 291 1

原创【Datawhale】扩散模型学习笔记第一次打卡

如果模型在高噪声水平下的预测不够理想，可以进行采样以生成更好的图像。你可以从完全随机的噪声图像开始，然后逐渐接近模型的预测。这意味着你可以检查模型的预测结果，然后只向预测的方向移动一小步，比如向预测值移动20%。在这个示范中，我们将构建一个简化版本的UNet，它接收单通道图像，并通过卷积层在下行路径（down_layers）和上行路径（up_layers）之间具有残差连接。我们使用均方误差（MSE）来比较模型的预测与真实值，然后使用反向传播算法来更新模型的参数。在模型训练过程中，模型的任务是将损坏的输入。

2023-10-20 21:40:04 377

原创解决报错：RuntimeError: “LayerNormKernelImpl“ not implemented for ‘Half‘

使用更高精度的数据类型：如果可能的话，尝试使用更高精度的数据类型，如’Float’（32位浮点数）或’Double’（64位浮点数）如果是在部署项目中遇到此error。例如在Stable-Diffusion-webui中，可以添加参数 --no-half。一般发生在模型推理过程中，由于精度导致的报错，一些硬件和框架对于半精度操作的支持可能有限，导致无法执行特定的操作。将模型迁移到GPU上进行。

2023-10-18 08:22:30 3657

原创【screen】screen命令使用小记

【代码】【screen】screen命令使用小记。

2023-10-17 22:12:39 223

原创模型部署踩坑(持续更新ing)

需要使用NVIDIA提供的benchmark tools进行profiling。可以使用nsys, nvprof, dlprof, Nsight这些工具。使用TensorRT得到推理引擎并实现infer只是优化的第一步。有的时候TensorRT并不会分配Tensor Core。TensorRT可以对模型做适当的优化，但是有上限。分析模型中多余的memory access在哪里。，因为FLOPs只是模型计算大小的单位。分析模型可进一步优化的地方在哪里。

2023-10-16 12:45:03 159

原创【算子融合】Conv+BatchNorm+Relu

本文以公式推导的形式，介绍了为啥Conv+BatchNorm+Relu会和单纯的Conv消耗的时间是一样的。实际上，Conv+BatchNorm+Relu也可以推导成Conv的形式。仅仅是这个简单的计算公式，可随意进行添加。

2023-10-13 09:59:30 541

原创解决TensorRT加速推理SDXL出现黑图问题

（半精度）：它使用更短的位数来表示浮点数，因此可以表示的数值范围相对较小，精度较低。在TensorRT进行编译的时候，会首先找到torch models，将torch models的vae_decoder的配置文件和权重修改为。在使用稳定扩散（Stable Diffusion）生成图片时，选择不同的数据类型可以影响生成的结果。（单精度）：它使用更多的位数，可以表示更广范围的数值并提供更高的精度。的数值范围和精度不足有关，导致计算过程中的数值溢出或不稳定性。时，数值稳定性更高，能够处理较大的数值范围。

2023-10-12 14:03:41 1283

原创【MVDiffusion】完美复刻场景，可多视图设计的生成式模型

对于目标图像分支，将一个由零值像素组成的黑色图像与一个由零组成的掩码连接在一起，然后使用相同的零卷积操作来降采样图像，使其与UNet块的特征图大小相匹配。这个过程的目的与条件图像分支类似，根据掩码的值来执行不同的生成任务，其中掩码为1时生成条件图像，为0时生成目标图像。在目标图像的UNet分支中，我们将一个由零值像素组成的黑色图像与一个由零组成的掩码连接在一起作为输入，因此需要修复模型基于文本条件和与条件图像的对应关系生成全新的图像。一样，它以两个连续的关键帧图像作为附加条件，生成中间的图像。

2023-10-07 22:48:55 715 6

原创【RealFill】一种新的用于图像补全的生成式模型

给定左边的参考图像，RealFill不仅能够去除目标图像中不希望看到的物体，忠实地揭示遮挡的内容(左列)，而且还能够在场景中插入对象，尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中，参考图像和目标图像之间的孔径也不同，RealFill不仅恢复了杯子后面的建筑物，而且保持了目标图像中看到的适当数量的模糊。RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置，而这些参考图像无须与目标图像对齐，甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。

2023-10-05 11:41:28 286

原创【Accelerate】accelerate-large-models （RuntimeError: Expected all tensors to be on the same device……）

此方法需要预先估计，每一层一定是在同一个设备上的。

2023-10-01 21:47:15 450

原创【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列（附代码讲解说明）

这样的好处在于对于同一张图片，根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征，同时对于两个不一样的图片，基于instruction内嵌的通用知识，可以使得模型有更好的知识迁移效果。Q-Former的文本输入，保证了Query提取到的特征更加的精炼。使用BLIP-2模型w/ViT-g和FlanT5XXL的指示零样本图像到文本生成的精选示例，其中显示了广泛的功能，包括视觉对话、视觉知识推理、视觉共感推理、故事讲述、个性化图像到文本的生成等。其他与BLIP2基本一样。

2023-10-01 15:19:08 2525 5

原创【图像评价指标】PSNR LPIPS LMD SSIM FID

LMD（Landmark Distance）是用于评估面部图像生成质量的指标，它用于度量生成的面部图像与真实面部图像之间的面部特征点的距离，以评估生成图像的面部特征的准确性。LMD通常用于人脸合成和生成任务中，以衡量生成的面部图像与真实面部图像之间的相似性。请注意，实际应用中，需要使用真实图像和生成图像的特征向量来进行计算，通常可以使用深度学习框架（如PyTorch或TensorFlow）中的预训练模型来提取这些特征向量。LPIPS模型的具体架构和参数是经过大规模训练得到的，用于捕捉图像的感知信息。

2023-09-28 09:05:34 1306 2

原创解决报错：CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemmStridedBatched( handle, opa, opb, m......

以指定特定路径，取消设置后，系统将不再搜索该路径中的共享库。确保您的系统仍然能够找到所需的共享库文件，否则可能会导致应用程序无法正常工作。环境变量的值删除，这意味着系统将使用默认的库搜索路径来查找共享库文件。用于指定共享库文件（例如动态链接库）的搜索路径。通过设置这个环境变量，您可以告诉系统在哪里查找共享库，以便在运行时加载它们。很多是由于nn.Linner层的 Tensor 尺寸匹配问题，打印下张量的维shape属性，显然我的尺寸也是符合乘法操作的。后，您的系统将使用默认的共享库搜索路径。

2023-09-26 14:10:28 2795 4

原创不能不知道的OS模块的那些常用函数（附内置变量）

以下是一个使用。

2023-07-23 13:18:53 211

原创 FFmpeg使用GPU加速

在执行下面的操作之前，确保以下情况：nvcc -V。

2023-07-13 09:53:33 2827 3

原创 Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map

第二个相机的投影矩阵 P2 是通过将内参矩阵 K2 与一个 3x4 的矩阵相乘得出的，这个 3x4 的矩阵的前三列是旋转矩阵 R，第四列是平移向量 t。第一个相机的投影矩阵 P1 是通过将内参矩阵 K1 与一个 3x4 的矩阵相乘得出的，这个 3x4 的矩阵的前三列是单位矩阵，第四列是零向量。基础矩阵是一个 3x3 的矩阵，用于将图像1中的点映射到图像2中的极线。因此，第一个相机和第二个相机的坐标系通常是不同的，因为它们位于不同的位置、方向和距离上，因此需要使用不同的相机矩阵来表示它们的投影矩阵。

2023-06-15 10:36:08 1069

原创【FFmpeg】一篇文章快速上手 FFmpeg

将最后一个图像的叠加输出流（stream${IMAGE_COUNT}overlaid）与之前所有连接过渡帧的输出流连接起来，用于拼接所有的视频片段。在这个脚本中，-filter_complex 参数后面的内容将用于定义一系列的滤镜操作，包括图像的缩放、裁剪、设置帧率等。循环遍历了每个图像的模糊图像和缩放后的图像，并使用 overlay 过滤器将它们叠加在一起。通过这个循环，为每对相邻的图像创建了连接它们的输入流，用于拼接它们之间的视频片段。在这一部分，对预处理的模糊图像和缩放后的图像进行叠加操作。

2023-06-05 10:06:38 1172

原创【Stable Diffusion WebUI】一篇文章教你如何安装和使用Stable Diffusion WebUI

如果你发现你pip install 安装成功了，但是仍旧卡住，这是因为安装的第三方库和。将一张图片拖过来，右边自动生成 Tag 标签，可帮助我们进行prompt的编写。其实，安装 stable-diffusion-webui 时，会自动创建一个。文件夹，运行stable-diffusion-webui 时所运行的环境就是。，一直重复上述过程，直到bash webui.sh运行结束。将一张图片拖过来，右边自动生成图片的信息，然后点击。的版本不一样导致的，需需要将版本号全部删除掉。，第二次卡住一般是在。

2023-05-21 13:59:39 2304

原创【AIGC】深入理解 LORA模型

LORA模型是一种神经网络模型，它通过学习可以自动调整神经网络中各层之间的权重，以提高模型的性能。本文将深入探讨LORA模型的原理、应用场景、优缺点等方面。

2023-05-08 10:18:46 16890 3

原创【DarkLabel】使用教程（标注MOT数据集）

Open video第 2 处的内容为数据集类型。例如：VOC、COCO、MOT、YOLO等。第 3 处的内容为标签名称。可在中修改。第 4 处的内容为两种跟踪方法可选：插值法，每次一个目标。首先在第一帧点击Begin Interpolation，然后画目标bbox，按↓键往后几十帧，在找到该目标画出bbox，点击End Interpolation，然后就可以看到中间帧该目标都被圈住了，效果挺好的。

2023-05-02 17:28:09 3601 4

原创【Segment Anything】CV的大模型Segment Anything也来了，强人工智能的时代究竟还有多远？

我自己上传了一张图片，结果还是挺好的（我上传的图片比较简单）。由于自己的3090显存有限，无法使用。论文解读后续更新……

2023-04-06 20:11:06 2736 5

原创【DataSet合集】人工智能数据集

https://blog.csdn.net/qq_44824148/article/details/129843482?https://blog.csdn.net/qq_44824148/article/details/129859462https://blog.csdn.net/qq_44824148/article/details/129859693https://blog.csdn.net/qq_44824148/article/details/129859743https://blog.csdn.n

2023-03-30 16:29:33 288

原创【DataSet】遥感图像方面的人工智能数据集

遥感图像方面的人工智能数据集数据集类别常用数据集目标检测数据集DSTL 卫星图像数据集;RSOD-Dataset 数据集;NWPUVHR-10地理遥感数据集图像分割数据集Inria AerialImage Labeling Dataset 遥感图像数据集遥感图像分类数据集UCMerced Land-Use Data Set 土地遥感数据集

2023-03-30 16:19:40 279

原创【DataSet】医疗行业方面的人工智能数据集

医疗行业方面的人工智能数据集数据集类别常用数据集目标检测数据集通用病变体数据集图像分割数据集CGA-LUAD 肺癌 CT 图像数据:TCGA-ESCA 癌症CT数据集TCGA-CESC 癌症 CT 数据集;Cardiac MRI心房数据集;SumnybroolCardiac 心脏MR左心室数据集图像配准数据集FIRE视网膜眼底数据集

2023-03-30 16:19:08 458

原创【DataSet】自然场景方面的人工智能数据集

自然场景方面的人工智能数据集数据集类别常用数据集图像分类数据集ImageNet 数据集 ;CIFAR-10 数据集 ;CIFAR-100 数据集 ; Catech-101数据集:Caltech-256数据集;STL-10 数据集;Corel5k 数据集图像分割数据集COCO数据集;VOC2012 数据集;SUN 数据集;SBD 语分割数据集BSDS500数据集目标检测数据集Fire Detection 火焰检测数据集;COCO数据集;VOC2012 数据集超分辨

2023-03-30 16:16:57 172

原创【DataSet】常用的自然语言处理方面的人工智能数据集

常用的自然语言处理方面的人工智能数据集数据集类别常用数据集文本分类数据集今日头条中文新闻(短文本)分类数据集;清华新闻分类语料数据集dmsc_v2数据集;ChnSentiCorp htl all 数据集字体识别数据集boson 数据集;MSRA微软亚洲研究数据集;SIGHAN Bakeoff 2005数据集搜索匹配数据集query-title 语义匹配数据集;SogouE 数据集;ez douban 数据集;yfdianping数据集推荐系统数据集MovieL

2023-03-30 16:02:10 157

原创【DataSet】常用的语音方面的人工智能数据集

常用的语音方面的人工智能数据集数据集类别常用数据集多种语言语音数据集Mozilla Common Voice 数据集;Tatoeba 数据集英文语音数据集VOiCES Dataset 数据集 ;LibriSpeech 数据集;2000 HUB5 English 数据集;VoxForge 数据集;VoxCeleb 数据集;TIMIT 数据集;CHIME数据集;TED-LIUM 数据集;Google AudioSet 数据集;CCPE 数据集;FreSTAmerican Engl

2023-03-30 15:59:27 174

原创【DataSet】人脸方面的人工智能数据集

人脸方面的人工智能数据集数据集类别常用数据集人脸检测数据集MS-Celeb-IM数据集;FDDB 数据集 ;Wider-Face 人脸检测数据集BioID-Face 人脸数据集;300 Face in Wild 人脸检测数据集;Caltech10k Web Faces人脸数据集;CMU Frontal Face人脸数据集;AFW数据集MALF 数据集;CelebA 数据集;AFLW 数据集;UMDFaces Dataset数据集人脸识别数据集LFW数据集;Casia-webf

2023-03-30 15:58:17 137

原创【DataSet】人体方面的人工智能数据集

常用的人体方面的人工智能数据集数据集类别常用数据集人体检测数据集PETS数据集;INRIA Person 行人数据集;UCF Sport Action运动数据集;UCSDPedestrian行人视频数据集;Tsinghua-Daimler Cyclist 数据集;KMUSPC红外行人检测数据集姿态识别数据集FLIC影视人体检测数据集;Human Pose Evaluator 人体轮廓识别图像数据集;Bufy Stickmen V3 人体数据集;SBU Kinect Inter

2023-03-30 15:49:24 428 1