funNLPer-CSDN博客

原创多模态视觉语言模型：BLIP和BLIP2

（Image-Text Contrastive Loss）：针对图像编码器和文本编码器，通过正负图文对的对比学习，来对齐图像和文本的潜在特征空间（Image-Text Matching Loss）：针对以图像为基础的文本编码器，通过对图文匹配性进行二分类，建模图文多模态信息的相关性（Language Modeling Loss ）：针对以图像为基础的文本解码器，通过交叉熵损失进行优化，训练模型以自回归的方式生成目标caption。

2024-04-20 23:54:58 1140

原创算法工程师非数据结构手撕代码题

【代码】算法工程师非数据结构手撕代码题。

2024-04-20 18:14:18 272

原创双向最大匹配算法

假定分词词典中最长词有M个汉字符，则被处理文档的当前字符串中前M个字作为匹配字段，查找词典。若字典中存在这样M个字组成的词，则匹配成功，匹配字段作为一个词切分出来；若匹配不成功，将匹配字段最后一个字去掉，剩下的字符串重新进行匹配，如此进行下去，直至匹配成功。然后取下一个M字符进行匹配处理，直到文档被扫描完为止。

2024-03-27 22:49:05 252

原创算法工程师2020校招面试

在深度神经网络训练的过程中，通常以输入网络的每一个mini-batch进行训练，这样每个batch具有不同的分布，使模型训练起来特别困难；在训练的过程中，激活函数会改变各层数据的分布，随着网络的加深，这种改变（差异）会越来越大，使模型训练起来特别困难，收敛速度很慢，会出现梯度消失的问题。

2024-03-27 22:38:37 1242

原创算法工程师2021年社招面试

两者最大的不同就是TensorFlow的计算图是静态的，而PyTorch使用动态的计算图；在TensorFlow中，我们定义计算图一次，然后重复执行这个相同的图，可能会提供不同的输入数据。函数来完成: torch.bernoulli 函数是从伯努利分布中根据input的概率抽取二元随机数(0或者1)，输出与input相同大小的张量, 输出的张量的值只有0和1.一个由0，1组成的矩阵，随机给定一个start的坐标(x，y)，求从start开始便利万矩阵中所有1所经过的最短路径。

2024-03-27 22:33:24 811

原创 ViT: transformer在图像领域的应用

ViT：transformer在图像中的应用

2024-02-17 21:13:48 934

原创文生图可控生成之T2I-adapter原理

t2i adapter原理

2024-02-05 23:25:24 1063

原创训练模型过程中优雅的指定GPU

目前训练模型大部分在单机多卡的环境下，我们通常会指定一个GPU来训练模型。在不指定GPU情况下，默认使用GPU0来训练，但是很不巧GPU0被别人占了一半显存，导致OOM错误。每次跑模型都要去看下哪张卡显存最大，然后再来修改代码，指定GPU，是不是超级烦人呢!😶‍🌫️，今天就介绍一个每次都由程序自动选择剩余最大的显存的GPU来训练。

2024-02-03 23:07:28 1098

原创优雅的从ＨuggingFace下载模型

以下都以下载bloom模型为例这种方式下载会显示下载的进度及网速，因此一般推荐使用这种方式下载。如果直接使用方式来下载，不会显示任何下载信息。

2024-02-03 21:58:02 967

原创使用StableDiffusion进行图片Inpainting原理

stable diffusion inpainting

2023-12-22 23:48:09 1326

原创一文打通RLHF的来龙去脉

强化学习、RLHF、PPO、chatGPT、文生图、微调

2023-12-17 12:12:32 124

原创强化学习微调文生图模型DPOK：Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

DPOK

2023-12-09 22:38:45 217

原创强化学习在文生图中的应用DDPO：Training Diffusion Models with Reinforcement Learning

强化学习在文生图中的应用，RLHF、reinforment learning、stable diffusion、text2image

2023-11-18 21:36:26 327

原创文生图模型测评之HPS v2

文生图模型测评 HPS

2023-11-12 16:29:23 219

原创文生图模型评测之PickScore

PickScore

2023-11-09 21:40:32 394

原创 python web开发(四): Bootstrap

别人已经写好的CSS样式，我们可以直接引用下载解压，并放入到当前项目中引用</</</</效果如下。

2023-10-19 01:12:46 433

原创 DALL·E 3：大语言模型和文本生图模型的强强联合

文生图模型DALLE3

2023-09-24 00:46:33 1545

原创大模型训练显存优化推理加速方案

当前的深度学习框架大都采用的都是fp32来进行权重参数的存储，比如Python float的类型为双精度浮点数fp64，pytorch Tensor的默认类型为单精度浮点数fp32。随着模型越来越大，加速训练模型的需求就产生了。在深度学习模型中使用fp32主要存在几个问题，第一模型尺寸大，训练的时候对显卡的显存要求高；第二模型训练速度慢；第三模型推理速度慢。其解决方案就是使用低精度计算对模型进行优化。本文主要讲解几种优化显存存储的方法。

2023-09-22 22:43:28 1182

原创详解GPU显存和batch size的关系

GPU显存、规格指标；神经网络训练，显存占用

2023-09-15 23:45:18 2164

原创像素空间文生图之Imagen原理详解

像素空间文生图imagen原理

2023-09-09 10:37:41 273

原创可控生成之GLIGEN原理

GLIGEN: Open-Set Grounded Text-to-Image Generation 论文阅读

2023-09-03 00:10:03 466

原创可控生成之ControlNet原理

可控生成，stable diffusion, controlnet,文生图

2023-08-31 23:57:31 508

原创通俗理解DDPM到Stable Diffusion原理

Stable diffusion原理详解

2023-08-27 21:55:36 1458 1

原创 Stable Diffusion XL(SDXL)原理详解

通过各种实验验证，SDXL已经超越了先前发布的各种版本的Stable Diffusion，并且与当前未开源的文生图SOTA模型（如midjorney）具有不相上下的效果。本文将介绍SDXL相比于之前的SD（SD1.5， SD2.0等）改进之处。本文主要根据技术报告来讲解SDXL的原理，在下一篇文章中我们会通过源码解读来进一步理解SDXL的改进点。

2023-08-17 21:00:59 1434

原创人脸检测Retinaface算法原理详解

Retina Face主要使用了WIDER FACE数据集，该数据集包含32203个图像和393703个人脸框，图像的尺度，姿态，表情，遮挡和光照变化都很大。WIDER FACE数据集被分为训练40% 验证10% 和测试50%三个子集，通过在61个场景分类中随机采样。基于EdgeBox的检测率，然后通过递增合并难样本，整个数据集分为分为3级：容易，中性和困难。此外RetinaFace团队还进行了额外标注：依据人脸关键点标注困难程度定义的5个人脸质量级别，并且标注5个关键点（眼睛中心2，鼻尖1，嘴角2）

2023-08-09 23:32:47 306

原创 SSD目标检测原理详解

当前主流的目标算法主要分为两个类型：（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN）产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；

2023-08-06 14:39:38 326

原创定制化diffusion微调: DreamBooth原理

论文：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation项目：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation1. 任务简介当前的文生图模型已经可以根据给定的prompt生成高质量的图片。然后这些模型并不能模仿给定参考图片中物体的样子在不同情景中来生成新颖的图片（即参

2023-07-28 00:32:58 412

原创【torch】HuggingFace的datasets库中load_dataset方法使用

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。比如训练ControlNet时，输入有原始图片，边缘图，以及prompt，这时候我们就需要通过在图片所在的目录下写一个python脚本来处理数据加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个。

2023-07-26 00:41:03 16703 7

原创快速搭建机器学习demo: gradio教程

gradio是一个能够快速建立机器学习demo web应用的工具，仅需简单的几行代码就能构建机器学习模型的可视化交互demo，并分享给你的朋友使用。与gradio相同功能的竞品有Streamlit，相比Gradio，Streamlit相对复杂，完全熟练使用需要一定时间。

2023-07-19 01:11:24 636

原创从VAE到Diffusion生成模型详解(3)：普通GAN的改进及变种

生成对抗网络详解

2023-07-17 00:41:57 343 1

原创从VAE到Diffusion生成模型详解(2)：生成对抗网络GAN

问题: 希望从训练样本分布中采样新数据，但这个分布不仅维度高而且还很复杂，难以直接实现。因此想到一个相对简单的方法：对一个简单的分布采样，比如均匀分布；然后，学习一种映射将其变换到训练样本分布。而这种映射的实现就是通过神经网络。

2023-07-15 15:57:21 214

原创从VAE到Diffusion生成模型详解(1)：变分自编码器VAE

什么是生成式模型给定训练集，产生与训练集同分布的新样本。如下图所示，希望学习到一个模型pmodelxpmodelx，它与训练样本的分布pdataxpdatax相近从下图可以更形象的解释，假设除了问号以外的都是真实数据，模型学习到的分布为整个椭圆以内的区域，那么从椭圆内采样任意一点（如问号）都可以生成一张对应的图片。注意其他图案对应的是真实数据，但是真实数据有限，因此通过学习一个分布就能通过采样生成无限张图片。

2023-07-13 01:27:41 533

原创计算机视觉-语义分割: FCN DeepLab Unet

从像素水平上理解、识别图片内容，根据语义信息分割。如下图所示，输入为一张图片，输出像素水平的分割标记，每个像素会被识别为一个类别。

2023-06-17 17:35:06 1395

原创计算机视觉-目标检测（二）：从R-FCN到YOLO-v3

YOLO将物体检测任务当作一个回归问题来处理，通过YOLO，每张图像只需看一眼就能得出图像中都有哪些物体和这些物体的位置。将图像resize到448*448作为神经网络的输入，使用神经网络直接来预测BBOX的坐标、BOX中包含物体的置信度和物体的可能性，然后进行非极大值一直筛选BOXESYOLO最多可以检测9000个类别其基本结构如下所示。

2023-06-17 00:32:15 1060

原创计算机视觉-目标检测（一）：从 R-CNN 到 Faster R-CNN

从SPP-Net到Fast R-CNN是一个巨大的进步，从分别训练分类器和回归器的多任务，到分类器回归器合二为一一起训练R-CNN 和 SPP-Net对比SPP-Net和Fast R-CNN对比Fast R-CNN 和 Faster R-CNN 对比。

2023-06-11 00:41:13 1512

原创【论文阅读】AlexNet: ImageNet Classification with Deep Convolutional Neural Networks

AlexNet是一个用于图像识别的卷积神经网络，其应用在ILSVRC比赛中，AlexNet所用的数据集是ImageNet，总共识别1000个类别。

2023-06-07 00:24:54 404

原创 python web开发(三): CSS样式

如下代码，其中style参数就可看成CSS，主要作用是修改对象的样式，使得网页更加美观styleheight100pxstylecolorred

2023-06-02 00:45:42 1177

原创 python web开发(二)：HTML标签语言

如下展示了一段简单的HTML模板，标签中主要包含一些基本配置，如编码方式，标题等，注意标题的作用如下图所示

2023-05-11 00:17:08 1312 1

原创 python正则表达式

术语介绍模式正向向后查找正向向前查找负向向后查找负向向前查找正向和负向指的分别是出现则匹配和不出现则匹配。

2023-05-05 23:53:49 426

原创【论文阅读】Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

作者使用喜好建模和基于人工反馈的强化学习去微调语言模型，使其像助力一样有帮助的和无害的。作者发现这种对齐式的训练几乎能够提高所有NLP任务上的表现，并且完全能够兼容一些特殊任务，如使用python编码，文本摘要等。我们使用了一种迭代式的在线模型训练方式，每周都会用新的人工反馈数据来更新奖励模型和强化学习策略（个人理解：人工标注–>训练一个模型–>产生新数据–>基于产生的数据人工标注–>新数据再训练模型…如此迭代下去），这非常有效的改善了我们的数据集和模型。

2023-05-05 22:11:57 409 2

insightface模型，包括人脸检测识别和对齐三个模型

2023-07-20

FaceVid2Vid预训练模型-PARTB

该模型文件是 FaceVid2Vid模型的预训练好的模型 * 论文地址：One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing * 代码地址：https://github.com/zhanglonghao1992/One-Shot_Free-View_Neural_Talking_Head_Synthesis * 原始模型下载地址：[model: Vox-256-New train set:VoxCeleb-v1](https://www.mediafire.com/folder/fcvtkn21j57bb/ * 使用方式：（1）下载parta, partb, partc三部分文件（2）合并文件并解压：cat 00000189-checkpoint.pth.tar.parta* | tar -xv

2023-07-20

FaceVid2Vid预训练模型-PARTA

2023-07-20

fast rcnn from caffe attr

2022-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人