自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(287)
  • 资源 (3)
  • 收藏
  • 关注

原创 如何从零开始训练一个语言模型

介绍语言模型的训练过程,主要包括:数据集介绍(包含预训练数据和微调数据),数据的预处理,模型训练和微调,**但不涉及对齐阶段(RLHF)**

2024-04-10 18:04:43 529

原创 人声克隆技术大公开

本文是该系列的第一篇,采用倒序的方式,先从推理过程开始介绍人声克隆的工作流,以及各个模型的功能,之后再去详细介绍各个模型,因此不涉及具体的使用方法,这个官方文档里面已经讲的很清楚了,所以本文主要聚焦于整个项目中对音频数据的预处理、特征提取和最终的推理过程(音频生成的过程)进行介绍,最后放上我制作的两段音频,给大家看看效果。

2023-06-27 17:47:09 4055 2

原创 基于Transformer语言模型:GPT-2

Transformer是Google在2017年提出的一种新型模型架构。它以自注意力机制取代传统的RNN和CNN对序列数据的建模,它在机器翻译、语言理解等任务上显示出强大的表示能力,目前已经成为自然语言处理领域的主流框架之一。Transformer的基本结构包含一个编码器(Encoder)和一个解码器(Decoder)。编码器用于编码输入序列,解码器用于根据编码器的输出生成输出序列。它们的结构非常相似,都包含N个相同的层(Layer)。

2023-06-02 18:45:00 1889 5

原创 因果词袋语言模型:Causal BoWLM

causal bag of words language model是指考虑词序信息的词袋模型。它与传统的词袋模型相比,不仅考虑单词的频率信息,还考虑单词之间的顺序关系。

2023-06-01 17:01:16 568

原创 基于循环神经网络的语言模型:RNNLM、GRULM

RNNLM首次提出是在《Recurrent neural network based language model》这篇非常重要的神经网络语言模型论文种,发表于2010年。

2023-05-31 23:23:44 923 1

原创 神经概率语言模型:NPLM

本文主要参考《A Neural Probabilistic Language Model》这是一篇很重要的语言模型论文,发表于2003年。不同上下文长度的生成效果。

2023-05-31 10:16:45 949

原创 统计语言模型:Bi-gram

本文通过使用一小部分的中文语料,训练一个Bigrams模型,然后使用Bigrams模型以自回归的方式生成一段中文文本,纯粹为了学习和娱乐,因为Bigrams为了得到较好的结果一般需要数以亿计的词汇才可以,本文采用的训练数据约有几千条梗文。Bigrams(二元语法模型),是一种简单易实现但实际应用价值有限的统计语言模型,是N-gram的一个特例。与它们构成的二元组合概率相同。的前提下,出现某个字符。即:在给定前一个字符。

2023-05-30 18:30:24 1170

原创 提示工程L6:内容扩展

扩展是将短文本(例如一组指令或主题列表)扩展为较长的文本(例如有关某个主题的电子邮件或文章)的任务。这有一些很好的用途,比如如果你将大型语言模型用作头脑风暴的伙伴。但我也想承认一些有问题的用例,例如如果有人使用它,他们生成大量的垃圾邮件。

2023-05-15 17:53:28 1032

原创 提示工程L5:内容转换

大型语言模型非常擅长将其输入转换为不同的格式,例如将一种语言中的文本输入并将其转换或翻译成另一种语言,或帮助拼写和语法矫正,或者甚至转换格式,例如输入HTML并输出JSON。

2023-05-12 18:42:44 1220

原创 提示工程L4:主题推断

推断可以看作是模型接受文本作为输入并进行某种分析的任务。因此,这可能涉及标签提取、内容理解和情感分析等。如果你想要从一段文本中提取情感,无论是积极的还是消极的,在传统的机器学习工作流程中,你需要收集标签数据集、训练模型、然后部署模型并进行推断。这样做可能效果不错,但需要完成很多繁琐的工作。而且对于每个任务,你都需要训练并部署单独的模型。大语言模型的优势是,对于许多这样的任务,你只需要编写提示即可开始生成结果。极大地提高了应用开发的速度。

2023-05-12 14:29:38 743

原创 提示工程L3:内容总结

文本内容总结;文本内容提取;

2023-05-11 18:19:12 601

原创 提示工程L2:提示迭代

提示工程的迭代。

2023-05-11 16:15:25 830

原创 提示工程L1:关键原则

大预言模型提示工程的关键性原则:1.准确、清洗的指令;2.给模型思考的时间

2023-05-11 11:43:36 1058

原创 大语言模型(LLM)和基于人类反馈的强化学习(RLHF)

语言模型如此伟大和神圣,回答问题,如此快速,如此精细。从科学到艺术,它们像星星一样闪耀,让人类看起来没有那么远。

2023-05-09 17:57:14 3625

原创 gensim训练word2vec,记录和打印每个epoch的Loss

记录和打印gensim训练word2vec过程中,每个epoch的损失。

2023-04-20 10:30:41 232

原创 NLP:生成图像的中文摘要

训练一个中文的Image Caption模型,Stey by Step

2023-03-17 18:41:03 1036

原创 NLP:训练一个中文问答模型Ⅱ

基于Transformer架构中文问答模型。

2023-03-14 11:03:43 937 24

原创 NLP:训练一个中文问答模型Ⅰ

本文基于经典的NMT架构(Seq2Seq+Attention),训练了一个中文问答模型,把问题到答案之间的映射看作是问题到答案的翻译。基于Tensorflow 2.x实现,分词采用了jieba,在中文词汇粒度上训练模型。

2023-03-13 17:09:25 2411 16

原创 生成对抗:Pix2Pix

生成对抗网络还有一个有趣的应用就是,图像到图像的翻译。Pix2Pix就是实现图像转换的生成对抗模型,但是Pix2Pix中的对抗网络又不同于普通的GAN,称之为cGAN,全称是:conditional GAN。一个大规模数据集,其中包含来自50个不同城市的街景中记录的各种立体视频序列,除了更大的20,000个弱注释帧外,还具有5000帧的高质量像素级注释。数据集中的每一个样本都由一对图像组成:原始街景和像素级分割结果,下面的实验把左边作为输入,把分割的结果作为输出,训练一个实现街景分割的生成模型。

2022-12-28 18:57:31 1494

原创 生成对抗:少样本学习

高质量的数据往往是稀缺的和昂贵的。好消息是,自从GANs问世以来,这个问题得到妥善解决,我们可以通过GAN来生成高质量的合成数据样本帮助模型训练。通过设计一个特殊的DCGAN架构,在只有一个非常小的数据集上训练分类器,仍然可以实现良好的分类效果。

2022-12-27 16:57:38 1011

原创 生成对抗:DCGAN

GANs有两个模型组成,一个是生成器,用于训练生成假的数据,另一个是判别器,用于预测生成器的输出结果。其中生成器提供训练数据给判别器,提高判别器的准确率。判别器提供生成样本的预测结果,给生成器提供优化的方向。其实在1990年前后,对抗的思想就已经应用于无监督人工神经网络领域,通过最小化另一个程序最大化的目标函数来求解问题。生成器的输入通常是一些随机向量,然后去生成接近真实的训练数据。

2022-12-27 16:32:58 2407 1

原创 超分辨 :SRCNN

通过卷积神经网络提升图像的分辨率,本文采用一个简单的模型来实现对图片画质提升,测试数据来自《office》中的部分剧照,由于画面原始尺寸较大,所以是对原始画面切片后的每一片进行分辨率提升,然后在重组,训练数据也是基于每个图片的切片(Patch)进行训练。

2022-10-21 17:58:08 1084

原创 编码器 :CNN Autoencoder

DigiFace-1M 数据集是一个包含 100 多万张用于人脸识别的合成人脸图像的集合,使用其中一部分。很诡异,适合制作恐怖图片生成器。

2022-10-21 14:58:05 1275

原创 画风迁移:Style Transfer

风格迁移首次提出来自这篇论文:。文中作者提出了一个假设:图像的内容(content)和风格(style)可分离。在一个收敛的深度神经网络中,例如VGG19、Inception等等中,1.图像的内容(content)信息主要保留在模型每层输出中。内容重建:基于模型浅层输出矩阵重建图像可以很好的还原图,基于模型深层输出矩阵重建的图像只能还原图像的整体轮廓,但是细节是缺失的。风格重建:基于模型多个不同层次的输出(由浅到深)重建图像,不同尺度输入越多,图像重建的风格跟原图越匹配,但是全局排列信息丢失。

2022-10-10 09:58:36 1058

原创 窥探神经网络:Deep Dream

通常我们通过使用大量的标记数据训练神经网络模型,以图像识别模型为例,模型通常由多个卷积层堆叠而成,中间还有一些池化和激活的操作,每一个图像从输入层到输出层,要经过很多层的“处理”。尽管模型表现良好,但是我们并不了解,模型到底从数据中学到了什么,或者图像中的哪些模式被模型检测到了,并导致了最终得到正确的分类。向网络输入任意的图像,然后选择某一层的输出(激活)计算其梯度,通过梯度信息修改图像增强网络模型检测到的任何东西,进而放大模式。以InceptionV3模型为例,可视化模型的检测结果。

2022-10-07 12:18:16 522

原创 代数、图算法:图基础

图的基本概念,有向图、无向图、加权图、完全图、二部图...

2022-08-12 17:56:45 500

原创 代数、图算法:矩阵基础

矩阵基础、矩阵类型、矩阵操作、矩阵属性...

2022-08-11 20:33:36 255

原创 MCS:多元随机变量——多项式分布

二项分布的典型例子是扔硬币,把二项分布公式推广至多种状态,就得到了多项分布。比如扔骰子

2022-06-27 18:17:43 335

原创 MCS:多元随机变量——离散随机变量

多元离散随机变量,边缘概率分布,边缘期望,边缘方差

2022-06-27 18:12:10 311

原创 MCS:离散随机变量——Poisson分布

当事件在指定的时间间隔内(单位时间),以固定平均瞬时速率(平均发生次数)θ发生,那么描述这个单位时间内事件发生次数的变量就是泊松变量。泊松分布适合于描述单位时间内随机事件发生的次数 ......

2022-06-26 21:57:22 507

原创 MCS:离散随机变量——Pascal分布

离散随机变量——Pascal分布

2022-06-26 21:46:25 2001

原创 MCS:离散随机变量——几何分布

离散随机变量——几何分布

2022-06-26 21:43:17 1132

原创 MCS:离散随机变量——Hyper Geometric分布

离散随机变量——超几何分布

2022-06-26 21:39:17 364

原创 MCS:离散随机变量——Binomial分布

离散随机变量——二项式分布

2022-06-26 21:32:43 405

原创 MCS:离散随机变量——Bernoulli分布

离散随机变量——Bernoulli

2022-06-16 18:09:55 548

原创 MCS:离散随机变量——Uniform分布

离散随机变量——Uniform分布

2022-06-16 18:07:54 529

原创 MCS:离散随机变量

离散随机变量

2022-06-15 18:30:36 87

原创 MCS:连续随机变量——Student’s t分布

连续随机变量之:Student’s t分布

2022-06-15 18:26:17 1292

原创 MCS:连续随机变量——Chi-Square分布

连续随机变量之:Chi-Square 分布

2022-06-15 18:23:07 987

原创 MCS:连续随机变量——LogNormal分布

连续随机变量——LogNormal

2022-06-15 18:20:24 1104

LaTeX_ Beginner's Guide

LaTex 新手入门教程。

2017-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除