鹏晓星-CSDN博客

原创人工智能 LLM LangChain的一些小例子

os . environ [ "OPENAI_API_KEY" ] = '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' # 导入文本 loader = UnstructuredFileLoader("abc.txt") # 将文本转成 Document 对象 document = loader . load() print(f'documents: {

2023-06-06 17:32:26 635

原创人工智能 LLM langchain初步了解简记

所以，不管我们是使用 openai api embedding 功能还是直接通过向量数据库直接查询，都需要将我们的加载进来的数据 Document 进行向量化，才能进行向量运算搜索。转换成向量也很简单，只需要我们把数据存储到对应的向量数据库中即可完成向量的转换。不用进行训练，并且可以实时添加新的内容，而不用加一次新的内容就训练一次，并且各方面成本要比 fine-tuning 低很多。Youtube YoutubeLoader 等等，上面只是简单的进行列举了几个，官方提供了超级的多的加载器供你使用。

2023-06-06 16:37:54 671

原创人工智能 AI项目 ROUGE评估算法简记

优点: 不要求词的连续匹配, 只要求按词的出现顺序匹配即可, 能够像n-gram一样反应句子级别的词序. 自动匹配最长公共子序列, 不需要预定义n-gram的长度超参数.将模型生成的自动摘要和人工摘要做对比, 通过统计两者之间重叠的基本单元的数量, 来评价模型摘要的表现.缺点: 只计算一个最长子序列, 最终的值忽略了其他备选的最长子序列及较短子序列的特征和影响.分子LCS(C, S1) = 5 (a cat on the table),缺点: 区分度不高, 且当N > 3时, ROUGE-N值通常很小.

2023-06-06 16:09:10 658

原创人工智能 AI项目模型硬件优化简记

量化网络意味着将其转换为使用权重和/或激活的精度降低的整数表示。这节省了模型大小，并允许在CPU或GPU上使用更高吞吐量的数学运算。增加map_location。

2023-05-07 22:31:48 84

原创人工智能 AI项目 collate_fn函数理解与记录

重写collate-fn函数就是手动将抽取出的样本进行自定义堆叠处理，返回自定义格式。

2023-04-30 23:02:54 564

原创人工智能 AI项目 Supervisord配置与使用总结

Supervisor是用Python开发的一个client/server服务，是Linux/Unix系统下的一个进程管理工具。它可以很方便的监听、启动、停止、重启一个或多个进程，并守护这些进程。

2023-04-23 19:57:18 513

原创人工智能 AI项目前向概率计算笔记

第一个时刻，i代表不同的状态，pi表示初始概率，b为发射概率，如：从5个盒子中抽球，第一个抽到红球，i对应的就是1，b为红球在第一个盒子中被抽出来的概率（发射概率）第二个时刻则是前一个时刻求出的5个数据，每个数据乘转移概率和再乘当前时刻的发射概率。a(t)j表示上个时刻求出的5个值，aji表示从j状态转移到i状态的概率。结果是5个数据，第i数据表示第1个时刻从第i球中抽出红球的概率。概率求和（算出的5个状态分别对应的值进行求和）随机从4个盒子中抽出5个球，求该序列的概率。的概率为前向概率，记作。

2023-04-16 23:26:10 342

原创人工智能 AI项目统计语言模型之HMM初步学习总结

马尔可夫假设，每个事件发生的概率只取决于前一个事件，将满足该假设的连续多个事件串联在一起，就构成马尔可夫链。问题：以一本书多几本书作为训练集，书中大部分句子不同，所以概率相等，而实际使用模型时，传入的句子在训练集中没有，则会概率为0。由于句子都是由单词构成的，句子没有重复的，但是单词却是不断重复使用的。第一行表示由第一个盒子转移到第一个盒子抽的概率为0，第二个盒子的概率为1，第三个盒子的概率为0，第四个盒子的概率为0。4行分别代表4个盒子，第一列则是从盒子中抽红球的概率，第二行表示抽白球的概率。

2023-04-10 00:02:17 414 1

原创人工智能 AI项目 python中Cypher使用

Cypher是neo4j图数据的查询语言, 类似于mysql数据库的sql语句, 但是它允许对图形进行富有表现力和有效的查询和更新。心得：cypher在有SQL基础的情况下，上手还是比较轻松的，多练即可熟记。学过数据库，SQL的话不难理解，简单说就是满足ACID的操作。结果（未报错，运行正常）result:王阳明。

2023-04-03 00:16:33 250

原创人工智能自然语言处理 BERT、GPT、ELMO对比学习简记

ELMo根据上下文动态调整word embedding, 可以解决多义词的问题.GPT使用了Transformer提取特征, 使得模型能力大幅提升.第三种方式就是前后分别保留一部分token, 总数是510.BERT预训练模型所接收的最大sequence长度是512。GPT只使用了单向Decoder, 无法融合未来的信息.第一种方式就是只保留前面510个token.第二种方式就是只保留后面510个token.bert + 迁移学习简单练习代码。

2023-03-27 00:02:10 876

原创【博学谷学习记录】超强总结，用心分享丨人工智能自然语言处理迁移学习部分笔记

微调脚本(Fine-tuning script)预训练模型(Pretrained model)保持较高精度的情况下, 快速的进行训练和预测。心得：已经了解些基本概念，还需要实践加深印象。微调(Fine-tuning)

2023-03-19 18:36:09 241

原创人工智能自然语言处理 Transformer模型初识

因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.相比于编码器部分，每层增加一个子层：多头自注意力子层和规范化层以及一个残差连接。第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。每个编码器层由两个子层连接结构组成。Nx：由N个编码器层堆叠而成。

2023-03-12 22:12:09 178

原创人工智能自然语言处理文本特征处理小结

如[“我”,“爱”,“你”] 对应向量[1, 23, 45] ,我爱两个字共现且相邻（bi-gram特），用1000表示这种关系，则包含2-gram特征的向量为[1,23,45,1000]给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.一般模型的输入需要等尺寸大小的矩阵, 因此在进入模型前需要对每条文本数值映射后的长度进行规范。以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范.

2023-03-05 18:29:24 524

原创人工智能深度学习神经网络基础知识点总结

1.当输入 6 时，sigmoid 激活函数图像的导数接近为 0，此时网络参数将更新极其缓慢，或者无法更新。Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。Dropout 层的使用，减一部分梯度归0，达到无法更新参数的目的，用于控制网络复杂度，以此达到正则化的目的。数据在经过 BN 层之后，无论数据以前的分布是什么，都会被归一化成均值为 β，标准差为λ 的分布。简单的神经网络包括三层：输入层，隐藏层，输出层。

2023-03-01 17:24:54 346

原创人工智能机器学习集成学习错题总结

学习过程是：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；训练一个元模型(meta-model)来将各个组件模型的输出结果进行结合，具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集；分别采用全部的训练样本来训练n个组件模型，要求这些个体学习器必须异构的，比如可以分别是线性学习器，SVM，决策树模型和深度学习模型。bagging：降低方差；

2023-02-28 15:36:45 378

原创人工智能多场景实战报表部分SQL命令总结

case when [字段] then [满足条件的返回值] else [不满足条件的返回值] end。left join：左连接（保留左表全部数据和右表满足拼接条件的数据）max() ：聚合函数，求最大值，数据源为分组后每组中的所有数据。order by ：按字段排序 [asc] [desc]，默认升序。通过实例记忆sql命令的作用及效果，加深印象，加强应用能力。group by ：按字段分组，分组字段须被select。with [临时表名] as (组成临时表的sql)

2023-02-28 15:29:57 69

原创人工智能特征筛选求取特征重要程度

心得：记录一下使用Xgboost输出特征重要程度，分组交叉筛选可以使数据更加可靠。分组后进行5轮计算，得到5组特征重要程度。

2023-02-28 15:24:10 125

原创人工智能特征工程特征变换分箱学习总结

合并：遍历相邻两项合并的卡方值，将卡方值最小的两组合并，不断重复直到满足分箱数目要求。心得：分箱作为必不可少的一个过程，知道其中原理方可更好的处理数据。初始化：根据连续变量值大小进行排序，构建最初的离散化。使得不同箱体的好坏样本比例区别放大，容易获得高IV。使用toad库可以进行卡方分箱代码编写。将卡方值较小的两个相邻箱体合并。卡方值不同代表箱体差异化。

2023-02-28 14:46:15 305

原创人工智能机器学习逻辑回归模型遗漏知识点总结

形式简单，模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响，某个特征的权重值比较高，那么这个特征最后对结果的影响会比较大。模型效果不错。在工程上是可以接受的（作为baseline)，如果特征工程做的好，效果不会太差，并且特征工程可以大家并行开发，大大加快开发的速度。训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟，训练的速度可以通过堆机器进一步提高，这样我们可以在短时间内迭代好几个版本的模型。资源占用小,尤其是内存。

2023-02-28 14:24:11 179

原创人工智能 Python面向对象学习总结之Python与Java的区别

经过学习，对Python面向对象部分有了一定的了解。总结记录：面向对象上Python与Java的部分区别。

2023-02-28 12:50:39 136

原创人工智能 Python基础个人学习总结之列表排序

经过一周的学习，对Python基础部分有了一定的了解。在学习Python中list时，了解到了列表排序，于是对于列表排序有了兴趣，本文总结了Python列表排序的一些知识。

2023-02-28 12:41:07 317

原创人工智能 Pandas数据分析数据可视化方法总结

对于pairplot，存在冗余信息，上半部分下半部分相同，用如下方法手动指定上半部分、下半部分和对角线分别用什么图。心得：数据可视化部分涉及的方法和参数很多，需要多去使用，多去查阅资料才可牢记于心，可以再jupyter中通过。箱线图统计的数据说明：最小值，¼分位，中位数，¾分位，最大值，以及离群值。的方式查看方法和参数说明，用的时候需灵活使用。多变量数据画图（散点图）部分代码。修改x、y轴的标签和字体。

2023-02-28 12:35:37 163

原创人工智能多场景实战常用英文缩写概念总结

心得：这些常用的英文缩写总结记录一下，方便日后查阅，还是需要理解性记忆。独立访客量，一定周期内（如1天）访问网站的用户数（需去重）页面浏览量或点击量，衡量用户访问的次数多少。如：统计每小时玩家数量，最后求平均。ARPPU = 付费金额/付费人数。ARPU = 付费金额/活跃人数。行动成本，按效果收费。平均同时在线玩家人数。最高同时在线玩家人数。

2023-02-28 12:21:58 308

原创人工智能 Linux常用软件安装 CenOS 7 arm 安装 MySQL8

解压mysql安装包到/export/server目录（目录非固定）安装包上传到/export/software目录（目录非固定）MySQL版本：mysql-8.0.31 aarch64。心得：arm版本安装参考资料少，记录一下，方便以后使用。虚拟机：VMWare 13.0 arm64。主机：osx 12.0 arm64。删除mariadb默认配置文件。将mysql服务设置为开机启动。查看mariadb版本。

2023-02-28 12:10:41 358

原创人工智能 Python进阶编程深浅拷贝总结

所以改变原有被复制对象不会对已经复制出来的新对象产生影响。只有一种形式，copy模块中的deepcopy函数。浅拷贝之所以称为浅拷贝，是它仅仅只拷贝了一层，拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。注：不可变类型进行浅拷贝不会给拷贝的对象开辟新的内存空间，而只是拷贝了这个对象的引用。id为id()的返回值（id()函数用于获取对象的内存地址）

2022-11-20 19:57:41 529

原创人工智能深度学习pytorch使用总结

自动微分模块是构成神经网络训练的必要模块，在神经网络的反向传播过程中，Autograd 模块基于正向计算的结果对当前的参数进行微分计算，从而实现网络权重参数的更新。torch.random.init_seed 和 torch.random.manual_seed 随机种子设置。torch.full 和 torch.full_like 创建全为指定值张量。torch.zeros 和 torch.zeros_like 创建全0张量。torch.ones 和 torch.ones_like 创建全1张量。

2022-11-13 21:49:28 484

RHEL5.5搭建LAMP平台(利用rpm).docx

空空如也