小白的数据-CSDN博客

原创 langchain学习（十）

Bind runtime args

2024-03-02 18:13:02 477

原创 langchain学习（九）

基于输入的动态路由逻辑，通过上一步的输出选择下一步操作，允许创建非确定性链。路由保证路由间的结构和连贯。有以下两种方法执行路由。

2024-03-02 11:56:00 571

原创 langchain学习（八）

Run custom functions

2024-03-01 17:44:58 535

原创 langchain学习（七）

RunnablePassthrough

2024-03-01 17:22:46 890

原创 langchain学习（六）

itemgetter函数是Python内置的函数库operator中的一个函数，其功能是返回可调用对象，这个对象会从其参数中提取指定的值。在chain中，runnables模块中的RunnablePassthrough可用于格式化上一个输出，从而匹配下一个输入的需要的格式。在langchain_core.runnables模块下。langchain中的一些操作和控制。以下3个方式是等效的。

2024-02-25 20:27:41 530

原创 langchain学习（五）

langchain streaming

2024-02-25 14:38:02 466 1

原创 google-gemma本地测试

用户： Write me a poem about the Lantern Festival.本地配置：win11、RAM16G、cpu、python3.8。gemma-2b版本都要14G。测试发现带不太动、中文不太行。

2024-02-24 22:28:21 481

原创 langchain学习（四）

方式1通过RunnableParallel。2、component的输入输出类型表。1、langchain采用了一个叫。Interface官方文档。同时提供以上接口的异步方式。方式2通过batch接口。：流式（实时）返回结果。：通过列表进行多输入。

2024-02-24 10:07:10 499

model.invoke(prompt_value)，如果model是chatModel（通过from langchain_openai import ChatOpenAI），输出的是message格式（AIMessage(content="XX")），如果model是LLM（from langchain_openai.llms import OpenAI），输出格式是字符串，可用（from langchain_core.messages import AIMessage）转换为message格式。

2024-02-23 12:18:16 585

原创 langchain学习（二）

LangChain Expression Language：LCEL，langchain表达式语言，从设计之处就支持将原型投入生产而不用修改代码为什么用langchain（而不直接调用LLM），官方文档给出以下的原因1、“get the best possible time-to-first-token (time elapsed until the first chunk of output comes out)”--最低的平均首包延迟。时长少更少的围绕潜在延迟问题或缓慢响应的设计工作。

2024-02-23 11:05:57 400

原创 langchain学习（一）

参考官方文档的quickstart。

2024-02-22 15:40:06 877

原创 langchain、openai使用问题记录

-----------------------2024年2月25日更新-----------------------------------------------------------------------------retrieval_chain要求传入prompt中用input,否则报错KeyError: 'input'，retrieval_docs = (lambda x: x["input"]) | retriever。解决方案目前是改用旧版的调用方式，会出现警告。

2024-02-19 21:48:04 954

原创 conda pip包路径更改记录

包安装在C盘Users\xx\AppData\Roaming\Python，需要迁移到其他位置。找到使用环境的miniconda3\Lib\site.py。在环境下执行py37>python -m site。复制旧位置的文件夹到目标位置。

2023-10-27 08:58:56 48

原创 win10 import _ssl DLL load failed

import _ssl # if we can't import it, let the error propagate ImportError: DLL load failed: 找不到指定的模块。

2023-10-22 21:20:54 21

原创 Learning Apache Spark with Python:classification

GBDT弱学习器限定只能使用CART回归树,分类树的衡量标准是最大熵，回归树的衡量标准是最小化均方差；对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种，对于回归算法，一般有均方差、绝对损失。Adaboost利用前一轮迭代弱学习器的误差率来更新训练集的权重；混淆矩阵、混淆矩阵标准化。5、spark没有xbg。

2023-08-14 12:26:47 3

原创 Learning Apache Spark with Python:regression

在线学习：当新数据点到来时，模型即时地进行更新。常用于那些数据持续流入的应用，如金融市场预测、实时广告投放等。随机梯度下降（单个样本），用以在线学习。小批量梯度下降（部分样本）批量梯度下降（全样本）

2023-08-11 15:08:29 8

原创 Learning Apache Spark with Python:dataExploManipu

Spearman correlation斯皮尔曼秩相关系数：变量间非线性/非正态分布/非数值型，对异常值不太敏感。卡方检验是针对自变量和因变量都是分类数据，pvalue小于0.05显著相关。FeatureHasher：应对高基数特征（分类字段下的唯一值多）卡方检验：推断总体分布与期望分布或理论分布是否有显著差异。1、sparkDataFrame转numpy。CountVectorizer：一般词袋模型。独立样本t检验、配对样本t检验、方差分析。Word2Vec：神经网络模型。

2023-08-10 11:55:53 6

原创 Learning Apache Spark with Python:rdd.DataFrame

pandas的pd.pivot_table(dp, values='col3', index='col1', columns='col2', aggfunc=np.sum)inner、left、right、full(即outer)pandas的sort_values。新增列，pandas的apply。pandas两个列合并成一个。16、透视表、restack。pandas 的merge。要将d.values转置。

2023-08-07 10:48:57 7

原创 spark:repartitionAndSortWithinPartitions

如何使用repartitionAndSortWithinPartitions并按x [0]和x [1] [0]排序。keyBy(lambda kv: (kv[0], kv[1][0]))创建一个替换键，该键由原始键和值的第一个元素组成。

2023-08-05 13:06:40 20

原创 Learning Apache Spark with Python:rdd operation

比如，将RDD中的所有数据通过JDBC连接写入数据库，如果使用map函数，可能要为每一个元素都创建一个connection，这样开销很大。而使用mapPartitions方法的话，其输入函数会只会被调用3次，每个分区调用1次。但是mapPartitions会存在OOM问题，即内存溢出，例如当一个partition的数据量超出内存限制时一次性载入函数中会导致OOM，而map就不会存在这样的情况因为它每次处理一条数据，当内存不足时可以将以前处理好的数据从内存中垃圾回收，腾出空间。

2023-08-04 21:45:36 6

原创 Learning Apache Spark with Python:create rdd

实践：numPartitions若为int值会报错———Method setProperty([class java.lang.String, class java.lang.Integer]) does not exist。实践：数据库版本5.6.41，驱动mysql-connector-java-8.0.17.jar可以正常使用。df.rdd.getNumPartitions()结果为1。实践：驱动置入work路径./spark/jars。（1）该方式无法分区读取。（1）驱动可以用高版本。

2023-08-04 09:25:19 5

原创广义数据分析方向总结

虽然不直接参与分析、算法或者开发的工作，但需要了解整个数据流程、相关的技术，同时也要有相关的行业经验经营。重点是挖掘出深层次的知识，与商业分析比较，商业分析的因果大多有直接链路，表象可见的，而数据挖掘则是要找出间接的、不那么明显的。DAMA数据管理体系中的元数据管理、主数据管理、数据质量管理、数据安全管理、……数据标准的制定、数据库设计的规范、数据质量的保障方法、元数据定义、数据统计口径、血缘关系、……概率分布、假设检验、方差分析、回归建模、时间序列预测、……PEST、5W2H、逻辑树、4P、……

2022-08-10 08:33:02 53

空空如也

空空如也