自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 langchain学习(十二)

各类memory

2024-03-13 17:42:31 417

原创 langchain学习(十一)

对话、记忆、历史信息

2024-03-04 17:26:41 657

原创 langchain学习(十)

​Bind runtime args

2024-03-02 18:13:02 477

原创 langchain学习(九)

基于输入的动态路由逻辑,通过上一步的输出选择下一步操作,允许创建非确定性链。路由保证路由间的结构和连贯。有以下两种方法执行路由。

2024-03-02 11:56:00 571

原创 langchain学习(八)

Run custom functions

2024-03-01 17:44:58 535

原创 langchain学习(七)

RunnablePassthrough

2024-03-01 17:22:46 890

原创 langchain学习(六)

itemgetter函数是Python内置的函数库operator中的一个函数,其功能是返回可调用对象,这个对象会从其参数中提取指定的值。在chain中,runnables模块中的RunnablePassthrough可用于格式化上一个输出,从而匹配下一个输入的需要的格式。在langchain_core.runnables模块下。langchain中的一些操作和控制。以下3个方式是等效的。

2024-02-25 20:27:41 530

原创 langchain学习(五)

langchain streaming

2024-02-25 14:38:02 466 1

原创 google-gemma本地测试

用户: Write me a poem about the Lantern Festival.本地配置:win11、RAM16G、cpu、python3.8。gemma-2b版本都要14G。测试发现带不太动、中文不太行。

2024-02-24 22:28:21 481

原创 langchain学习(四)

方式1通过RunnableParallel。2、component的输入输出类型表。1、langchain采用了一个叫。Interface官方文档。同时提供以上接口的异步方式。方式2通过batch接口。:流式(实时)返回结果。:通过列表进行多输入。

2024-02-24 10:07:10 499

原创 langchain学习(三)

model.invoke(prompt_value),如果model是chatModel(通过from langchain_openai import ChatOpenAI),输出的是message格式(AIMessage(content="XX")),如果model是LLM(from langchain_openai.llms import OpenAI),输出格式是字符串,可用(from langchain_core.messages import AIMessage)转换为message格式。

2024-02-23 12:18:16 585

原创 langchain学习(二)

LangChain Expression Language:LCEL,langchain表达式语言,从设计之处就支持将原型投入生产而不用修改代码为什么用langchain(而不直接调用LLM),官方文档给出以下的原因1、“get the best possible time-to-first-token (time elapsed until the first chunk of output comes out)”--最低的平均首包延迟。时长少更少的围绕潜在延迟问题或缓慢响应的设计工作。

2024-02-23 11:05:57 400

原创 langchain学习(一)

参考官方文档的quickstart。

2024-02-22 15:40:06 877

原创 langchain、openai使用问题记录

-----------------------2024年2月25日更新-----------------------------------------------------------------------------retrieval_chain要求传入prompt中用input,否则报错KeyError: 'input',retrieval_docs = (lambda x: x["input"]) | retriever。解决方案目前是改用旧版的调用方式,会出现警告。

2024-02-19 21:48:04 954

原创 conda pip包 路径更改记录

包安装在C盘Users\xx\AppData\Roaming\Python,需要迁移到其他位置。找到使用环境的miniconda3\Lib\site.py。在环境下执行py37>python -m site。复制旧位置的文件夹到目标位置。

2023-10-27 08:58:56 48

原创 win10 import _ssl DLL load failed

import _ssl # if we can't import it, let the error propagate ImportError: DLL load failed: 找不到指定的模块。

2023-10-22 21:20:54 21

原创 Learning Apache Spark with Python:classification

GBDT弱学习器限定只能使用CART回归树,分类树的衡量标准是最大熵,回归树的衡量标准是最小化均方差;对于分类算法,其损失函数一般有对数损失函数和指数损失函数两种,对于回归算法,一般有均方差、绝对损失。Adaboost利用前一轮迭代弱学习器的误差率来更新训练集的权重;混淆矩阵、混淆矩阵标准化。5、spark没有xbg。

2023-08-14 12:26:47 3

原创 Learning Apache Spark with Python:regression

在线学习:当新数据点到来时,模型即时地进行更新。常用于那些数据持续流入的应用,如金融市场预测、实时广告投放等。随机梯度下降(单个样本),用以在线学习。小批量梯度下降(部分样本)批量梯度下降(全样本)

2023-08-11 15:08:29 8

原创 Learning Apache Spark with Python:dataExploManipu

Spearman correlation斯皮尔曼秩相关系数:变量间非线性/非正态分布/非数值型,对异常值不太敏感。卡方检验是针对自变量和因变量都是分类数据,pvalue小于0.05显著相关。FeatureHasher:应对高基数特征(分类字段下的唯一值多)卡方检验:推断总体分布与期望分布或理论分布是否有显著差异。1、sparkDataFrame转numpy。CountVectorizer:一般词袋模型。独立样本t检验、配对样本t检验、方差分析。Word2Vec:神经网络模型。

2023-08-10 11:55:53 6

原创 Learning Apache Spark with Python:rdd.DataFrame

pandas的pd.pivot_table(dp, values='col3', index='col1', columns='col2', aggfunc=np.sum)inner、left、right、full(即outer)pandas的sort_values。新增列,pandas的apply。pandas两个列合并成一个。16、透视表、restack。pandas 的merge。要将d.values转置。

2023-08-07 10:48:57 7

原创 spark:repartitionAndSortWithinPartitions

如何使用repartitionAndSortWithinPartitions并按x [0]和x [1] [0]排序。keyBy(lambda kv: (kv[0], kv[1][0]))创建一个替换键,该键由原始键和值的第一个元素组成。

2023-08-05 13:06:40 20

原创 Learning Apache Spark with Python:rdd operation

比如,将RDD中的所有数据通过JDBC连接写入数据库,如果使用map函数,可能要为每一个元素都创建一个connection,这样开销很大。而使用mapPartitions方法的话,其输入函数会只会被调用3次,每个分区调用1次。但是mapPartitions会存在OOM问题,即内存溢出,例如当一个partition的数据量超出内存限制时一次性载入函数中会导致OOM,而map就不会存在这样的情况因为它每次处理一条数据,当内存不足时可以将以前处理好的数据从内存中垃圾回收,腾出空间。

2023-08-04 21:45:36 6

原创 Learning Apache Spark with Python:create rdd

实践:numPartitions若为int值会报错———Method setProperty([class java.lang.String, class java.lang.Integer]) does not exist。实践:数据库版本5.6.41,驱动mysql-connector-java-8.0.17.jar可以正常使用。df.rdd.getNumPartitions()结果为1。实践:驱动置入work路径./spark/jars。(1)该方式无法分区读取。(1)驱动可以用高版本。

2023-08-04 09:25:19 5

原创 广义数据分析方向总结

虽然不直接参与分析、算法或者开发的工作,但需要了解整个数据流程、相关的技术,同时也要有相关的行业经验经营。重点是挖掘出深层次的知识,与商业分析比较,商业分析的因果大多有直接链路,表象可见的,而数据挖掘则是要找出间接的、不那么明显的。DAMA数据管理体系中的元数据管理、主数据管理、数据质量管理、数据安全管理、……数据标准的制定、数据库设计的规范、数据质量的保障方法、元数据定义、数据统计口径、血缘关系、……概率分布、假设检验、方差分析、回归建模、时间序列预测、……PEST、5W2H、逻辑树、4P、……

2022-08-10 08:33:02 53

原创 ES中根据时间类型字段的按日期聚合方法

ES

2022-06-17 17:36:28 2964 1

原创 Python学习路线

第七阶段为Linux运维自动化开发,主要学习Python开发Linux运维、Linux运维报警工具开发、Linux运维报警安全审计开发、Linux业务质量报表工具开发、Kali安全检测工具检测以及Kali 密码破解实战;第一阶段为Python语言基础,主要学习Python最基础知识,如Python3、数据类型、字符串、函数、类、文件操作等。第十阶段为Python机器学习,主要学习KNN算法、线性回归、逻辑斯蒂回归算法、决策树算法、朴素贝叶斯算法、支持向量机以及聚类k-means算法。

2022-04-27 09:23:32 5

原创 航空公司飞行模式与表现状况分析-2020ChinaDatathon

通过flight_traffic统计得出各家航空公司2017年的航班次数、取消航班次数、改道飞航次数、实际到达时间快于计划时间的次数、由于航班公司延误造成的延误次数,计算得出各家航空公司取消航班次数占总航次比例、改道班次比例、忙于计划到达时间的比例、以及航班公司延误次数比例。在主办方提供的7个源数据集中选取了与研究问题相关的4个数据集,分别为航空公司(airlines)、票价(fares)、飞行交通(flight_traffic)以及股票价格(stock_prices)。4、建模、检验与分析。

2021-11-19 15:06:59 53

原创 keras问题记

错误:File "D:\Anaconda3\envs\actionRecognition1\lib\site-packages\keras_preprocessing\image\utils.py", line 309, in img_to_array x = np.asarray(img, dtype=dtype) File "D:\Anaconda3\envs\actionRecognition1\lib\site-packages\numpy\core\_asarray.py", l...

2021-07-05 17:48:53 164

原创 win10:hadoop、hive、mysql、spark搭建问题记录

公司中的大数据工具一般搭建在linux系统上,个人的电脑之前是用linux虚拟机上搭建,但运行时内存一下子占满,这次在win10上直接搭建环境。搭建教程网上已经有很多,这里就不展开了。觉得有几个关键吧:1、工具间的版本对应;2、环境变量;3、权限;4、配置文件本次的配置如下:win10家庭版、java1.8.0_40、hadoop 2.7.6、mysql 5.7.17、hive-2.1.1、scala-2.11.8、spark2.3.0、python3.6.5、pyspark3.0.0...

2021-04-24 14:40:59 220

原创 keras+lstm+crf命名实体识别code

import pandas as pdfrom keras.preprocessing.sequence import pad_sequencesimport numpy as npfrom keras.layers import Input,Embedding,concatenate,Bidirectional,LSTMfrom keras_contrib.layers import CRFfrom keras import Modeldf=pd.read_table('train.txt.

2021-04-10 22:43:36 517 2

原创 keras+lstm+crf命名实体识别

前阵子用crf++工具做了命名实体识别,这次用keras中的keras_contrib来试下,结合lstm。一、操作系统window10二、版本Python 3.6.5、TensorFlow 2.1.0、Keras 2.3.1三、原始数据处理过程同之前的处理,详见https://blog.csdn.net/m0_49621298/article/details/109896619本次开始的文件内容如下train.txt初步统计 l o, w o全市 n .

2021-04-10 22:40:38 874 2

原创 keras_contrib使用过程的一些问题

1、keras_contrib安装https://github.com/keras-team/keras-contrib下载后将keras_contrib文件夹放到python的\Lib\site-packages里面2、报错The added layer must be an instance of class Layer. Found: <keras_contrib.la要统一导入方式,tensorflow.keras、keras引用混合3、统一用keras导入报错modu

2021-04-09 08:10:28 798 1

原创 python调用crf接口+信息抽取

续https://blog.csdn.net/m0_49621298/article/details/1098966191、crf++的python接口安装报错:ImportError: DLL load failed: %1 不是有效的 Win32 应用程序。import CRFPP File "D:\Anaconda3\lib\site-packages\CRFPP.py", line 26, in <module> _CRFPP = swig_import_hel

2020-12-10 21:55:31 1018 2

原创 用crf++工具进行自定义领域命名实体识别

网上的crf++教程很多,但小白还是花了不少时间去整合教程中的信息才得以应用,记录下本次步骤。一、需求大需求是抽取公开经济报告中的经济指标数据,其中重要一环是识别其中的经济指标专有名词(还有单位~)。二、操作系统window10三、工具python、crf++工具包四、过程4.1 原始文本爬虫把标题(含了年份省份区县信息)和报告内容爬下来,存入txt,如下:4.2 处理本次大需求是抽取指标数据,故先将原始文本按句号和分号"。;"进行分句(先不加上","分句,保

2020-11-21 16:16:17 748

原创 微信公众号文章迁移至其他平台的自动化

一、需求将微信公众号的文章发布到另一平台(以下称A平台)二、思路思路1:打开文章链接后复制文章内容并黏贴至A平台的编辑器思路2:利用A平台的引用链接功能。本次采用思路2解决。三、工具python、uibot四、步骤1、进入公众号的查看历史消息;2、右键-查看源代码(注意:源代码仅有加载的内容部分,需要根据需求将后续的内容加载完成,即下滚)-另存文件;3、采用python的bs4模块解析出需要的内容,本次提取出每篇文章的链接、标题和日期,保存到excel文件;4

2020-11-08 16:30:06 997

原创 商品评论分析2

续前面的——https://blog.csdn.net/m0_49621298/article/details/107570043二、数据处理1、去掉字段中的换行、空格等2、应用jieba进行分词,这里需要根据不同业务场景设计词库comment=data['评论'].tolist()commentArr=[]#存储评论分词for i in range(len(comment)):# jieba.load_userdict('./file/自定义词库.txt') cut=

2020-10-05 18:24:10 1910

原创 OpenCV 图像处理学习

起手就报错~错误定位在图像显示这句cv2.imshow('image',img)错误如下:cv2.error: OpenCV(4.3.0) C:\projects\opencv-python\opencv\modules\highgui\src\window.cpp:376: error: (-215:Assertion failed) size.width>0 && size.height>0 in function 'cv::imshow'解决:cv2.imread

2020-08-01 10:30:01 180

原创 商品评论分析1

续前面的——https://blog.csdn.net/m0_49621298/article/details/107585855二、数据处理1、去掉字段中的换行、空格等2、应用jieba进行分词,这里需要根据不同业务场景设计词库comment=data['评论'].tolist()commentArr=[]#存储评论分词for i in range(len(comment)):# jieba.load_userdict('./file/自定义词库.txt') cut=

2020-07-27 08:38:20 2074

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除