仙人掌_lz-CSDN博客

原创认识一下RAG

间用 SEP (分隔符) Token 分隔，并对它进行微调，使其对相关的文本块输出 1，对不相关的输出 0。RAG 动态地从外部知识源中检索信息，并利用这些检索到的数据作为组织答案的参考。这些框架可以对整个文档进行全面的解析，并。这种方法的优点是，它可以有效地解析表，同时综合考虑表摘要和表之间的关系，而且还不需要多模型。• 上下文相关性：这里是要求检索到的内容必须足够和问题相关，强调的是检索模块的能力。信任度：通过引用信息来源，用户可以核实答案的准确性，增强了人们对模型输出结果的信任。

2024-04-16 13:47:08 851

原创用Python计算合肥地铁乘车最优乘车路线：暴力方式

假设地铁平均速度60km/h,平均换乘耗时5分钟，列车各站停留时间30秒。已知乘车站及下车站，求最优乘车路线。也就是最少换乘路线与最短路径之间的选择暴力的解决问题：1，遍历出所有路径,以及换乘次数，换乘线路，路径距离2，找到最短路径（也可能是最短距离），和最少换乘路径进行比较import pickledef find_allPath(graph,start,end,path=[]): path = path +[start] if start == end:

2021-02-26 16:19:45 1009

原创 lightgbm中如何使用自定义函数

sklearn API目前有自定义函数：def self_metric1(y_true,y_predict): d = pd.DataFrame() d['prob'] = list(y_predict) d['y'] = list(y_true) d = d.sort_values(['prob'], ascending=[0]) y = d.y PosAll = pd.Series(y).value_counts()[1] Neg...

2021-02-08 17:29:22 781

原创先了解下何为人工神经网络

最近霸都天气都比较冷，早上起来不想起床，起床之后，拿起牙刷迷迷糊糊的开始刷牙，当拿起水杯漱口的时候，哎呀，我的马来，这水真凉，你是如何感觉到这个水凉的？那是因为有东西在帮你把凉的信号传给你的大脑。就是我们大脑里的神经元和突触，正是它们实现了信息的传递。神经元就是神经细胞，它就像一个搬运工，将人类的五种感官搜集到的所有外界信息传递到你的大脑。视觉，感觉，听觉，味觉，触觉分别从眼耳口鼻手这些器官接收到的信息（输入层），这个传递过程就像在长城烽火台一样狼烟传递敌军情报一样，一个接着一个，最后传到你的脑中（银行

2020-12-04 16:06:47 241 1

转载人工神经网络发展史

1943年，心理学家Warren McCulloch和数理逻辑学家Walter Pitts在合作的《A logical calculus of the ideas immanent in nervous activity》论文中提出并给出了人工神经网络的概念及人工神经元的数学模型，从而开创了人工神经网络研究的时代。1949年，心理学家唐纳德·赫布在《The Organization of Behavior》论文中描述了神经元学习法则。进一步，美国神经学家Frank Rosenblatt提出可以模拟人类感

2020-12-04 13:55:50 2601

原创网络舆情监测在教育行业的必要性

近年来，教育网络舆情爆发频率较高，纷繁复杂的突发事件将部分学校和教育主管部门卷入到安全和声誉的危机之中。古语云：“三人成虎，众口铄金”。这也意味着，人的语言和报纸、电视、互联网等媒介组成的传播世界对公众了解事实真相起到了决定性的作用。这种作用在互联网时代体现的尤为明显，教育工作者、教育主管部门应高度重视网络舆情，加强管理，科学研判，积极应对，趋利避害。教育舆情是人们在网络上对教育行业，教育机构...

2020-04-07 09:54:09 949

原创基于密度聚类的新闻热点发现实现步骤

由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控，因此网络新闻热点发现已成舆情监控的重点。基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下：从es获取目标数据（新闻标题、摘要等信息）：根据过滤条件获取目标数据；利用bert将新闻标题和新闻摘要生成新闻特征向量：利用bert-servin...

2020-04-02 10:09:30 3180

原创基于决策树的交通拥堵成因分析

基于大量的不同环境因素下所对应的交通拥堵状态数据，运用决策树C4.5 算法归纳总结交通拥挤原因并排序。一、数据获取：1，分别获取拥堵数据集A和畅通数据。2，从B中根据路段筛选出与A数量相等的畅通数据与A合并作为训练数据集C。3，对C中每条数据计算出30分钟内路段有无拥堵，30分钟内上一路段有无拥堵，30分钟内下一路段有无拥堵，30天内拥堵次数是否超过7次（常拥堵）。...

2020-04-02 10:04:16 2986 1

原创 bokeh学习总结_关系图绘制

Bokeh (Bokeh.js) 是一个 Python 交互式可视化库，支持现代化 Web 浏览器，提供非常完美的展示功能。Bokeh 的目标是使用 D3.js 样式提供优雅，简洁新颖的图形化风格，同时提供大型数据集的高性能交互功能。Boken 可以快速的创建交互式的绘图，仪表盘和数据应用。...

2020-04-02 09:24:03 1296

原创 echart 雷达图

option = { title: { text: '社区服务评分' }, tooltip: {}, backgroundColor: '#081A40', legend: { textStyle:{color:'#FEFEFF', fontSize:'18'}, da...

2020-03-05 16:18:11 718

原创直接调用echart的柱状图

option = { title: { text: '社区服务评分', textStyle:{color:'#FEFEFF'} }, tooltip: {color: '#fff', trigger: 'axis', axisPointer: { // 坐标轴指示器，坐标轴触发有...

2020-03-05 16:17:13 165

原创 echart折线图

option = { title: { text: '社区服务评分月趋势', textStyle:{color:'#FEFEFF', fontSize:'18'} }, legend: { data:['2019','2020'], selected:...

2020-03-05 16:16:15 320

原创基于百度aip主题提取的文本主题聚类

场景大量的文本留言，有短文本有长文本，我们如何搞笑提取文本主题？如上图知道view 如何获取topics解决办法：1文本分类2，主题提取3，主题聚类4，主题输出from sklearn.cluster import DBSCANimport jieba.possegimport jieba.analyseimport pandas as pdimport ...

2019-05-15 15:10:58 954

原创 python sklearn模型融合案例分享

heamy库的blending方法和mlxtend库的Stacking 方法# -*- coding: utf-8 -*-from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom skle...

2019-04-16 13:37:32 3095 1

原创 python pip批量安装和获取依赖包

在包内打开窗口输入pip install -r requirements.txt从一个机器的python包导为requirements.txt指令为：在包内打开窗口pip freeze >requirements.txt

2019-03-12 12:09:16 800

原创 cudnn安装步骤及下载链接

1，下载cudnn链接: https://pan.baidu.com/s/16ptngxh_2wk17oDGCKJ3-g 提取码: zyri 复制这段内容后打开百度网盘手机App，操作更方便哦根据需要下载合适版本2，解压$ tar -xzvf cudnn-9.0-linux-x64-v7.tgz（注意下载的版本）3,复制一下文件到系统cuda（注意自己的文件路径）$ sud...

2019-02-19 11:18:49 2616 1

原创错误代码：Using TensorFlow backend. Intel MKL FATAL ERROR: Cannot load libmkl_avx512.so or libmkl_def.so.

conda install nomkl numpy scipy scikit-learn numexprconda remove mkl mkl-service以上为完美解决方案

2019-02-12 16:52:13 1413

原创 python安装pyltp错误的解决办法完美解3.6的问题

折腾到半夜才解决，由于pyltp的bug 目前python3.6安装出现错误直接源码编译也出现错误最后找到一个办法whl下载地址:压缩包（需要一个积分）：包含两个文件 window,wheel安装文件下载后解压到目标路径，通过cmd进入到whl所在路径。然后pip install 文件名.whl...

2018-08-23 01:06:00 1780 3

原创安装 Keras（tensorflow-gpu）

首先确保你的机器已经安装Anaconda临时切换到清华源：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package在安装 Keras 之前，请安装以下后端引擎之一：TensorFlow，Theano，或者 CNTK。目前大家用的比较多使用 TensorFlow 后端一、安装tensorflow/keras...

2018-08-16 10:46:12 14020 1

原创 python 一键更新库的方法

python3 pip10以上import pipfrom pip._internal.utils.misc import get_installed_distributionsfrom subprocess import call for dist in get_installed_distributions(): call("pip install --upgrade " + ...

2018-06-28 18:19:10 3227

原创 xgboost.XGBClassifier 分类算法参数详解

class xgboost.XGBClassifier(max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='binary:logistic', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta...

2018-06-06 11:14:05 22005 1

原创 XGboost安装（linux）

看了很多发现install install xgboost 安装出错然后 conda install -c conda-forge xgboost 完美安装（前提是安装了 anaconda）记录一下

2018-06-05 17:30:28 374

原创 pyspark学习系列（四）数据清洗

from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession from pyspark.sql import SQLContextfrom pyspark.sql.types import *spark=SparkSession.builder.appName("lz").getOrCreat...

2018-04-08 17:56:05 4390 1

原创 pyspark学习系列（三）利用SQL查询

对于spark 中存在dataframe，我们可以用 .creatOrReplaceTempView方法创建临时表。临时表创建之后我们就可以用SQL语句对这个临时表进行查询统计：from pyspark.sql.types import *# Generate our own CSV data # This way we don't have to access the file sys...

2018-03-31 10:45:51 5548

原创 pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

一、本地csv文件读取：最简单的方法：import pandas as pdlines = pd.read_csv(file)lines_df = sqlContest.createDataFrame(lines)或者采用spark直接读为RDD 然后在转换lines = sc.textFile('file'))如果你的csv文件有标题的话，需要剔除首行header = lines.firs...

2018-03-20 15:59:07 15785

原创 python 快速写入postgresql数据库方法

一种是导入sqlalchemy包，另一种是导入psycopg2包。具体用法如下（此处以postgre数据库举例）第一种：# 导入包from sqlalchemy import create_engineimport pandas as pdfrom string import Templateengine = create_engine("oracle://user:pwd@***:***...

2018-03-19 11:33:41 14697 9

原创 pyspark学习系列（一）创建RDD

由于个人工作需要spark，然后我有事一个编码门外汉，数据分析出身，除了学习了简单的sql，那么目前本人掌握的语言也就是python（JAVA教程看了一周放弃了），用python学习机器学习，然后在项目中实践了部分内容，现在想把项目搬到集群上去，所以要学习spark，但是发现网上关于pyspark的教程真的是太少了，本系列讲以《pyspark实战指南》为基础，详细介绍本人学习pyspark过程中的...

2018-03-16 23:34:01 9796 4

原创【笔记】一个分组统计的python与sql方法

id sim0 a 11 b 22 c 33 d 24 a 15 d 26 d 3以上是一个数据表xx ，id --客户id， sim--绑定的设备编码，求绑定不同数量设备的客户数量分布python：xx.drop_duplicates().groupby('id').count().reset_index().groupby('sim').count().reset_index()sql：s...

2018-03-16 22:49:20 523

原创文本分类问题的增量学习 PassiveAggressiveClassifier在线主动攻击型分类算法大数据

实际解决机器学习问题过程中，我们会遇到一些“大数据”问题，比如有上百万条数据，上千上万维特征，此时数据存储已经达到10G这种级别。如果是文本分类分体，你还需要提取文本特征，这时候如果把数据load到内存，那占用内存就太大了，如何解决：1. 对数据进行降维？2. 使用流式或类似流式处理？3. 上大机器，高内存的，或者用spark集群。本文将要介绍的是一种增量学算法PassiveAggressiveC...

2017-12-27 16:47:00 6515 1

原创 Windows 下安装python版本xgboost 仅需要安装GIT即可

最近给win7机器安装xgboost时发现了个比较简单的方法：1. 首先安装git。这个比较简单,可以参考下廖雪峰前辈写的教程安装git2. 安装完git后，打开git bash, cd 到任意目录下。我这里是cd 到了d盘根目录，所以我在命令行敲了cd d:3. 接下来将xgboost 的相关文件从github上拿到本地，输入下面代码。git clone htt

2017-11-13 15:52:17 448

原创 Python操作MySQL -即pymysql/SQLAlchemy用法

# -*- coding: utf-8 -*-"""Created on Tue Nov 7 12:38:21 2017@author: lizheng"""import pymysqlimport pandas as pd"""使用sqlalchemy结合pymysql 方式读取数据库# =========================================

2017-11-07 14:19:09 1806

原创统计学习方法--朴素贝叶斯 python实现

朴素贝叶斯朴素贝叶斯方法是一套基于贝叶斯定理的监督学习算法，在每一对特征之间采用独立的 “naive” 假设。给定一个类变量和一个从属特征向量到，贝叶斯定理表示以下关系：使用 naive ( 天真 ) 独立假设：对于所有的 i ，这种关系被简化为：由于给定输入是常数，所以我们可以使用以下分类规则：我们可以使用

2017-10-25 10:26:07 1330

原创统计学习方法--决策树 python实现

决策树模型与学习决策树模型是一种描述对视力进项分类的树形结构。决策树由节点和有边组成，节点有两种：内部节点和叶节点。内节点表示一个特征或的户型，叶节点表示一个类。用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结构，将实力分配到其子节点；这时每一个子节点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直到达到叶节点，最后将实例分到叶节点的类中。决策树与if——th

2017-10-23 13:59:51 586

原创统计学习方法--K近邻法 python实现

k近邻是一种常用的分类与回归算法

2017-10-19 12:31:10 656

原创 Java常用库总结(程序更新)

由于目前在学习统计机器学习这本书，首先学习研究学习了常用的相似性度量及 java和python实现计算，详见http://blog.csdn.net/qq_36603091/article/details/78216124在学习第一感受就是python真是太好了！！！！而java太繁琐，但是没办法公司项目还是要java 没办法还是要用java！！！！在求解马氏距离的时候需要用到矩

2017-10-17 17:56:58 646

原创常用的相似性度量总结及 java和python实现计算 (不断更新)

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离

2017-10-12 16:10:39 2275

原创第二周java编程作业

1时间换算（5分）题目内容：UTC是世界协调时，BJT是北京时间，UTC时间相当于BJT减去8。现在，你的程序要读入一个整数，表示BJT的时和分。整数的个位和十位表示分，百位和千位表示小时。如果小时小于10，则没有千位部分；如果小时是0，则没有百位部分；如果分小于10分，需要保留十位上的0。如1124表示11点24分，而905表示9点5分，36表示0点36分，7表示

2017-10-12 13:31:58 463

原创 JAVA第三周编程作业奇偶个数数字特征值

奇偶个数（5分）题目内容：你的程序要读入一系列正整数数据，输入-1表示输入结束，-1本身不是输入的数据。程序输出读到的数据中的奇数和偶数的个数。输入格式:一系列正整数，整数的范围是（0,100000）。如果输入-1则表示输入结束。输出格式：两个整数，第一个整数表示读入数据中的奇数的个数，第二个整数表示读入数据中

2017-10-12 13:19:34 1362

原创运用java的数组实现多项式加法 java数组编程习题

//1多项式加法（5分）//题目内容：//一个多项式可以表达为x的各次幂与系数乘积的和，比如：////现在，你的程序要读入两个多项式，然后输出这两个多项式的和，也就是把对应的幂上的系数相加然后输出。//程序要处理的幂最大为100。////输入格式://总共要输入两个多项式，每个多项式的输入格式如下：//每行输入两个数字，第一个表示幂次，第二个表示该幂次的系数，所有的系数都是整数。

2017-10-12 13:00:59 2539 1

原创 Python使用Matplotlib和Imagemagick实现感知器算法可视化与GIF导出

首先这类教程网上有很多基本的功能都可以实现，1，安装ImageMagickImageMagick是一个类似于编码器的工具，下载地址：http://www.imagemagick.org/script/binary-releases.php 2，安装 PythonMagick，是ImageMagick的python开发包。http://www.i

2017-09-30 09:01:36 1543

入门深度学习--探秘lstm

一次部门内部分享的PPT

2021-01-06

自适应确定DBSCAN算法参数的算法研究_李文杰.pdf

传统DBSCAN算法需要人为确定Eps和MinPts参数,参数的选择直接决定了聚类结果的合理性,因此提出一种新的自适应确定DBSCAN算法参数算法,该算法基于参数寻优策略,通过利用数据集自身分布特性生成候选Eps和MinPts参数,自动寻找聚类结果的簇数变化稳定区间,并将该区间中密度阈值最少时所对应的Eps和MinPts参数作为最优参数。实验结果表明,该算法能够实现聚类过程的全自动化并且能够选择合理的Eps和MinPts参数,得到了高准确度聚类结果。

2020-04-02