自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 数据科学知识库

我的博客是一个技术分享平台,涵盖了机器学习、数据可视化、大数据分析、数学统计学、推荐算法、Linux命令及环境搭建,以及Kafka、Flask、FastAPI、Docker等组件的使用教程。我的博客的目标是帮助读者更好地理解和应用这些技术,从而在商业、社会和其他领域中获得更多的机会和洞见。通过阅读我的博客,读者可以了解到这些技术的最新趋势和发展,同时也可以获得如何将这些技术应用到实际生活中的建议和指导。

2023-12-17 11:18:51 1669 2

原创 Xgboost分类模型的完整示例

在这个案例中,我们处理了UCI蘑菇数据集,目标是预测蘑菇是否有毒。数据经过预处理,包括编码转换。我们使用XGBoost模型,通过随机搜索优化了其超参数。模型训练后,我们评估了它的性能,计算了准确率、精确率、召回率和F1分数,并将结果存入DataFrame。进一步,使用SHAP进行负例分析,以及特征重要性的可视化,揭示了影响模型决策的关键特征。这展示了一个完整的机器学习流程,从数据处理到模型训练、评估,直至解释性分析。

2024-01-01 16:07:57 773 2

原创 Linux---基础操作命令

Linux操作系统拥有众多的命令,它们可以根据功能进行分类。

2023-12-23 23:15:56 932

原创 PID算法

如果你有任何问题或建议,也欢迎在评论区留言哦!

2023-12-22 20:34:52 980

原创 多臂老虎机算法步骤

确定每个臂的回报(通常是概率回报)。定义试验次数或时间限制。在实验结束时,确定哪个臂是最优的。将学习到的知识应用于实际问题或作为决策支持。多臂老虎机问题在许多领域都有应用,如网页优化、临床试验、广告展示等。它提供了一种有效的方法来处理探索与利用的权衡,特别是在面对不确定性和有限资源的情况下。友情提示如果你有任何问题或建议,也欢迎在评论区留言哦!!!

2023-12-22 20:34:04 1482

原创 SQL---数据抽样

SQL数据抽样通常涉及从大型数据库中随机选择一部分数据。这在数据分析、测试、报告和其他情况下非常有用。以下是如何在SQL中进行数据抽样的几种方法:使用RAND()函数这是最简单的方法,但请注意,它可能在大表上效率不高,因为它会扫描整个表。对于大型表,你可以使用这种方法,它首先根据某种顺序(例如,随机)对表进行排序,然后选择前N行。其中N是你想要抽取的行数。3. 使用JOIN这种方法可能更高效,特别是当你有另一个与你的主要表相关的小表时。

2023-12-21 22:12:59 1228

原创 SQL---Zeppeline前驱记录与后驱记录查询

要查找满足特定条件(例如 _part_event = ‘app_exception’ AND exception_type = 7)的记录的后一条记录,您可以使用窗口函数 LEAD()。LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time):此窗口函数首先按 _distinct_id 列对数据进行分区,然后在每个分区内按 _event_time 排序,从而为每条记录计算 prev_part_event。

2023-12-21 20:45:11 2249

原创 数据可视化---直方图

如果你有任何问题或建议,也欢迎在评论区留言哦!

2023-12-20 16:37:18 674

原创 PySpark中DataFrame的join操作

常见的类型有 “inner”, “outer”, “left_outer”, “right_outer”, “leftsemi”。在进行 JOIN 操作时,如果两个 DataFrame 有相同的列名,可能需要使用别名(alias)来避免列名冲突。on 参数是一个字符串(单列名)或一个列表(多列名)或一个表达式,指定了合并的基准。包含左边 DataFrame 的所有行,以及与右边 DataFrame 匹配的行。包含右边 DataFrame 的所有行,以及与左边 DataFrame 匹配的行。

2023-12-20 16:36:13 1276

原创 数据可视化---离群值展示

如果你有任何问题或建议,也欢迎在评论区留言。如果你觉得内容不错,请三连支持哦!

2023-12-19 14:05:10 851

原创 Linux中命令添加-r的作用

如果你有任何问题或建议,也欢迎在评论区留言。如果你觉得内容不错,请三连支持哦!

2023-12-18 16:38:35 1105

原创 数据可视化---双Y轴折线图比较

【代码】双Y轴折线图比较。

2023-12-18 11:59:04 1008 2

原创 机器学习算法---聚类

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3 Sigma原则筛选离群值Python统计学检验大数据PySpark大数据处理详细教程使用教程CentOS

2023-12-17 10:37:26 986

原创 机器学习算法---时间序列

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3 Sigma原则筛选离群值Python统计学检验大数据PySpark大数据处理详细教程使用教程CentOS

2023-12-17 10:33:27 578

原创 数据可视化---饼图、环形图、雷达图

饼状图:展示了四个类别(A, B, C, D)的数据,每个类别的比例标注在图中。环形图:与饼状图使用相同的数据,但采用环形设计,以不同的视觉风格呈现相同的信息。雷达图:展示了六个不同指标(Metric 1 至 Metric 6)的数据,以雷达图的形式展现每个指标的数值。

2023-12-16 21:58:58 685

原创 数据可视化---柱状图

【代码】数据可视化---柱状图。

2023-12-16 21:52:58 544

原创 数据可视化---箱线图

【代码】Python Matplotlib可视化。

2023-12-15 12:15:40 725

原创 机器学习算法---异常检测

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3 Sigma原则筛选离群值Python统计学检验大数据PySpark大数据处理详细教程使用教程CentO

2023-12-15 10:05:04 566

原创 机器学习算法---回归

原理:通过拟合一个线性方程来预测连续响应变量。线性回归假设特征和响应变量之间存在线性关系,并通过最小化误差的平方和来优化模型。优点:简单、直观,易于理解和实现。缺点:对异常值敏感,假设线性关系,可能无法适应非线性数据。应用场景:金融预测、商品价格预测、房价估计等。

2023-12-15 09:57:45 994

原创 机器学习算法---分类

当然,让我为您提供更详细的机器学习算法介绍,重点在于每种算法的原理、优缺点,并在注意事项中特别提到它们对非平衡数据和高维稀疏数据的适应性。

2023-12-14 20:49:48 1225

原创 机器学习算法应用场景与评价指标

机器学习的算法选择大部分依赖于具体的问题类型和数据特征。根据具体的应用场景和问题,评价指标的适用性可能会有所不同。

2023-12-14 16:49:10 1329

原创 面试题---机器学习算法

支持向量机(SVM):适用于分类和回归问题,通过将数据映射到高维空间,并在该空间中找到一个最优的超平面来划分数据,从而实现分类或回归。决策树:适用于分类和回归问题,通过对样本数据集进行分裂来建立一棵树型结构,每个分支代表一个特征,每个叶子节点代表一个分类或回归结果。随机森林:一种基于决策树的集成学习方法,通过随机选择特征和数据集来建立多棵决策树,最终通过投票或平均值来确定分类或回归结果。K-近邻(KNN):适用于分类和回归问题,通过找到离目标样本最近的K个样本,来预测该样本的类别或值。

2023-12-14 10:48:41 440

原创 面试题---推荐系统

在一个项目中,我们使用了基于协同过滤的推荐算法,将用户行为数据进行处理并提取出有用的特征,通过计算用户之间的相似度来实现个性化推荐。我相信随着推荐系统技术的不断发展,我们会看到更多更高效的算法被提出和应用,我也会一直保持学习和实践的态度,不断提升自己的推荐系统技术水平。推荐系统的算法:推荐系统的算法包括但不限于协同过滤、基于内容的推荐算法、矩阵分解、深度学习、强化学习等。推荐系统的分类: 推荐系统可以分为基于内容的推荐、基于协同过滤的推荐、基于深度学习的推荐等等。

2023-12-14 10:43:28 461

原创 数据挖掘任务一般流程

数据挖掘是从大量数据中提取有价值信息的过程。它涉及多个步骤,每一步都对整个数据挖掘过程至关重要。

2023-12-13 12:03:47 630

原创 PySpark中FMClassifier与RandomForestClassifier的比较

在比较 PySpark 中的 FMClassifier(因子分解机分类器)和 RandomForestClassifier(随机森林分类器)时,我们不能简单地说一个比另一个更先进,因为它们是针对不同类型的问题和数据集设计的。选择哪个分类器更多地取决于你的特定应用和数据特性。下面是这两种算法的一些关键特点和适用场景:FMClassifier(因子分解机分类器)适用场景:特别适合于处理稀疏数据集,如在推荐系统、广告点击率预测等领域中常见的数据。特点:通过因子分解,FM能够估计任何两个变量间的交互作用,即

2023-12-13 11:54:26 390

原创 占位符哈哈哈哈

bar_chart(dbt_ids, user_cnts,45,“宋体”,“标题”,“测试”)

2023-12-12 12:28:36 312

原创 PySpark大数据处理详细教程

在这篇博客中,我们将深入探讨 PySpark DataFrame 的操作和应用,从基础到高级,涵盖了数据处理和分析的多个方面。我们会开始于 DataFrame 的创建和基本操作,逐步过渡到复杂的数据转换、特征工程,最后探索性能优化和数据流处理等高级主题。每个部分都配有实用的代码示例和详细的解释,旨在帮助您更好地理解和应用这些技术。无论您是希望提高数据分析技能,还是寻找提升大数据处理能力的灵感,这篇博客都将是您的理想选择。

2023-12-12 12:21:50 1319

原创 Linux服务器配置免密SSH

SSH 不仅提供了一种安全的远程访问解决方案,还通过其强大的加密和身份验证机制,确保了数据传输的安全性和完整性。从加密的远程命令执行到安全的文件传输,SSH 以其多功能性和强大的安全特性,在现代网络通信中发挥着不可或缺的作用。

2023-12-07 16:30:09 630

原创 CentOS服务器搭建Miniconda环境

这篇文章中,我们将深入探讨 Conda 的核心特性,展示它如何成为科学计算和数据科学领域不可或缺的一部分,并提供实际的指导,帮助您高效地使用这个强大的工具。

2023-12-07 14:50:24 631

原创 Python--统计学检验

1.导入相关库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy import statsfrom scipy.stats import normaltest,kstest,shapiro,anderson,levene, bartlett,f_onewayfrom scipy.stats import ttest_1samp,ttest_ind,ttest_rel,mannwhitne

2021-07-27 16:23:23 1051

原创 Linux文件颜色含义

在 Linux系统中,用ls命令查看目录中的文件,文件名有各种颜色,颜色不同,代表的文件类型也不一样。浅蓝色:表示链接文件;灰色:表示其他文件;绿色:表示可执行文件;红色:表示压缩文件;蓝色:表示目录;红色闪烁:表示链接的文件有问题了;黄色:表示设备文件,包括block,char,fifo。...

2021-07-20 15:42:21 477

原创 大数据集群缓存清理

1.在集群中编写shell脚本:vim drop_cache2.添加执行权限:chmod +x drop_cache3.执行文件:bash drop_cacheecho "开始清理集群缓存~" &&sync &&for i in {13,12,11} do ssh 10.105.198.$i "sudo sh -c '/usr/bin/echo 3 > /proc/sys/vm/drop_caches'"; done &&echo "缓

2021-07-20 15:36:32 311 3

原创 Python--分类问题标签化

"""根据user_value给用户打标签,若是二分类问题,直接用np.where(condition,a,b)多分类问题,利用quantile()函数对不同的范围给一个级别指数,定义类别然后label"""Q2 = data_grouped['user_value'].quantile(0.2)Q4 = data_grouped['user_value'].quantile(0.4)Q6 = data_grouped['user_value'].quantile(0.6)Q8 = data_

2021-07-12 09:04:51 622

原创 Python OpenCV-物体轮廓检测

1.cv2.findContours() 函数检测轮廓import cv2img = cv2.imread('C:/Users/Administrator/Desktop/New_Study/IMAGE/Pictures/1.jpg') gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) ret, binary = cv2.threshold(gray,127,255,cv2.THRESH_BINARY) contours, hierarchy =

2021-04-27 11:07:15 1075

原创 Python OpenCV-摄像头的调用

1.调用摄像头拍照保存# coding:utf-8import cv2# cap = cv2.VideoCapture(1, cv2.CAP_DSHOW)cap = cv2.VideoCapture(0)#检查摄像头是否打开,值为TRUE or FALSEflag = cap.isOpened()index = 1while (flag): ret, frame = cap.read() #flip(mat,mat,int)第三个参数:1左右翻 0 上下翻 -1 对角翻

2021-04-27 10:39:10 1053 5

原创 Python OpenCV-基本图形绘制

1.导入模块import cv2 as cvimport numpy as np 2.OpenCV绘图大致步骤OpenCV 图形绘制步骤(1)先定义基础画布canvas = np.zeros((400,600,3),dtype=np.uint8)+255(2)画布分界,(300,0)分别是宽、高cv.line(canvas,(300,0),(300,399),(0,0,0,),2)(3)在画布上绘制图形,如画圆cv.circle(canvas, (150, 300), 88, (0, 0,

2021-04-21 16:34:23 610

原创 Python OpenCV-循环播放图片

1.导入相关模块import timeimport cv2 as cvimport osimport sysfrom itertools import cycle2.单窗口显示图片# OpenCV窗口显示img = cv.imread('C:/Users/Administrator/Desktop/New_Study/IMAGE/Pictures/1.jpg')cv.namedWindow('Show image ',cv.WINDOW_NORMAL)cv.imshow('Show i

2021-04-21 16:21:38 5689

原创 Python OpenCV-基础图像处理

1.导入CV模块import cv2 as cv2.读取单通道灰度图及处理#读取图片color_img = cv.imread("C:/Users/Administrator/Desktop/New_Study/IMAGE/flower.jpg")print(color_img.shape)cv.namedWindow('color_img',cv.WINDOW_NORMAL)cv.imshow("Flower",color_img)#读取单通道灰度图gray_img = cv.im

2021-04-21 16:12:04 1145 4

原创 牛客答题(三)-Python版

1.数字字符转换成IP地址"""现在有一个只包含数字的字符串,将该字符串转化成IP地址的形式,返回所有可能的情况。例如:给出的字符串为"25525522135",返回["255.255.22.135", "255.255.221.35"]. (顺序没有关系)"""def restoreIpAddresses( s ): IP = [] merge = '.' data1 = [s[:3],s[3:6],s[6:9],s[9:]] IP1 = merge.join(

2021-04-17 21:07:08 247

原创 牛客答题(二)-Python版

在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片特别注明:本文属于牛客答题Python学习笔记,不以盈利为目的,纯手工码字不容易,若整理的笔记中,对您有所助益,麻烦点个赞或者收藏,万分感谢!如有构成侵权的地方,请联系作者删除,谢谢合作!...

2021-04-16 19:36:43 254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除