自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

高级数据分析师,分享Python知识

这里有一群bug工程师,给您最贴心的服务。

  • 博客(82)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python数据分析实战【四】:用Python对用户的评论数据进行情感倾向分析【文末源码地址】

使用 pandas 中的 read_sql 读取 sqlite 中的数据使用飞浆模型 senta_bilstm 对评论数据进行情感分析使用飞浆模型 lac 对评论数据进行分词使用 groupby+agg 方法统计评论主题中消极和积极用户分布使用 value_counts 方法统计整体评论分布情况使用 pyecharts 绘制柱状图、词云图

2022-01-19 21:20:50 12129

原创 Python数据分析实战【三】:用python实现常用的用户分层模型(RFM模型)【文末源码地址】

1. RFM 模型的原理及代码实现2. 使用 pandas 中的 read_sql 读取 sqlite 中的数据 3. 使用 to_datetime、map 方法计算距离用户上次消费所过去的天数4. 使用 groupby+agg 方法统计消费频次、消费总金额5. 使用 merge 方法合并 datafram 数据6. 使用 quantile 方法计算用户消费数据的分位数

2022-01-11 14:51:49 3420

原创 Python数据分析实战【二】:用Python对不同的商品销售数据进行预测分析【文末源码地址】

1. os 模块获取上一级目录的绝对地址2. pands 读取 sqlite3 数据库中的数据3. 用sklearn中的线性回归模型预测销售额数据4. pyecharts 绘制柱状图

2021-12-31 15:08:37 8024

原创 Python数据分析实战【十二】:机器学习决策树算法案例实战【文末源码地址】

sklearn机器学习决策树算法案例实战

2020-12-01 13:56:55 6045 11

原创 Python数据分析实战【十一】:学习用scorecardpy搭建风控评分卡模型【文末源码地址】

评分卡模型scorecardpy库github地址:https://github.com/ShichenXie/scorecardpy数据预处理import scorecardpy as scimport pandas as pdimport numpy as npscorecardpy自带数据dat = sc.germancredit()查看数据行列dat.shape(1000, 21)数据是由1000行,21列数据组成查看数据内容,用sample()比head()可以

2020-11-23 09:40:38 7176

原创 sklearn【Recall】召回率介绍,以及实战代码!

在分类任务中,Recall(召回率)是一个关键的评估指标,用于衡量模型正确识别正例的能力。特别是在那些对正例误判损失较大的场景中,Recall尤为重要。本文将介绍如何使用sklearn库来计算Recall,并解释其背后的计算原理。首先,我们需要理解Recall的计算方式。Recall衡量的是所有真正为正例的样本中,被模型正确预测为正例的比例。

2024-04-18 11:15:10 289

原创 sklearn【AUC-ROC】原理,以及绘制ROC曲线!

在分类任务中,特别是当数据集中的类别分布不平衡时,评估模型的性能变得尤为重要。AUC-ROC(Area Under the Receiver Operating Characteristic Curve,受试者工作特征曲线下的面积)是一种有效的评估指标,能够全面反映模型在不同分类阈值下的性能,并特别适用于不平衡类别的场景。本文将介绍如何使用sklearn库来计算AUC-ROC,并解释其背后的计算原理。首先,我们需要理解AUC-ROC的计算方式和其背后的含义。

2024-04-18 11:11:32 281

原创 sklearn【F1 Scoree】F1分数原理及实战代码!

在分类任务中,评估模型的性能是至关重要的。除了准确率(Accuracy)之外,我们还需要考虑其他指标,如精确度(Precision)和查全率(Recall),以更全面地了解模型在识别不同类别样本时的表现。而F1分数(F1 Score)是Precision和Recall的调和平均值,能够综合这两个指标,为我们提供一个更加平衡的评估模型性能的视角。本文将介绍如何使用sklearn库来计算F1分数,并解释其背后的计算原理。首先,我们需要理解F1分数的计算方式。

2024-04-18 10:56:43 593

原创 23万条数据集,可以用来区分钓鱼网站!

是一份大小为100M左右的csv文件,我们可以用pandas来读取数据。PhiUSI IL网络钓鱼URL数据集是一个由134,850个合法和100,945个网络钓鱼URL组成的实质性数据集,我们在构建数据集时分析的大部分URL都是最新的URL,特征是从网页和URL的源代码中提取的,Char连续率、URL标题匹配分数、URL Char Prob和TLD合法Prob等特征是从现有特征中派生出来的。

2024-03-14 10:49:05 1011

原创 用Python判断节假日,以及节假日的SQL数据文件

在我们的日常生活中,节假日是一个重要的组成部分。无论是个人计划还是商业活动,了解特定日期是否为节假日都是非常有用的。在Python中,我们可以使用一些内置的日期和时间模块来判断一个日期是否是法定节假日。在数据分析工作中,判断节假日的使用场景主要有以下几个方面:综上所述,判断节假日在数据分析工作中具有广泛的应用场景。通过合理利用节假日数据,可以更好地理解用户需求和市场变化,提高业务运营的效率和效果。首先,我们需要导入Python的datetime模块。这个模块提供了日期和时间的各种操作,包括日期的比较、计算等

2024-01-15 15:52:20 1159

原创 耗时7天!用python开发出一款可视化下载股票数据的工具,源码文末免费下载!

我对股票不感兴趣,我感兴趣的是技术。页面展示:股票数据来源自开源社区tushare,建议自己注册一个token使用,内置的token是我的,超过使用量会被限制,token注册地址:https://tushare.pro/register?reg=591167使用方法:运行 app.py 文件,在浏览器中访问:http://127.0.0.1:8888/ 即可使用。【文末获取下载地址】

2023-12-05 16:33:19 927

原创 自动化项目实战:用requests库自动保存王者荣耀英雄皮肤到本地,文末附源码下载!

王者荣耀是一款备受欢迎的手机游戏,拥有众多精美的英雄皮肤。如果你想获取这些皮肤的图片或者其他相关信息,可以利用Python编写一个简单的爬虫来实现。

2023-09-13 10:56:02 517

原创 PyGame实战案例之绘制“代码雨“,仅30多行代码即可实现!

PyGame是一个用于制作2D游戏的Python库。它提供了许多功能,如游戏开发、音频处理和图形渲染等。PyGame库可用于制作各种类型的游戏,从简单的休闲游戏到复杂的冒险游戏。总之,pygame是一个功能强大的Python库,可以帮助开发者制作有趣的2D游戏。它的跨平台、开源、易学易用和灵活性使其成为游戏开发的首选库之一。

2023-09-12 18:30:13 318

原创 数据量大,分析困难?试试pandas随机抽样

在数据分析和机器学习领域,随机抽样是一个非常重要的技术。它可以帮助我们从大量的数据中获取一部分样本,以进行统计分析、建模和预测。而在Python中,pandas是一个非常强大的数据分析库,它提供了许多方便的函数和方法来处理数据。今天,我将向大家介绍如何使用pandas进行随机抽样,让我们一起来探索吧!

2023-09-07 13:46:30 773

原创 20个pyhton简单代码,适合新手小白零基础!

软件安装报错项目源码运行有误需要帮忙编写代码 or 解决BUG可以点击底部关于我们,帮忙解决!

2023-08-29 09:23:51 6544 1

原创 通过案例详解python字典操作,一种灵活的方式来存储和访问数据

总的来说,Python字典是一种非常重要和常用的数据类型,用于存储和访问键值对数据。字典提供了一种灵活的方式来组织和操作数据,可以使用键来访问和修改值。通过理解字典的特性和用法,可以更好地利用Python编程语言的功能。

2023-08-21 15:08:26 376

原创 scikit-learn(sklearn)库中的网格搜索(Grid Search)自动化的方法来搜索最佳参数组合

在机器学习中,调参是一个非常重要的步骤,它可以帮助我们找到最优的模型参数,从而提高模型的性能。然而,手动调参是一项繁琐且耗时的工作,因此,我们需要一种自动化的方法来搜索最佳参数组合。在这方面,scikit-learn(sklearn)库中的网格搜索(Grid Search)功能为我们提供了一个便捷的解决方案。网格搜索是一种通过遍历给定的参数组合来寻找最佳参数的方法。它的基本思想是将参数空间划分为一个个网格,然后在每个网格中进行模型训练和评估,最终找到最佳参数组合。

2023-08-18 14:18:15 739

原创 一文学会sklearn中的交叉验证的方法

在机器学习中,我们经常需要评估模型的性能。而为了准确评估模型的性能,我们需要使用一种有效的评估方法。五折交叉验证(5-fold cross-validation)就是其中一种常用的模型评估方法,用于评估机器学习模型的性能和泛化能力。在本文中,我们将介绍五折交叉验证的原理和实现方法,并探讨其在模型评估中的重要性。在机器学习中,我们通常需要将数据集分为训练集和测试集。训练集用于训练模型,而测试集用于评估模型的性能。

2023-08-18 14:16:46 811

原创 通过案例学习pandas计算相关系数

相关系数是一个介于-1和1之间的值,表示两个变量之间的关联程度。相关系数为正表示两个变量呈正相关关系,即当一个变量增加时,另一个变量也增加;相关系数为负表示两个变量呈负相关关系,即当一个变量增加时,另一个变量减少;相关系数接近于0表示两个变量之间没有线性关系。

2023-08-18 14:15:47 895

原创 一文学会sklearn中的交叉验证方法,cross_validate和KFlod实战案例

在机器学习中,我们经常需要评估模型的性能。而为了准确评估模型的性能,我们需要使用一种有效的评估方法。五折交叉验证(5-fold cross-validation)就是其中一种常用的模型评估方法,用于评估机器学习模型的性能和泛化能力。在本文中,我们将介绍五折交叉验证的原理和实现方法,并探讨其在模型评估中的重要性。在机器学习中,我们通常需要将数据集分为训练集和测试集。训练集用于训练模型,而测试集用于评估模型的性能。

2023-08-09 08:54:41 1584

原创 522个matplotlib绘图案例,包含:折线图、散点图、条形图、饼图、直方图、3D图等,源码可直接运行!

Matplotlib是一个广泛使用的Python绘图库,可以用于生成各种类型的图表和可视化。它提供了丰富的功能和灵活的接口,使用户可以轻松地创建精美的图表。下面将介绍一些常见的Matplotlib图表类型。折线图是Matplotlib中最常见的图表类型之一。它用于显示数据随时间或其他连续变量的变化趋势。通过plot()函数可以绘制折线图,并可以根据需要添加标题、坐标轴标签和图例等。

2023-07-28 09:47:38 1591

原创 Python实现OCR大批量识别图片文字,并将文字保存到txt文档中,文末源码直接拿!

本项目使用的文字识别模型来自飞桨开源模型:该模型基于检测得到的文本框,继续识别文本框中的中文文字。之后对检测文本框进行角度分类。最终识别文字算法采用即卷积递归神经网络。其是DCNN和RNN的组合,专门用于识别图像中的序列式对象。与CTC loss配合使用,进行文字识别,可以直接从文本词级或行级的标注中学习,不需要详细的字符级的标注。该Module是一个通用的OCR模型,支持直接预测。支持识别多种图片类型支持自定义图片路径支持大批量的图片识别支持将每一张图片的文字写入对应的txt文件中。

2023-07-07 15:32:24 2494 4

原创 用python开发了一个绘制股票k线图的工具,还可以预测股票涨跌!【文末附源码和教学视频】

起初,我并不在意echarts,这不过是一个偶然、一次选择、一条简单的代码、一个图表的诞生,直到我完成了K线图的绘制。股票,一个神奇的发明,他看不见摸不着,无法预测,却时刻让你的神经紧绷。他的出现,是对打工人的福音?还是一场灾难?是命运的转折点,还是一夜回到解放前。他都可以帮你实现。K线图,他让你的投资有了参考,花哨的图表下面隐藏着财富的密码。接下来就让我们一起揭开这神秘的面纱。输入你喜欢的股票代码,就可以生成近一年的K线图。如此方便简洁,难免不让人心动。根据算法,还可以预测出明天股票的涨跌

2023-07-04 10:47:36 1447

原创 数据资源整理:中国2020年人口普查数据Excel文件,数据仅供学习【附下载方法】

很多小伙伴在做数据分析项目时找不到数据,这里分享我从《国家统计局官网》下载的2010年人口普查数据,全部是Excel文件,需要的小伙伴可以免费领取一下。

2023-06-18 10:07:39 5672 4

原创 Echarts绘制K线图,文末源码地址!

Echarts支持的图表类型包括折线图、柱状图、饼图、散点图、雷达图、K线图等等,用户可以根据自己的需求选择合适的图表类型。总之,Apache Echarts是一款非常优秀的可视化图表库,它提供了丰富的图表类型和交互方式,可以帮助用户快速构建交互式的数据可视化应用程序。K线图所需数据:时间,开盘价,收盘价,最低价,最高价,我们可以使用JavaScript数组来存储数据。总之,K线图是一种非常重要的股票价格走势图表,投资者可以通过观察K线图来了解股票价格的变化趋势,从而更好地做出投资决策。

2023-05-30 11:12:46 1807

原创 分享一下如何使用echarts绘制散点图

散点图的配置项包括x轴和y轴的坐标轴类型、坐标轴刻度、散点大小和颜色等。然后,我们可以使用echarts的init方法初始化图表,并将其绑定到我们创建的div元素上。接下来,我们可以创建一个div元素来容纳echarts图表,并设置其宽度和高度。// 系列名称,用于tooltip显示,legend图例筛选。// 基于准备好的dom,初始化echarts实例。// 系列配置,根据不同图表有不同的配置。//使用刚指定的配置项和数据显示图像。// 指定图表的配置项和数据。// 自定义图表的宽高。

2023-05-29 17:27:47 1526

原创 用echarts绘制的柱状图、折柱结合图,源码文末免费拿!

本文中的所有代码,全部都有详细注释,有需要的同学可以在文末领取!Apache Echarts 官网地址:https://echarts.apache.org/zh/index.htmlEcharts是一款基于JavaScript的开源可视化库,它提供了丰富的图表类型,包括柱状图、折线图、饼图等等。其中,柱状图是一种常用的图表类型,用于展示数据的分布情况。本文将介绍如何使用Echarts绘制一些常用的柱状图。你可以使用如下命令通过 npm 安装 ECharts在线定制 ECharts在线下载js文件:ht

2023-05-26 14:23:01 1301

原创 Echarts绘制折线图,超简单,源码点击即可运行!【文末源码地址】

本文包含的代码仅为部分片段,完整源码有详细注释,可在文末领取!在当今数字化时代,数据可视化已成为一种必不可少的工具。它可以帮助我们更好地理解数据,从而做出更明智的决策。以下是数据可视化的一些重要性:通过将数据可视化,我们可以更轻松地理解数据。图表和图形可以帮助我们发现数据中的模式、趋势和异常值,从而更好地理解数据。通过可视化数据,我们可以更好地了解数据中的信息,从而做出更好的决策。例如,如果我们正在分析销售数据,我们可以使用可视化工具来查看哪些产品最畅销,哪些产品需要进一步推销。通过将数据可视化,我们可以更

2023-05-25 15:28:25 556

原创 【基础折线图】学习使用flask、echarts搭建数据可视化图表网页

本文中的所有代码,全部都有详细注释,有需要的同学可以在文末领取!数据可视化是数据分析必不可少的环节,我曾经熟练掌握Excel、QuickBI、DataV等数据可视化工具。可是在这越来越卷的环境下,我,一名高级数据分析师,只掌握这些是远远不够的。于是乎,我发现了这个——Apache Echarts。这个工具可以干啥?一个可以让你无限装X的工具,用他制作的图表,不仅能看,而且好看,更重要的是特别好看。用这个工具就可以自己搭建一个数据可视化网站,后端用flask,前端就用echarts绘制图表。

2023-05-23 18:22:55 498

原创 用Python进行AB测试之T检验的案例学习【文末源码地址】

以下是我的一些想法,不足之处还请各位指出,不胜感激!假设我们做了 10000 组测试,每组都有200人参与测试,将每一组实验中的AB版本的签到按钮点击数分别求均值得到,在用A版本的平均值减去B版本的平均值,这样会得到 10000 个平均值差的数据比如:【-20,-14,0,1,2,3,,…】然后自定义划分一些区间,比如【-30,-28】、…【0,2】、【2,4】等,统计一下每个区间的有多少数据,绘制出的频数直方图,如下图所示:用曲线拟合后,如下图所示:

2023-05-18 17:58:06 619

原创 【Tkinter.Floodgauge】当程序需要长时间运行,可以用这个组件显示进度【文末附源码地址】

点击开始后,执行自定义的函数,进度条会随着程序的运行不断变化,加载的进度也是自定义函数传入的值。使用python中的类,来创建界面是最好的选择。我在使用tkinter进行界面化操作的时候,会遇到运行很慢的程序,比如:爬虫下载视频、压缩解压文件,这些操作会很耗时间。使用random库随机生成一个数字,在使用time库让程序休息一会,用来模拟函数长时间运行的状态。原生的tkinter创建的界面比较粗糙,使用ttkbootstrap来美化生成的界面。进度条上显示的内容,比如:mask=‘loading…

2023-05-15 15:27:33 983

原创 Python数据分析实战【十四】:python的三种排序方法:sort、sorted、sort_values案例学习【文末源码地址】

在数据分析的工作中,pandas是我用的最多的工具,在【数据读取】-【数据分析】-【数据存储】整个过程中都有使用,而且pandas进行排序更加方便快速。sorted()方法在实际工作中使用最多,它与sort()只能用在列表上不同,sorted()方法可以用在列表,元组,字典以及所有可迭代对象上。reverse:排序规则,reverse=True 降序,reverse=False 升序。key:是排序的关键词。

2023-05-09 15:45:47 2149

原创 速看,关于Python的17个学习网站,从基础到机器学习【建议收藏】

Plotly 的 Python 图形库,可以制作折线图、散点图、面积图、条形图、误差线、箱形图、直方图、热图、子图、多轴图、极坐标图和气泡图等图表。scikit-learn是python中实现机器学习的一个库,基于numpy、pandas、matplotlib开发,开源稳定的机器学习库。这个是Python各个版本的官方文档,支持下载到本地阅读,可以当做学习手册,在遇到问题的时候查找使用。pandas是python中用于数据分析最好用的工具,提供大量的数据处理方法,可以更高效、便捷的处理不同的数据文件。

2023-05-05 15:00:55 3619

原创 Python数据分析实战【十三】:用pandas将数据划分区间【文末源码地址】

用来将数据划分为不同的区间x:array型数据(DataFrame的每一列数据都是array型数据)bins:传入int型数据,表示划分的区间个数,传入list型数据,表示自定义的区间labels:传入与bins对应区间的标签list型数据(默认为None)retbins:True表示返回划分的区间,False表示不返回划分的区间(默认为False)right:True表示左开右闭,False表示左闭右开(默认为True)x对应所在的区间,array类型。

2023-05-04 14:42:52 1518

原创 【pip换源操作】解决用pip下载Python第三方库慢问题

python自带的第三方库使用pip安装速度会很慢,还有可能会报错。常见的报错信息有:出现以上报错信息,可能的根源在SSL安全协议上,这样的问题但通常可以修改pip的全局第三方库地址解决。

2023-04-13 16:46:20 558

原创 数据资源整理【三】:最全中国各省份城市编码以及经纬度Excel数据【附获取方式】

数据来源于高德地图网站公开数据,

2023-03-31 11:43:28 6986 1

原创 数据资源整理【二】:爬虫获取329万多条姓名数据并保存为sqlite3、Excel、csv文件【文末下载链接】

公开网站《姓名大全》获取,数据和源码仅供学习交流使用。

2023-03-25 11:43:15 307 1

原创 数据资源整理【一】:最全2010年人口普查数据434份Excel文件,数据仅供学习交流使用

中国2010年人口普查数据Excel文件

2023-02-27 13:48:26 911

原创 GUI项目实战【二】:用tkinter+sqlite3制作可登录可注册的GUI界面【文末源码地址】

使用tkinter开发的一款登录和注册图形化界面,并且使用 ttkbootstrap 进行界面美化。

2023-01-12 14:26:35 937

原创 GUI项目实战【一】:requests+tkinter+pyinstaller制作下载图片的可视化exe工具【文末源码地址】

> 1. 使用tkinter的Entry功能获取本地文件夹> 2. 使用tkinter的Label功能设置文本> 3. 使用tkinter的Button功能创建一个按钮> 4. 使用tkinter的Combox功能创建一个下拉框> 5. 使用tkinter的pack方法对界面进行布局

2023-01-06 17:41:39 338

pandas中dataframe数据转为python的基本数据结构list

内容概要: dataframe是pandas中的一种数据类型 list是python的基本数据结构,两者之间可以进行转化 代码示例: import numpy as np import pandas as pd df = pd.DataFrame( data={ "A":1.0, "B":pd.Timestamp("20220121"), "C":pd.Series(1,index=list(range(4)),dtype="float32"), "D":np.array([3]*4,dtype="int32"), "E":pd.Categorical(["test","train","test","train"]), "F":"foo" } )

2022-07-04

使用python新建、读写txt文件,对open()方法的参数进行解读

内容概要: open()方法用来打开各种文件,常用参数说明如下: file:文件地址 mode:'r'读取文件数据、'w'数据覆盖写入文件、'a'数据追加文件末尾 encoding:用何种编码形式打开文件 该方法返回的是文件对象,可以对文件中的数据进行操作 with语句操作txt文件 使用with语句可以保证在操作文件代码出问题时,及时关闭文件 代码片段: with open("./test.txt", "r", encoding="utf-8") as f: txt_content = f.read() print(txt_content)

2022-07-04

省市区编码与经纬度映射表

adcode name 经度 维度 110000 北京市 116.405285 39.904989 120000 天津市 117.190182 39.125596 130000 河北省 114.502461 38.045474 140000 山西省 112.549248 37.857014 .....

2022-06-10

用python开发一个加密Excel数据的网站

1、交互式的UI操作界面 2、支持多种加密算法:md5、sha1、sha224、sha256、sha512 、支持Excel文件加密,以及单独内容加密

2022-01-25

python绘制樱花树的可执行文件

1、随机绘制漂亮的樱花树 2、双击即可执行

2022-01-25

python自动下载2010年人口普查资料源码及数据

1、运行需要安装requests、bs4库 2、运行代码后,数据会保存在同级目录下的excels文件夹 3、源码+已下载好的Excel数据

2022-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除