自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阅读从未停止,输出从未开始

数据分析,可视化,网络爬虫,社会心理学,行为科学

  • 博客(92)
  • 收藏
  • 关注

原创 零售超市数据分析经典面试题(趋势和指标分析初探)

本文是“思路比代码重要”系列的第1篇1 - 零售超市数据分析(趋势和指标)01 前言一不小心快半年没更新了,谢谢读者们的不离不弃。以前的 “原理+代码” 系列,侧重的是以通俗易懂的方式来讲解一个模型/算法(比如随机森林,不平衡采样),然后再配上注释详细的代码,方便读者学习基本原理和代码实现,最终实现快速上手并为深入学习打下一些基础。而这篇文章,将开启 “思路比代码重要” 这个新系列,目的是让读者们意识到,很多时候只了解算法模型和捣鼓代码是远远不够的。平时所学理论是严谨的数学,统计学和代码知识,

2022-05-24 21:43:56 731

原创 「流程案例」| 胡润富豪榜数据获取、分析与可视化

前言谁是中国首富?这是每年胡润富豪榜发出时大家最关心的话题。但只关注第一位就太未免浪费这份榜单的价值了,事实上这份榜单能挖掘到的信息很多,比如:哪些行业创造财富的能力最强这些大佬的年龄又集中在哪些区间哪些人资产进步最大本文将从数据获取、数据清洗、数据可视化入手,实现一整套完整的数据分析流程目标网站:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich本文数据代码可以在公众号 “数据分析与商业实践” 后台回复「胡润」获

2021-11-26 12:02:59 2438

原创 计算机视觉 | 2.颜色阈值&蓝幕替换(cv2掩膜的设置,图像堆叠,蓝幕抠图)

前言把图像转为灰度图像的像素网格以及 x 和 y 的函数来处理以后,我们还需要学会如何利用这些信息,例如如何用图像信息来分离特定区域。计算机图形和视频广泛应用了颜色阈值这门技术,比如蓝幕。使用蓝幕时,我们需要识别并替换大片蓝色区域,构建虚拟的背景图就是通过蓝幕进行(比如我们要将下图的蓝色背景换成跑车本该在的跑道上)。能够理解颜色阈值的基本原理并将代码用于实际的案例是本文的目标,下面将详细介绍如何利用Python实现颜色阈值的选取与蓝幕替换,本节的原理和代码结合的十分紧密,所以就不像以往那样拆成原理+代

2021-11-24 17:37:29 6275

原创 计算机视觉 | 3.颜色空间及其转换(hsv通道识别掩膜)

前言把图像转为灰度图像的像素网格以及 x 和 y 的函数来处理以后,我们还需要学会如何利用这些信息,例如如何用图像信息来分离特定区域。计算机图形和视频广泛应用了颜色阈值这门技术,比如蓝幕。使用蓝幕时,我们需要识别并替换大片蓝色区域,构建虚拟的背景图就是通过蓝幕进行(比如我们要将下图的蓝色背景换成跑车本该在的跑道上)。能够理解颜色阈值的基本原理并将代码用于实际的案例是本文的目标,下面将详细介绍如何利用Python实现颜色阈值的选取与蓝幕替换,本节的原理和代码结合的十分紧密,所以就不像以往那样拆成原理+

2021-11-02 21:32:49 2517 2

原创 计算机视觉 | 1. 一切的基础: 灰度图像 (读取,转换,像素定位)

01 引言一切看似复杂的计算机视觉项目,其基础都会回归到单张图片上。能够理解 灰度/彩色图像 的基本原理并将代码用于实际案例是本文的目标。下文将详细介绍如何利用 Python 实现 灰度/彩色图像 的基本处理,主要分为两个部分:详细原理介绍Python 代码实战本文数据代码可以在后台回复「灰度图像」获取02 原理介绍计算机实际上是怎么”看“图像数据的呢?图像只是三维现实场景的二维表示,比如现实中的一辆汽车是三维物体,但如果你给汽车拍张照片,我们就得到了它的二维图像。这张图像包含的信息有

2021-10-31 12:04:00 4719 2

原创 新专栏 | 有趣的计算机视觉

这个专栏结束时,我们将掌握计算机视觉(Computer Vision,下简称 CV)中最基础又最经典项目之一 —— “人脸识别” 背后的原理,并用代码实现完整的流程,最终为以后更深入的学习人工智能下其他领域的知识打下基础。如上图所示,算法程序能:以绘制边框的形式来定位我们的面部位置跟踪面部特征在一段时间内的动作(脸部五官和一些细节比如眉毛等)检测该人脸的性别,配饰情况(眼镜与否)以及情绪所属状态的概率,比如该表情表示该人有80%的概率处在微笑开心的状态文章风格跟以往的 “原理+代码” 系列.

2021-10-31 11:51:05 1250

原创 原理+代码|详解层次聚类及Python实现/层次树怎么看/如何从层次树中查看聚类过程(附源数据)

前言聚类分析是研究分类问题的分析方法,是洞察用户偏好和做用户画像的利器之一。聚类分析的方法非常多,能够理解经典又最基础的聚类方法 —— 层次聚类法(系统聚类) 的基本原理并将代码用于实际的业务案例是本文的目标,同时这也会为理解后续与聚类相关的推文如 K-Means 等打下基础。本文将详细介绍如何 利用 Python 实现基于层次聚类的客户分群,主要分为两个部分:层次聚类详细原理介绍Python 代码实战讲解本文源数据与代码在公众号 “ 数据分析与商业实践 “ 后台回复 ” 层次聚类 “ 即可

2020-12-02 14:36:28 10916 2

原创 joblib 保存训练好的模型并快捷调用(附源数据)

用已知数据集训练出一个较为精准的模型是一件乐事,但当关机或退出程序后再次接到 “ 用新的格式相同的数据来进行预测或分类 ” 这样的任务时;又或者我们想把这个模型发给同事并让TA用于新数据的预测…难道又要自己或他人重复运行用于训练模型的源数据和代码吗?所以这篇推文将展示如何仅用短短的两行代码,便能将优秀的模型下载并加载用于新数据的简便快捷的操作,让效率起飞????注:本文数据与源代码可空降文末获取~joblib 下载/加载最佳模型下载最佳模型反复调优后,我们通常能够获得一个相对精准的模型。

2020-11-02 12:15:10 2812 1

原创 Python Pandas 分类/连续变量的探索性数据分析(附源码与数据)——pandas 描述性统计,交叉表,数据透视表

​这是趣味统计的第 1 期分享作者 l 萝卜正式开始建模与处理数据前,对数据进行探索并有一个初步的认识非常重要,本文将围绕变量探索,展示分类、连续变量,以及两种类型变量结合的探索方法,并展示 Python Pandas 数据处理与可视化中的一些快捷常用骚操作~注:本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~分类变量01 一个分类变量一个分类变量的分析方法可考虑频次和百分比,用饼图或者柱状图表示都可以我们也可以通过设置画布布局来同时显示两

2020-09-07 20:51:23 2425

原创 案例实战 | Python 实现 AB 测试中常见的分层抽样与假设检验 (附代码和数据集)

作者 l 萝卜本文会将原理知识穿插于代码段中,相关代码和数据集可在公众号 “ 数据分析与商业实践 ” 后台回复 " AB测试 " 获取。前言在电商网站 AB 测试非常常见,是将统计学与程序代码结合的经典案例之一。尽管如此,里面还是有许多值得学习和注意的地方。A/B 测试用于测试网页的修改效果(浏览量,注册率等),测试需进行一场实验,实验中控制组为网页旧版本,实验组为网页新版本,实验还需选出一个指标 来衡量每组用户的参与度,然后根据实验结果来判断哪个版本效果更好。通过这些测试,我们可以观察什么.

2020-08-31 20:41:16 1422

原创 主成分分析实现数据描述与变量压缩(附 Python code 与源数据)

前言在之前的文章中,我们已经详细介绍了主成分分析的原理,并用 Python 实现主成分分析。原理+代码|Python基于主成分分析的客户信贷评级实战(附代码与源数据)​在那篇文章中我们指出的主成分分析常见的三个应用场景中,其中有一个是**「数据描述」**,以描述产品情况为例,比如著名的波士顿矩阵,子公司业务发展状况,区域投资潜力等,需要将多变量压缩到少数几个主成分进行描述,压缩到两个主成分是最理想的,这样便可在一张图内表现出来。但这类分析一般做主成分分析是不充分的,能够做到因子分析更好。但因子分.

2020-08-23 18:26:26 767

原创 不到 20 行 Python 代码,轻松玩转波士顿矩阵图!

代码简洁优雅,效果拔群!

2020-08-21 20:51:22 1704

原创 原理+代码|Python 基于主成分分析的客户信贷评级实战(附源数据)

快速上手,代码注释详尽,原理详实!

2020-08-08 16:58:29 1769 2

原创 用技术指导投资是一种什么样的体验 -- Selenium 基金分析【附超详注释 Python code】...

在这里插入图片描述关注一下~,更多商业数据分析案例等你来撩只要输入基金代码即可获取其历年基金净值的爬虫程序与数据分析源代码都已准备好,公众号 “ 数据分析与商业实践 ” 后台回复 ” 基金爬虫 “ 即可获取 ~~前言理财就是理生活,如果理财的过程中还能结合自己所学的技术,岂不美哉?"投资 80% 看行为,20% 看技术;风险在人声鼎沸处,机会在无人问津时。" 这是股神老巴的...

2020-08-07 13:39:58 69

原创 Python 绘制饼图时同时在每一块上显示数值和占比

能来到这篇文章的对 matplotlib 或者 seaborn 应该都挺熟的????所以直接上代码和效果图import matplotlib.pyplot as plt# make the pie circular by setting the aspect ratio to 1# plt.figure(figsize=plt.figaspect(1))values = [3, 12, 5, 8] labels = ['a', 'b', 'c', 'd'] def make_autopc

2020-08-07 11:14:11 11660

原创 原理 + 代码 | Python 实现多元线性回归模型 (建模 + 优化,附源数据)

前言多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方。其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争取以不一样的视角来叙述和讲解如何更好的构建和优化多元线性回归模型。主要将分为两个部分:详细原理Python 实战Python实战Python多元线性回归的模型的实战案例有非常多,这里虽然选用的经典的房价预测,但贵在的流程简洁完整,其中用到的精度优化方法效果拔群,能提供比较好的参考价值。数据探索

2020-08-05 12:47:07 10910 5

原创 Matplotlib 和 Seaborn 中文显示问题,绘图时数值的负号 ‘-‘ 为方块的问题,Jupyter Notebook 实现多行输出

直接上代码,亲测了两年半。import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font', **{'family': 'Microsoft YaHei, SimHei'}) # 设置中文字体的支持sns.set(font='SimHei') # 解决Seaborn中文显示问题,但会自动添加背景灰色网格plt.rcParams['axes.unicode_minus'] = False

2020-08-03 16:48:48 785 1

原创 Python Pandas 选出指定类型的所有列,统计列的各个类型的数量并用于探索性数据分析(附数据与源码)

更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”通过本文,你将知晓如何利用 Pandas 选出指定类型的所有列用于后续的探索性数据分析,这个方法在处理大表格时非常有用(如列非常多的金融类数据),如果能够较好的掌握精髓,将能大大提升数据评估与清洗的能力,为后续建模提供高质量的数据。这个技巧并没有什么原理性的东西,所以这里直接呈现代码。数据读入统计列的各个类型的数量选出类型为 object 的所有列在机器学..

2020-07-30 14:05:04 5003

原创 Pandas 查找,丢弃列值唯一的列 (附源数据与代码)

更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”前言数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如:已支付,已支付,已支付…这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。代码实现上代码前先上个坑吧,数据列中的空值 NaN 也会被..

2020-07-29 14:04:34 851

原创 原理 + 代码 | 手把手教你基于不平衡数据的 Python 反欺诈模型实战(附源数据)

image.png本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:原理介绍Python实战本文用到的数据与源代码可在公众号 “ 数据分析与商业...

2020-07-27 17:30:35 33

原创 原理 + 代码 | Python 实现 Apriori 算法与基于关联规则的购物篮推荐(附源数据)

在这里插入图片描述本文的代码与数据可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 0716 ” 获取,更多商业实践案例等你来撩“ 推荐系统将成为未来十年里最重要的变革,社会化网站将由推荐系统所驱动 ” --- John Riedl明尼苏达大学教授前言智能推荐和泛的营销完全不同,后者是将产品卖给客户作为最终目标;而智能推荐是以“客户需求”为导向的,是给客户带来价值的。常见...

2020-07-27 17:23:26 114

原创 原理+代码|Python实现随机森林并预测宽带客户离网(附源数据)

image.png本文是Python商业数据挖掘实战的第3篇1 - 基于不平衡数据的反欺诈模型实战2 - Apriori算法实现智能推荐3 - 随机森林预测宽带客户离网前言组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现集成学习中随机森林这个经典的...

2020-07-26 12:47:39 120

原创 Python 基于决策边界的随机森林调优(决策树亦适用)

你的调参侠已上线,简单通俗,实操性强

2020-07-26 12:10:33 1481

原创 原理 + 代码 | Python 实现随机森林并预测宽带客户离网(附源数据)

简单通俗又全面的随机森林预测实战

2020-07-26 11:53:56 3051 1

原创 原理 + 代码 | Apriori 算法与基于关联规则的购物篮推荐

本文的代码与数据可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 0716 ” 获取,更多商业实践案例等你来撩推荐系统将成为未来十年里最重要的变革,社会化网站将由推荐系统所驱动 — John Riedl明尼苏达大学教授前言智能推荐和泛的营销完全不同,后者是将产品卖给客户作为最终目标;而智能推荐是以“客户需求”为导向的,是给客户带来价值的。常见的如淘宝的 “你可能还喜欢”,亚马逊的 “购买此商品的用户也购买了” 便是实例。本文就将详细介绍如何用Python实现智能推荐算法,主要将分为两个部分:..

2020-07-17 19:19:56 4172 7

原创 Python 实现不平衡采样 | SMOTE,Tomek Link,SMOTETomek 综合采样

本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:原理介绍Python实战本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。原理介绍与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的.

2020-07-13 21:02:35 16906 6

原创 原理 + 代码 | 手把手教你基于不平衡数据的 Python 反欺诈模型实战

本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:原理介绍Python实战本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。原理介绍与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的.

2020-07-13 18:44:32 1089 2

原创 用技术指导投资是一种什么样的体验【附超详注释 Python code】

风险在人声鼎沸处,机会在无人问津时

2020-07-04 18:54:53 315

原创 【经典案例】 | 多元线性回归模型预测房价(附Python代码与数据)

经典案例,通用流程,还有注释详尽的源代码和源数据。

2020-07-01 11:47:53 6972 1

原创 不到70行Python代码,轻松玩转决策树预测客户违约模型(附案例数据与代码)

简单又全面,超详代码注释案例臻享,还有原味数据集 ~~

2020-06-29 11:25:06 2038

原创 逻辑回归评价指标趣析(AUC,ROC,一致对,相等对)

???? 关注一下~,更多商业数据分析案例等你来撩本文已在公众号 " 数据分析与商业实践 " 首发,更多统计学知识,数据科学案例,Python 数据分析常用骚操作与案例源数据源代码等你来撩 ~~引言Python 实现的逻辑回归后,不像 SAS 那样会自动给出模型精确度的评价,需要人为操作计算 Python 专属的 AUC (Area Under Curve),ROC 曲线与 X 轴围成的面积大小反映了模型的精度。本文将着重 AUC 值和 ROC 曲线背后的原理和 Python 代码实现。下图为

2020-06-24 22:33:21 3565

原创 超详细!逻辑回归实现客户流失预警模型(含源数据)

???? 关注一下~,更多商业数据分析案例等你来撩利用逻辑回归进行客户流失预警建模中涵盖了许多比较细的知识点,思维导图只展示了极小的一部分,相关知识点链接将穿插在文中。本文已在公众号 " 数据分析与商业实践 " 首发,源数据和包含详细步骤和注释的源代码可空降文末。因为源代码中有一些自定义的长函数,直接放在文章中会非常占篇幅,而且阅读体验也不怎么好,而且分享有限,所以更多案例,操作,源数据可移步公众号,资源在精不在多,赶快开始吧!数据读入churn = pd.read_csv('telec

2020-06-24 12:26:48 6075 2

原创 箱线图类别排序可视化,类别排序(category)

本文已在公众号 “ 数据分析与商业实践 ” 首发???? 关注一下~,更多商业数据分析案例等你来撩效果先来看一下排序前后的效果,数据集为北京二手房房价,以增强箱型图(boxenplot)的形式来展示各地区的房价分布情况。能看出还是比较有细节感的,主要是重新对数据集中的各地区进行了排序,从而构建出一个内部顺序不一样但其余不变的数据集,再用TA进行绘图。实现流程数据预览直接绘图调整类别顺序其中,理解 .cat 与理解 .str 类似再次绘图一行代码实现树形图 treem

2020-06-22 11:40:13 1902 1

原创 快捷美丽的决策树可视化(无需安装 graphviz 与其他插件)

???? 关注一下~,更多商业数据分析案例等你来撩本文将专注于决策树的可视化过程,建模原理、结果分析和模型优化则会在未来的博文中呈现。P.S:决策树为客户流失预警项目的必会技能,相关数据源和超详细的代码解析可空降文末~~前言以下是笔者见过的对可视化初学者们最友好的概括:数据可视化是数据视觉表现形式的科学技术研究,主要是借助图形化的手段来清晰有效地传达与沟通信息。但这绝不意味着数据可视化必须为实现其功能而去深究枯燥的绘图代码,亦或是为了使图画看上去高端绚丽而显得过于复杂。需求决策树模型是解释性

2020-06-01 21:14:08 1255 4

原创 多元线性回归模型精度提升的两种经典方法 -- 虚拟变量&方差膨胀因子

原理简单,实现优雅,效果拔群

2020-05-28 20:39:39 9125 1

原创 多元共线性检测 -- 方差膨胀因子(Python 实现)

十分经典,原理简单,实现优雅,效果拔群。

2020-05-24 17:47:04 12045

转载 人生被彻底改变时,我还以为那只是寻常的一天

细数网友们多彩的经历,发现还真是那么回事

2020-05-19 14:21:31 916

原创 商品关联度分析(关联三度,附Python实战) 我的钱就是这么没的,不只有皮尔森系数的相关分析

引言   上一年组织烧烤活动买食材时,我在超市的货架29买了一个烧烤架,然后到货架27买了瓶1.5L的可乐,最后在货架25找到了我需要的塑料小碗。今年再去那家超市的时候,特地再去烧烤架所在的货架查看了一下,看看有没有什么值得记录的灵感。果不其然,摆放在货架29的烧烤架的边上就陈列着塑料小碗和大瓶可乐(虽然数量不是很多,但不用再劳烦我奔波于几个货架之间了,真聪明!)   这个线下商店的管理员是...

2020-04-13 15:01:27 6699 2

原创 Python 实现同期分析:数据分析实战与商业实践(详) -- 追踪用户行为特征

引言  同期群分析的目的在于透过现象找到结果,以时间维度建立同期群,除按时间维度考虑,也可以对来源渠道等维度建立同期群。是一个很不错的数据分析思路与方法。  通过查看用户的后续活跃、留存、访问内容等相关数据,找出有效用户的影响因素。文章目录同期分析作用一览数据清洗构建同期分析表以单独的一个时间为例,为后续构建大循环做准备循环构建动态数据可视化&结果分析关键代码呈现同期分析作用一...

2020-04-10 14:38:37 579

原创 寻找零售密码 | 神奇的黄氏曲线与单位权重值曲线趣析(附 Python 实现)

引言  笔者在商场购物时,无意听见某潮牌店员工们的对话 “上一个月拼得太猛了,现在月初我想放松一下…” “对,是该好好放松了,上个月底前的一段时间我的分店就完成了销售任务,就提前放松啦,达标了还那么拼的话,本月销售做得太多下月目标就会被老板拔高”。  上面这两种情况在零售行业被称为 “月初放松 & 月末踩刹车(零售业术语)”,这两种现象对销售最大化都是一种伤害,零售业的销售额是靠大家...

2020-03-24 20:56:55 4760 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除