自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 资源 (7)
  • 收藏
  • 关注

原创 数据分析师必备的8个思维框架

什么是框架性思维?它是由一个个的思维框架积累而来。本文介绍分析常用的几个思维框架。一些职位描述中会要求分析师有框架性思维,能够被考察的是思维框架,通过思维框架判断框架性思维能力。笔者查阅了多篇文章,定义思维框架为:思考问题的套路,本质是在不断发现问题分析问题解决问题的过程中沉淀的行之有效的方法论。不同行业、不同岗位思维框架不同,不同领域、不同学科思维框架不同。

2024-04-23 19:51:52 910

原创 数据驱动决策的13种思维

举个简单的例子:我们发现全国客户数量下降了,我们从地区和客户年龄层级两个维度先进行观察,发现各个年龄段的客户都下降,而地区间有的下降有的升高,那我们就按地区来拆分第一个逻辑树节点,拆分到大区后,发现各省间的差别是显著的,那就继续拆分到城市,最终发现是浙江省杭州市大量客户且涵盖各个年龄段,被竞争对手的一波推广活动转化走了。简单来说,在数据分析的过程中,我们需要经常去寻找事情间的平衡关系,且平衡关系往往是关乎企业运转的大问题,如市场的供需关系,薪资与效率关系,工作时长与错误率的关系等等。所谓上卷就是反过来。

2024-04-23 19:45:44 661

原创 数据分析专家能力模型

二是如何更有趣的沟通。懂分析也分为三个层级,最高的等级是懂的如何进行系统性全面性的思考,麦肯锡有一个很有名的MECE原则,便是提倡建立一个“相互独立,完全穷尽”的思考框架,能够用逻辑树,对核心问题进行解构,排序优先顺序,并针对核心议题进行分析和建议。如果一个数据分析师的技术能力达到了第三层境界,那么对他来说,不仅仅可以成为一名数据分析专家,未来多了很多职业发展的可能,可以往数据架构,数据治理,数据产品,数字化负责人等岗位走,当然也可以考虑很多企业行业,甚至咨询公司,金融企业相关的数据管理岗位。

2024-04-23 16:30:46 494

原创 指标体系概述

这个之前的指标体系文章里反复强调了,写文章的时候会为了吸引眼球,标题写XXX行业指标体系大全,虽然给大家整理指标体系的时候尽量概括多个业务场景,指标列的很详细,但是不同的公司,业务复杂不一样,没有一套指标系统是能够通用的,只有和业务最贴切的才是最好用的。汇总方式是指用哪些方法衡量,是统计汇总数据的方式。先抓住公司当前阶段的“第一关键指标”,然后再把这个指标拆解到各部门,形成各部门的“第一关键指标”,也就是我们说的OKR,或者是KPI,然后再根据各部门的业务,基于这个第一关键指标思考应该关注哪些细化的指标。

2024-04-23 16:01:25 522

原创 指标体系的搭建方法

比方:衡量一个门店经营的状况,一个门店月净利润20万元,刚看这个指标感觉这个店盈利不少,发展应该不错,但是再一看前两个月的净利润,发现前两个月的净利润都是40万以上,增加了这一个指标,我们就发现了这个店的经营状况可能存在问题了。总之,关于指标体系的搭建可以先模仿再优化,重点是解决业务问题,我整理的一些特定业务场景的指标体系,可以先模仿套用,再根据业务形态加以调整,快的话,2个小时一个指标体系即可搭建完成。搭建指标体系有什么用?因此,搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序增长。

2024-04-19 19:34:18 492

原创 python实现网络爬虫的一个示例

【代码】python实现网络爬虫的一个示例。

2024-04-19 18:14:29 102

原创 指数平滑算法介绍及代码实现

3) 在实际序列的线性变动部分,指数平滑值序列出现一定的滞后偏差的程度随着权系数(平滑系数)的增大而减少;因此,也需要进行修正。4) 修正的方法也是在一次指数平滑的基础上再进行二次指数平滑,利用滞后偏差的规律找出曲线的发展方向和发展趋势,然后建立直线趋势预测模型,故称为二次指数平滑法。它不能单独地进行预测,必须与一次指数平滑法配合,建立预测的数学模型,然后运用数学模型确定预测值。2) 指数平滑法对实际序列具有平滑作用,权系数(平滑系数)越小,平滑作用越强,但是对实际数据的变动反映较迟缓;

2024-04-19 18:03:08 659

原创 熵值法的逻辑及代码实现

信息量越小,不确定性就越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个方案的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。因此,可根据各项指标的变异程度,利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。由于熵值法计算采用的是各个方案某一指标占同一指标值总和的比值,因此不存在量纲的影响,不需要进行标准化处理,若数据中有负数,就需要对数据进行非负化处理!指标值的差距越大,则该指标在综合评价中所起的作用越大;

2024-04-19 16:42:49 266

原创 基于K-prototype算法聚类

k-prototype聚类是一种用于混合数据类型聚类的算法,由Jain和Dubes在1988年提出。它主要用于同时包含连续属性和离散属性的数据集。k-prototype算法可以看作是k-means算法的扩展,它将k-means算法的思想应用于混合数据类型,通过为连续属性和离散属性分别定义距离函数来处理这两种不同类型的数据。

2024-04-19 16:26:52 611

原创 监督算法建模前数据质量检查

二、#绘制记录数和违约率的柱状图,以函数的形式呈现,方便后面使用(主要用来分析非数值型字段)三、绘制记录数和违约率的柱状图,以函数的形式呈现,方便后面使用(主要用来分析数值型字段)四、条形图画法1-离散型变量:反映在某个自变量的取值范围下,目标变量发生的概率。五、条形图画法2-连续型变量:反映在某个自变量的取值范围下,目标变量发生的概率。一、定义缺失值检测函数。

2024-04-19 16:15:18 159

原创 常用的矩阵相关的计算(python代码)

五、找到list中第一个不为0的数。六、求一个数组中不为0的数的均值。七、给lst里面为0的值做补充。一、计算两个数列的相对误差。

2024-04-19 15:35:52 137

原创 通用的文本相似度计算

最长公共子序列(Longest Common Subsequence,LCS)是指两个或多个序列中共同出现的一段连续序列,它在多个序列中都保持相同的顺序和连续性。在计算机科学中,寻找最长公共子序列是一个经典问题,通常通过动态规划算法解决。二、Jaccard相似度(Jaccard Similarity)通过计算两个文本向量在空间中的夹角余弦值来评估它们的相似度。通常与词袋模型(BOW)或TF-IDF结合使用。基于集合的交集与并集的比值来计算相似度。适用于短文本或关键词列表的比较。

2024-04-19 11:23:40 121

原创 windows 11 打包python镜像相关操作

运行中可能会报有我们在本地python环境下不会报的错误,如果遇到缺少依赖包的问题,就在requirements.txt中添加之后重新打包,当然网络不好的时候也会报错。在powershell中cd到程序所在目录,然后执行打包命令,等待打包完成,打包过程会联网请求依赖,打包时间长短取决于网速以及电脑性能。打包好的镜像在本机的docker上,如果想要部署到其他机器上,可以将镜像打包成tar包,实现镜像的迁移。打包完成之后,执行docker images命令,即可以看到生成的镜像。

2024-04-16 18:11:30 250

原创 乔迁新居发言

一个家庭想要在这个社会上生存和发展,就如同一艘小船在生活的汪洋大海上航行,有的人负责掌舵,有的人负责划桨,每个人都有属于自己的使命和职责,只有大家能够明确自己的分工,履行好自己的职责,并能够完美的配合才能确保家庭的小船能够在生活的汪洋大海上平稳的运行。尤其是遇到狂风巨浪和暗礁的时候能否顺利脱离危险,这就更加考验每个家庭人员随机应变的聪明才智、宽广的胸怀和格局、光明磊落的心境以及优秀的团队意识, 因为在危险的面前,我们愿意给他人一束光也是在照亮自己前行的路。因为身体是我们最核心的资本。亲爱的家人们,大家好!

2024-01-24 16:18:37 436

原创 python读取含有多个sheet的xlsx文件,并将解析各个sheet页的数据进行融合

【代码】python读取含有多个sheet的xlsx文件,并将解析各个sheet页的数据进行融合。

2023-06-16 14:34:41 1158

原创 argmap 导出数据到excel

step2: 选择2处的 tools.tbx\excel\table to excel。step1: 点击1处的serch按钮;step3: 把想要导出的数据拖拽到3。step4: 设置导出文件位置。

2023-05-18 09:59:19 153

原创 python把dataframe回写到mysql和pg库

【代码】python把dataframe回写到mysql和pg库。

2023-05-11 16:29:27 419

原创 使用Faker库模拟数据

【代码】使用Faker库模拟数据。

2023-05-11 09:03:41 164

原创 python访问mysql和pg库

【代码】python访问mysql和pg库。

2023-04-28 15:50:22 165

原创 聚类算法概要及相关知识准备

聚类算法相关的基础知识

2022-11-02 18:54:37 635

原创 PLSQL和ORACLE客户端安装

PLSQL安装

2022-10-26 17:17:24 4068

原创 解决ORA-12523: TNS 监听程序无法找到适用于客户机连接的例程

PLQSL登录oracle遇到的问题及解决方案

2022-10-26 11:00:31 1671 2

原创 数据库多表关联更新(update多表关联)

KES与ORACLE数据库的多表关联更新的语法对比

2022-10-25 16:30:51 770

原创 那些年素素在数据库使用过程中踩过的坑-1

记录日常工作中遇到的看似简单但是隐患不小的坑

2022-10-19 10:34:38 162

原创 KingBase 数据库写存储过程中cursor需要用动态拼接SQL的方法进行定义的问题

kingbase 数据库存储过程

2022-09-24 14:51:24 591

原创 回归算法概述

回归算法概述

2022-08-02 19:12:43 270

原创 分类算法实现

分类算法实现

2022-08-02 19:05:08 126

原创 分类算法-下

分类算法

2022-08-02 19:01:34 259

原创 分类算法-上

数据挖掘算法

2022-08-02 18:53:52 158

原创 ORACLE 日常工作中的一些积累

记录日常工作中常用的SQL语句

2022-07-21 11:03:19 167

原创 1-EA使用技巧1

EA使用技巧1

2022-06-19 23:13:48 149

原创 ORACLE-根据输入条件进行查询

ORACLE中根据数据条件返回查询结果

2022-06-19 22:57:43 726

原创 数据挖掘之特征工程

人们观测或者收集到的数据样本是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”。且在高维情形下出现的数据样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型的训练速度,还会获得更好的性能。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限,因此工程的..

2022-05-03 20:59:45 1343

原创 数据预处理-下

1分类型变量变换类型的数值编码当训练模型时,数据集中的字段包含符号字段(分类字段)时,而且该字段也需要被用来参与建模,并且该模型算法需要使用所有记录的数值来进行算法计算。这种情况下就对符号字段提出了挑战。一般的做法是将该符号字段编码为一组数值字段,该组数值字段的个数等于该符号字段的分类个数,一个分类对应一个数值字段。对于该符号字段的每一个取值,对应于该值的那个数值字段的值均被设置为1,其他数值字段的值均被设置为0。这组数值字段(衍生字段)被称为indicator(指示)字段,或者dummy(虚拟)

2022-05-03 18:33:07 357

原创 ORACLE表空间创建及资源使用情况分析

1 查询某个用户下所有表占用空间select segment_name, bytes/1024/1024/1024 from dba_segments where owner = user_name2 查询表空间文件及表空间-- 查询表空间select * from dba_tablespace;-- 查询表空间文件select * from dba_data_files where tablespace = spaceName; -- spaceName 自己指定 -- 查询表中单条

2022-05-03 18:13:13 676

原创 数据预处理-上

数据挖掘数据预处理是对原始数据进行处理,消除噪声和缺失值,建立数据仓库的过程即是数据预处理的过程。数据的重要性在大多数情况下都超过了算法的重要性,质量欠佳的数据很难得到有用的分析结果,因此数据预处理是数据分析过程中至关重要的环节。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。在数据挖掘的整个运作过程中,数据预处理是最重要的一个步骤,通常分析人员会花费60%-80%的经历在数据预处理上。数据预处理是否得当,对后续数据挖掘过程是否有效和质量的好坏有重要的影响,只有高质量的数据,才能有

2022-05-03 17:33:40 669

原创 大数据探索

数据挖掘数据探索是数据分析过程中必不可少的一个环节,数据探索可以有2个层面的理解:一是利用工具,对数据特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对各个字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。在进行数据分析时,需要明确每个字段的数据类型,数据类型代表了数据的业务含义,分为3个类型:区间型数据(Interval)数值型数据的取值都是数值型,其大小代表了对象的状态,比如,年收入的取值,其大小代表了其收入状态。分类型数据(Categorical)分类型数据的每一个

2022-05-03 09:58:40 1030

原创 总论:认识大数据挖掘

数据挖掘有人说,大数据是新时代的黄金和石油,掌握了它,就掌握了新经济的命脉;用好了它,就拥有了新战略型资源。数据挖掘,就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们实事先不知道的,但又是潜在有用的信息和知识的过程。大数据研发的目的是利用大数据技术去发现大数据的价值并将其应用到相关领域,通过大数据的处理相关问题促进社会的发展。数据挖掘的内容集中在几个方面上,即关联、回归、分类、聚类、预测、诊断六个方面。接下来将介绍这六个方面的数据挖掘内容及技术。关联:若两个或多个

2022-05-03 09:36:44 276

原创 python 解析XML文件,并将解析后的数据存放到指定的目录下

-- XML文件的结果为<Message> <Head> <BizMsgID>xxxx</BizMsgID></Head> <Data> <TABLE_1 列名1="B4" 列名2="63" 列名3="2022-02-09T15:29:53" /> <TABLE_2 列名1="B4" 列名2="65" 列名3="xxx" 列名4="1" /> <TABLE_3

2022-04-23 18:04:06 660

原创 ORACLE 查询指定时间之内的日、月及其他汇总

– 连续日期的记录SELECT (TO_DATE('20211001', 'YYYYMMDD' )+ ROWNUM - 1)FROM DUALCONNECT BY ROWNUM <= TO_DATE('20211007', 'yyyymmdd') - TO_DATE('20211001', 'yyyymmdd') + 1;– 连续月份的记录SELECT TO_CHAR( ADD_MONTHS( (TO_DATE('202101', 'YYYYMM' )+ ROWNUM - 1) ,

2022-04-19 12:49:46 871

数据分析+python处理技巧

本文件总结了日常分析中常用的72个数据分析小技巧,辅助数据分析师全面提升工作效率

2022-05-15

查询一个数据库中所有表中的数据量、表中的数据是否有状态区分字段,如果有根据不同的状态区分字段计算表中有效信息、无效信息的数量

查询一个数据库中所有表中的数据量、表中的数据是否有状态区分字段,如果有根据不同的状态区分字段计算表中有效信息、无效信息的数量

2022-03-30

linux系统下执行文件的日志记录范本2.txt

对linux文件运行情况的记录,且可以循环2个参数列表。

2021-09-29

linux系统下执行文件的日志记录范本1.txt

在linux下循环参数列表调用文件,并记录日志的模板1。(只有一个参数的)

2021-09-29

excel函数及使用技巧.docx

文档中总结了日常工作中负责效率提升的excel数据分析小技巧

2021-02-09

public_tool2.py

计算变量IV值, 对样本根据某个字段分层抽样, 给二分类模型打标签

2019-08-07

IDEA 搭建spark环境配置文件pom.xml

IDEA 搭建Spark环境时所需的依赖包配置,可以导入spark基本操作依赖包、机器学习依赖包等等。

2019-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除