自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 数据分析师掌握的基本技能

数据分析师需要掌握的基本数据分析师基本掌握: 数据预处理 正态性检验 T检验 F检验 去除异常值 缺失值处理 方差检验 卡方检验 非参数检验 置信区间资深数据分析师基本掌握: 多元回归 主成分分析(PCA) 因子分析 聚类分析 神经网络 时间序列 关联规则 决策树 xgboost 堆砌模型...

2021-02-18 20:23:37 243

原创 半年挑战战略分析师训练(2)

近期感悟:近期工作:近期被指派了战略分析组里的数据分析的活儿,试图从数据角度找到一些insights。目前感觉自己的数据分析中提炼出来的insights非常表面和数据向,但是战略分析的上级可以从我的数据中提炼出来更多业务向的内容,从而对业务产生价值。目前,因为做过一点PPT战略咨询的锻炼,写的PPT明显会对flow和insights深度更有考量,这是value plus。如何让数据更有业务sense:建议从商业化的角度来观察数据。毕竟公司还是以盈利为主导,因此数据尽可能从效益提升角度思考。

2022-02-25 18:51:23 1122

原创 半年挑战战略分析师训练(1)

**背景:**之前是做数据分析的,然后因为组织岗位调整的原因被转成了战略分析师,但是对战略分析一窍不通,从此开始漫长艰苦的学习生涯。**感受:**战略分析会站在更宏观的角度,更业务的角度去思考事情。一开始我没办法接受,还在思考一个做数据的怎么做文字?后来发现其实很多有用的信息都是文字,数据真的是很小的一部分。同样做分析,怎么可以漏掉核心的部分呢?总的来说从个人发展角度,战略分析要优于数据分析(除非你是数据挖掘很牛,数学很厉害的的技术人员)。**学习方法:**比较幸运的是我有专业的战略分析朋友愿意指导我。

2022-02-15 11:10:40 794

原创 战略分析师/商业分析师需要掌握的技能

持续会补充技能的拆解

2021-11-29 11:58:18 2870

原创 Python - 方差分析(简单代码)

应用场景:例如一个分类指标教育等级(等级变量),如(大学 - 1,硕士 - 2,博士 - 3)与连续变量每月的月均支出金额是否相关。应用条件:观测样本独立每一组都符合正态分布在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)当然,决策树也可以用来直接判断(不过在目前情况下大可不必)有木有觉得以上描述特别熟悉呀~,没有错,其实方差分析和我们双样本T检验是亲戚。应用场景和应用条件非常类似。import pandas as pdimp

2021-04-12 21:31:22 1595 3

原创 Python -双样本T检验

应用场景:例如一个分类指标(0,1)与连续变量是否有关系。比如我们开卡,是否会开卡(0,1)与每月的月均支持金额的关系应用条件:两个观测样本独立每一组都符合正态分布在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)当然,决策树也可以用来直接判断(不过在目前情况下大可不必)代码示范:import pandas as pdimport os import numpy as npimport matplotlib.pyplot

2021-04-09 21:51:39 2067

原创 Python正态性检验(最简单的方法)

正态分布也被成为高斯分布。我最讨厌理论了,实在是网上理论太多。。。看不进去。直接2个步骤:做Hist图(直方图)用KStest检验P值import pandas as pdimport os import numpy as npimport matplotlib.pyplot as pltos.chdir('C://Users//username//Desktop')df=pd.read_csv('test.csv',encoding='gbk')df['casual'].hi

2021-04-08 19:24:54 2221 2

原创 Python数据清洗 - 如何替换null值(最简单教学)

用SQL/HQL从数据库把数据取出之后,经常会遇到null值。最常需要的是直接替换null值为某个值。接下来快速替换吧~import pandas as pdimport os import numpy as npos.chdir('C://Users//username//Desktop')df=pd.read_csv('test1.csv',encoding='gbk')df1=df['年龄'].replace(np.nan,'12')用的是Numpy模块里面的nan函数将12

2021-04-08 19:01:02 4343 1

原创 Python数据清洗 - 读取数据

直接快速的读取数据,我习惯用os模块。因为假设你在一个文件夹里有很多个文件需要读取,那么你只需要输入一次文件夹地址即可。import pandas as pdimport os os.chdir('C://Users//username//Desktop')df=pd.read_csv('train.csv')...

2021-04-08 18:46:47 167

原创 项目实战:用户留存相关性指标(论错误的相关性矩阵使用与IV值应用)

业务:用户留存与哪些指标有相关性?这个题目听起来听常见,其实有很多误区。**错误❌:**比如网上很多文章直接提议,相关性还不简单?直接调用pandas里面自带的corr()函数,Y(留存)用0,1表示, 然后用seaborn直接画热力图,一目了然呀!代码以及效果如图:import pandas as pdimport seaborn as snssns.heatmap(dc1.corr(),xticklabels=dc1.corr().columns,yticklabels=dc1.corr(

2021-02-17 22:22:15 572

原创 数据分析思维脑图(后续逐步迭代)

数据分析思维脑图

2021-02-14 09:38:43 248

原创 Python数据清洗 - 分组计算&Pivot Table

df5.groupby(‘key’).apply(lambda x:x.describe())#按照Key列分组后计算describedf5.groupby(‘key’).transform(np.mean)#按照Key列分组后计算均值pd.pivot_table(df,values=‘value’,index=[‘date’,‘key’],aggfun=np.mean)#对df进行index为date和key的平均值聚合计算。...

2020-05-12 08:32:18 614

原创 Python数据清洗- groupby excel中的subtotal或者数据透视表

时常会用excel中的建组或者数据透视表按照某列汇总import pandas as pdimport osos.chdir(path)df=pd.read_csv(path)df1=df.groupby('A').sum()#按照A列求和df2=df.groupby(['A','B']).sum()#按照A列和B列求和df3=df.groupby(['A'])['B'].s...

2020-05-07 08:03:52 465

原创 Leetcode算法(面试题59 - I. 滑动窗口的最大值) - 一行代码解决

给定一个数组 nums 和滑动窗口的大小 k,请找出所有滑动窗口里的最大值。class Solution: def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]: return nums if k==0 else [max(nums[i:i+k]) for i in range(len(n...

2020-05-04 10:01:08 143

原创 Python数据清洗 - Merge的好伙伴join

其实学会了merge, join是差不多的功能。只是还是希望在读别人的代码的时候读的懂即可。df1=pd.read_csv('mm.csv')df2=pd.read_csv('nn.csv')d1.join(df2,how='outer')outer和inner就是并集和交集的区别了。...

2020-05-03 22:22:25 124

原创 Dashboard数据可视化Bokeh - 项目2:配对模型练习

可视化呈现:利用了Bokeh中的line和circle语句的实现,应用场景有待思考。。。

2020-05-02 17:37:48 179

原创 Python数据清洗 -excel中的vlookup

处理数据的时候发现很长时间不用Index match,多条件查询竟然忘记了,然后又懒得再去google一下。用Vlookup多条件定位查询竟然报错,所以最后选了一个懒人最合适的办法。Python中的pandas merge…以下代码的意思就是按照同时符合-项目和姓名的求并集,并且以后者也就是df2的文档为基准。分分钟完成~~import pandas as pdimport osos....

2020-05-02 17:36:00 448

原创 Dashboard数据交互可视化Bokeh -项目1:组织疫情人员统计

项目1:组织疫情人员统计目标:应用python中的bokeh实现数据交互的可视化呈现基础:少许pandas,numpyimport pandas as pdimport numpy as npfrom bokeh.plotting import figure,show,output_filefrom bokeh.models import ColumnDataSource,HoverT...

2020-02-06 14:19:22 719

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除