3 dt_lizhen

尚未进行身份认证

我要认证

码出精彩人生

等级
TA的排名 1w+

一分钟巧记精准率、召回率

学习过机器学习算法的同学一定不会对精准率、召回率陌生。精准率(precision)和召回率(recall)是对二分类模型效果评价的指标。下图为精准率和召回率的计算公式:由于这里面涉及到TP、FN、FP、TN这四个指标...

2020-05-27 08:29:54

Excel反向匹配

Excel的vlookup应该是我们日常办公室使用频率最高的函数之一了。通过vlookup我们可以快速地进行核对数据,多个表格之间快速导入数据等函数功能。但vlookup函数有一个缺点,就是要求匹配列必须在查询列之后。如果匹配列在查询列之前,在使用vlookup之前我们需要将查询列移到匹配列之后。下面为大家介绍一种不需要变动原表结构就可以实现反向查询的方法:index+match函数有...

2020-03-13 11:11:07

市盈率和市净率

市盈率市净率

2020-02-26 15:19:15

货币供应量——M0、M1、M2

货币

2020-02-22 00:28:23

excel利用公式取最后一行单元格内容

我们在数据处理中经常会涉及到去数据的前几行、后几行这样的操作。在excel中,取前几个单元格,我们可以直接写"=A1"这样的函数去取数。但是取最后一行的话,则不能写成"=Ax"这样类型的函数,因为若表格的行数变化了的话,会导致我们取到的就不是最后一行的数据了。大家可以通过函数"=INDIRECT("A"&COUNTA(A:A))"来取得最后一行的数据。结果如下:...

2019-11-19 11:23:54

Excel的Sumif、Sumifs求和结果错误

最近在利用excel的sumif函数求和时,发现结果大于真是结果。分析发现原因:sumifs的判断条件为数值型,但长度大于15位,excel会将长度大于15位的数字后面默认为0。例如下面的例子,若用账号1进行聚合求和,由于账号长度为16位,大于excel的数值最大位数15位。excel会将9919000000041035和9919000000041039都默认为9919000000041030...

2019-10-14 16:54:02

类别特征的独热编码和二进制编码

我们在建模之前,一般需要对数据进行预处理。对于分类变量,一般模型不能直接作为变量输入,需要进行编码。分类变量常用编码方式如下:有序变量:序号编码无序变量:独热编码、二进制编码下面为大家介绍独热编码和二进制编码之间的区别。1)独热编码:独热编码会将变量的不同取值(N种取值)分别赋予一个只有1位为0的N维向量。例如星期,共有7个取值,独热编码会把它编码成一个7维稀疏向量。星期一表示为(...

2019-09-23 19:08:22

利用excel的lookup函数来数据分箱

我们在对数据进行统计时,经常会按照一定的标准将数据先分为若干类,然后统计每一类的数据的频率和占比。例如,我们需要统计不同分数段学生的人数。我们拿到的是每个学生的具体的分数,目的是统计不同分数段学生的人数。为了达到这个目的,我们先要将分数划分到指定的分数段,然后再统计每个分数段的人数。之前我是通过一连串的if语句将数据进行分箱,这样做的坏处有:1)代码较长,容易出错;2)风箱逻辑改变后不能复用。...

2019-08-08 17:32:30

mysql安装个人总结

最近换了新工作,帮部门同事处理一些数据分析的工作。拿到的数据是excel格式的,评估后觉得导入到数据库中做处理会方便一下,所以计划在本地安装MySQL。发现版本已经更新到8.0.16,记得上次安装还是在读书的时候,版本也是5.X.X。由于很久没有安装MySQL,安装差不多用了一个晚上,最后还是在同学的帮助下完成了安装。现将安装过程中需要注意的一些点记录下来,以便日后再次安装使用。1.下载地址:...

2019-06-06 09:46:52

TF-IDF个人总结

TF-IDF算是nlp工程师必须掌握的入门级别的算法。作为兴趣爱好,之前曾阅读过几篇介绍该算法的博客,对其只是知道个大概。最近在看吴军老师的《数学之美》,里面对TF-IDF的介绍使得我对该算法有了更深刻的认识。现将个人对该算法的理解整理如下:TF-IDF是一种统计方法,用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它①在文件中出现的次数成正比增加,但同时会...

2019-05-29 18:19:11

变量相关性热力图

我们在建模的时候为了避免多重共线性一般都会分析变量之间的相关性。衡量变量相关性我们一般都是计算变量两两之间的皮尔逊相关系数( Pearson correlation coefficient)。为了能够更好的展现变量之间的相关性,下面为大家介绍如何利用热力图来表示变量之间的相关性。def corr_map(df): var_corr = df.corr() mask = np....

2019-04-13 10:41:36

利用Shap Value挑选变量

#Shap Valueclf = lgb.LGBMClassifier(objective='binary',random_state=1024).fit(X_train,y_train)explainer = shap.TreeExplainer(clf)shap_values = explainer.shap_values(X_train)shap.summary_plot(...

2019-03-19 09:07:51

利用PermutationImportance挑选变量

我们在构建树类模型(XGBoost、LightGBM等)时,如果想要知道哪些变量比较重要的话。可以通过模型的feature_importances_方法来获取特征重要性。例如LightGBM的feature_importances_可以通过特征的分裂次数或利用该特征分裂后的增益来衡量。一般情况下,不同的衡量准则得到的特征重要性顺序会有差异。我一般是通过多种评价标准来交叉选择特征。博主认为,若一个特...

2019-03-19 08:57:39

CNN卷积池化后维度的变化

CNN的卷积操作后维度变化:输入维度:,分别代表输入样本的长宽高 卷积操作的超参数 卷积核个数: 卷积核大小: 滑动步长(Stride): 填充(Padding): 则输出的维度为,其中 由于CNN的参数共享机制,每个卷积核的参数个数为,共有个权重和个偏置 若想要卷积后得到的矩阵长宽与卷积前保持一致,则当时 卷积核为3时 padding 选择1...

2019-02-23 10:22:24

RNN系数矩阵维度之间的关系

我们知道RNN有三个系数矩阵需要训练,经常会被这些矩阵的维度搞晕。下面举一个简单的例子让大家记住各个矩阵维度之间的关系。 输入:输出:隐层(记忆):其中,,  ...

2019-02-20 23:47:10

Mysql的字符串转日期

 我们在对mysql的数据进行分析时,经常会遇到将业务意义为时间类型的变量定义为字符串的情况。如果我们需要按照时间维度进行分析的话,首先先要将字符串转换为时间类型。这里就需要使用Mysql的函数:STR_TO_DATE(str,format),其中,str为需要转换的字符串;format为str中时间的格式。注意:str中必须包含年月日,时分秒可以不包含。select STR_T...

2019-01-22 14:12:16

python 循环创建变量

数据分析时,我们经常会有这样的需求:将数据集按某一个维度拆分成若干数据子集、创建多个变量。如果手动去实现,工作量较大。我们可以通过locals()配合循环语句来实现这一需求。我们以鸢尾花数据集为例,我们按照花的种类将数据集拆分成数据子集,分别放到不同的变量中去。实现代码如下:fromsklearn.datasetsimportload_irisiris=load_iris()...

2019-01-02 21:54:45

Sql中的DDL和DML

对于数据分析人员,我们对数据库的操作无非就是建表、修改表结构、修改表内容(增删改)、查询表内容这些操作。下面总结了这些操作的区别 DDL 数据定义语言(Data Definition Language) 不需要commit 对表格的定义进行修改 create table 创建表 alter table 修改表 drop table 删除表 truncate table...

2019-01-02 15:58:49

python的axis判断

axis = 0,对横轴(第0维)进行操作,运算的方向为纵向运算。即求列和、最大、最小等axis = 1,对纵轴(第1维)进程操作,运算的方向为横向运算。即求行和、最大、最小等import numpy as npimport numpy as npdata = np.array([[1,1,1,1], [2,2,2,2], ...

2018-12-26 22:28:26

树类模型特征重要性计算方法

我们在使用GBDT、RF、Xgboost等树类模型建模时,都会有一个feature_importance的方法来返回特征重要性。下面总结了不同树类模型计算特征重要性的原理:Random Foreast 袋外数据错误率 基尼指数 GBDT 基尼指数 Xgboost gain:is the average gain of splits which use the featur...

2018-12-18 23:39:36

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取