自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 pandas groupby() 的使用

groupby()结合agg()和apply(),可以解决很多复杂的分组计算问题。在数据分析中,经常会用到分组,可用函数 pandas 中的groupby()。6、分组汇总,然后再分组计算。3、分组计算均值等统计量。2、分组描述性统计分析。

2023-11-07 17:50:59 114

原创 在jupyter中使用R

参考文章:https://zhuanlan.zhihu.com/p/112388690。则先需要在R中安装好包:‘devtools’,再执行上面的代码就ok了。5、启动jupyter notebook。1、启动Anaconda Prompt。R已经被添加进去,可以愉快玩耍了。

2023-11-06 20:54:36 1454

原创 在 pandas中删除空字符

在数据处理中,经常会碰到数据中含有空字符串,或在前面、后面或中间。

2023-10-26 16:44:57 144

原创 EDA(Exploratory Data Analysis)

简单整理了下EDA处理中用到的tips,前面的数据处理和清洗放在了在‘data clean (数据清洗)’中。

2023-10-26 16:41:34 84

原创 数据清洗(data clean)

整理了下数据清洗的基本流程,异常值部分整理在了EDA中。

2023-10-26 16:35:42 72

原创 pivot() 、pivot_table() 、melt()

在数据处理中,经常会用到长宽表的相互转化,简单梳理了下。

2023-10-26 16:27:35 46

原创 Pandas pivot - ValueError: Index contains duplicate entries, cannot reshape

pandas pivot()

2023-10-23 13:43:23 1451

原创 hive常用日期及转换

hive 常用日期格式转换固定日期转换成时间戳select unix_timestamp(‘2016-08-16’,‘yyyy-MM-dd’) --1471276800select unix_timestamp(‘20160816’,‘yyyyMMdd’) --1471276800select unix_timestamp(‘2016-08-16T10:02:41Z’, “yyyy-MM-dd’T’HH:mm:ss’Z’”) --147131296116/Mar/2017:12:25:01 +08

2021-09-28 17:59:46 853

原创 Jupyter notebook快捷键

Jupyter notebook快捷键1、命令状态下快捷键按键 功能Enter 进入当前编辑模式shift+enter 运行当前cell并选中下一个cellctrl + enter 运行当前cellalt + enter 运行当前cell并在下方插入新cellY 单元转入代码状态M 单元转入 markdown 状态R 单元转入 raw 状态1 设定 1 级标题 仅在 ma...

2020-04-07 17:28:44 174

转载 python pd 数据集抽样

(转载:https://m.jb51.net/article/166501.htm)摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景:我有10W行数据,每一行都11列的属性。现在,我们只需要随机抽取其中的2W行。实现方法很简单:利用Pandas库中的sample。DataFrame.sample...

2019-08-21 14:42:16 975

原创 分层抽样

用R语言进行分层抽样library(sampling)strata(data, stratanames=NULL, size, method=c(“srswor”,“srswr”,“poisson”,“systematic”), pik,description=FALSE)数据:| 分层 | 个数||-1-|-12|| 2 | 15 ||-3-|-25-||4 |34 |...

2019-05-21 17:14:25 1318

转载 常用数据处理功能

#2019-2-2#常见功能整理dt <- data.table(mtcars)#返回dt的最后一条记录dt[.N]#----------==============#根据cyl分组,返回每个分组的记录数dt[, list(total=.N), by = cyl] #可以修改列名-------------#返回第一行记录dt[, .SD[1]] #-------...

2019-02-02 18:01:19 549

转载 搭建流失预警模型

搭建流失预警模型2018年10月12日14:43如何支持用户运营,搭建流失预警模型2018-06-09 19:16微博/微信有一个比喻非常恰当:产品如同蓄水池,用户好比池中之水。池子中每时每刻都有新用户源源不断地加入,也有一部分用户选择离开。如果用户流失超过新用户的补给,且速度越来越快、规模越来越大时,产品如若不警惕,蓄水池迟早会干涸。这是用户流失研究的背景。产品阶段不同,...

2019-01-27 20:45:06 2076

转载 python3:文件读写+with open as语句

python3:文件读写+with open as语句转载请表明出处:https://www.cnblogs.com/shapeL/p/9141238.html前提:文中例子介绍test.json内容:hello我们3263421.文件读取(1)打开文件open,默认是已读模式打开文件f = open('../dataconfig/test.json')print(f.read...

2019-01-19 14:45:54 1290

翻译 记住逻辑关系

逻辑术语and:与or:或not:非!=:不等于== :等于>= :大于等于<= :小于等于True:真False:假真值表not 真假 not False True not True False  or 真假 True or False True True or True True...

2019-01-12 17:56:49 291

原创 data.table X[Y] 与 merge

首先举一个例子library(data.table)X <- data.table(t = 1:4, a = (1:4)^2) setkey(X, t)X# t a# 1: 1 1# 2: 2 4# 3: 3 9# 4: 4 16Y <- data.table(t = 3:6, b = (3:6)^2)setkey(Y, t)Y# t ...

2019-01-12 17:30:43 157

翻译 习题24 格式化字符串

输出格式化字符串的两种方法:print(f"we have {beans} beans")print("we have {} beans".format(beans))#习题24print("Let's practice everthing." )print('You\'d need to know \'bout escapes with \\ that do \n newlin...

2019-01-08 19:25:11 128

翻译 格式化字符串

输出格式化字符串的两种方式:print(f"we have {beans} beans")print("we have {} beans".format(beans)) #习题24print("Let's practice everthing." )print('You\'d  need to know \'bout escapes with \\ that do \n ne...

2019-01-08 19:22:17 193 1

翻译 迹象权数WOE、信息值IV、kS值、GINI系数

WOE和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。WOE=ln(累计正样本占比/累计坏样本占比)IV=(累计正样本占比-累计坏样本占比)*WOE信息值(IV) 预测能力 <0.03 无预测能力 0.03~0.09 低 0.1~0.29 中 0.3~0.49 高 0.5~ 极高 KS和GINI系数用来...

2019-01-08 18:37:48 6739

转载 python快捷键

键盘快捷键——节省时间且更有生产力!快捷方式是 Jupyter Notebooks 最大的优势之一。当你想运行任意代码块时,只需要按 Ctrl+Enter 就行了。Jupyter Notebooks 提供了很多键盘快捷键,可以帮助我们节省很多时间。下面是我们手动选择的一些对你的上手会有莫大帮助的快捷方式。我强烈建议你在阅读本文时逐一尝试一下。未来你会离不开它们的!Jupyter Not...

2019-01-03 18:37:49 276

原创 累计核准率与累计违约率

分组数 户数 累计户数 违约户数 违约率 累计违约户数 累计核准率 累计违约率       20 20 10 10/20 10 20/100 10/20       30 50 5 5/30 15 50/100 15/50 ...

2019-01-03 17:25:12 3129

原创 GINI系数的计算

简便易用的公式:假定一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,从第1组到第i组人口累计收入占全部人口总收入的比重为wi,则说明:该公式是利用定积分的定义将对洛伦茨曲线的积分(面积B)分成n个等高梯形的面积之和得到的。三角形面积=1*1/2=1/2B面积可以近似成n个等高的梯形面积。高等于h=1/10n个梯形面积的计算公式:h/2(0+x1+x1+x2+x2+x3+…...

2019-01-03 17:06:19 6722

转载 模型稳定性指标—PSI

由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有...

2019-01-03 16:29:02 9773

翻译 Duplicated 与unique

>DT <- data.table(A = rep(1:3, each=4), B = rep(1:4, each=3),+                  C = rep(1:2, 6), key = "A,B")> DT    A B C 1: 1 1 1 2: 1 1 2 3: 1 1 1 4: 1 2 2 5: 2 2 1 6: 2 2 2 7: ...

2018-12-31 14:26:45 910

翻译 经常问的问题

1.关于样本集的复制 > DT <- data.table(a=c(1,2), b=c(11,12))> DT2<-DT   #用<-复制数据 集,新数据集改变后,原数据集会跟着一起改变> DT2[,new3:=3L]> DT2   a  b new31: 1 11    32: 2 12    3  > ...

2018-12-31 14:24:31 905

翻译 长表和宽表的相互转化

使用 函数melt()和decast(),是reshape2包中函数的增强先考虑传统长宽表转化函数, 1.默认函数a.融合data.table(宽表到长表)考虑如下data.table:> DT = fread("melt_default.csv")> DT   family_id age_mother dob_child1 dob_child2 dob_c...

2018-12-31 14:23:22 2777

翻译 二级索引和自动索引

1.二级指标a.什么是二级指标?二级指标类似于key在data.table中的作用,但是两者主要有如下差别: 它不会对整个data.table进行排序,而是只对当列排序,并将此列存储在属性中index指标中。 data.table中可以有多个二级指标b.设置和得到二级指标> setindex(flights, origin)> head(flights)[,-c(...

2018-12-31 14:21:52 333

翻译 Key(主键)和基于子集的快速检索

主键什么是主键 在前面我们讨论了如何用“i”进行提取子集的方法,这节我们采用另一种方法,用主键(key)来提取子集。开始,我们先看一个data.frame,每个data.frame都有一个行名称,先看下面一个data.frame DF :> set.seed(1L)> DF = data.frame(ID1 = sample(letters[1:2], 10, T...

2018-12-31 14:20:32 595

翻译 引用语义

上一篇的介绍,所有操作都产生了一个新的数据集,下面主要学习如何添加新的列,更新或删除列。 “:=”的使用 LHS := RHS表格DT[, c("colA", "colB", ...) := list(valA, valB, ...)] ---当只有一列的时候,就可以不用list(),即DT[, colA := valA] 功能表格DT[, `:=`(colA = va...

2018-12-31 14:19:00 224

翻译 data.table基础知识

#加载航班信息#fread 快速文件阅读器#使用data.table 亲自创建#如果列是字符型,则不能转化成因子型(factor)#data.table 不能设置和使用行名字。> library(data.table)> flights <- fread("flights14.csv")> flights> dim(flights) ...

2018-12-31 14:14:30 596

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除