m0_38093796-CSDN博客

hive 常用日期格式转换固定日期转换成时间戳select unix_timestamp(‘2016-08-16’,‘yyyy-MM-dd’) --1471276800select unix_timestamp(‘20160816’,‘yyyyMMdd’) --1471276800select unix_timestamp(‘2016-08-16T10:02:41Z’, “yyyy-MM-dd’T’HH:mm:ss’Z’”) --147131296116/Mar/2017:12:25:01 +08

2021-09-28 17:59:46 853

原创 Jupyter notebook快捷键

Jupyter notebook快捷键1、命令状态下快捷键按键功能Enter 进入当前编辑模式shift+enter 运行当前cell并选中下一个cellctrl + enter 运行当前cellalt + enter 运行当前cell并在下方插入新cellY 单元转入代码状态M 单元转入 markdown 状态R 单元转入 raw 状态1 设定 1 级标题仅在 ma...

2020-04-07 17:28:44 174

转载 python pd 数据集抽样

（转载：https://m.jb51.net/article/166501.htm）摘要：有时候我们只需要数据集中的一部分，并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景：我有10W行数据，每一行都11列的属性。现在，我们只需要随机抽取其中的2W行。实现方法很简单：利用Pandas库中的sample。DataFrame.sample...

2019-08-21 14:42:16 975

原创分层抽样

用R语言进行分层抽样library(sampling)strata(data, stratanames=NULL, size, method=c(“srswor”,“srswr”,“poisson”,“systematic”), pik,description=FALSE)数据：| 分层 | 个数||-1-|-12|| 2 | 15 ||-3-|-25-||4 |34 |...

2019-05-21 17:14:25 1318

转载常用数据处理功能

#2019-2-2#常见功能整理dt <- data.table(mtcars)#返回dt的最后一条记录dt[.N]#----------==============#根据cyl分组，返回每个分组的记录数dt[, list(total=.N), by = cyl] #可以修改列名-------------#返回第一行记录dt[, .SD[1]] #-------...

2019-02-02 18:01:19 549

转载搭建流失预警模型

搭建流失预警模型2018年10月12日14:43如何支持用户运营，搭建流失预警模型2018-06-09 19:16微博/微信有一个比喻非常恰当：产品如同蓄水池，用户好比池中之水。池子中每时每刻都有新用户源源不断地加入，也有一部分用户选择离开。如果用户流失超过新用户的补给，且速度越来越快、规模越来越大时，产品如若不警惕，蓄水池迟早会干涸。这是用户流失研究的背景。产品阶段不同，...

2019-01-27 20:45:06 2076

转载 python3：文件读写+with open as语句

python3：文件读写+with open as语句转载请表明出处：https://www.cnblogs.com/shapeL/p/9141238.html前提：文中例子介绍test.json内容：hello我们3263421.文件读取（1）打开文件open，默认是已读模式打开文件f = open('../dataconfig/test.json')print(f.read...

2019-01-19 14:45:54 1290

翻译记住逻辑关系

逻辑术语and：与or：或not：非！=：不等于== ：等于>= ：大于等于<= ：小于等于True：真False：假真值表not 真假 not False True not True False or 真假 True or False True True or True True...

2019-01-12 17:56:49 291

原创 data.table X[Y] 与 merge

首先举一个例子library(data.table)X <- data.table(t = 1:4, a = (1:4)^2) setkey(X, t)X# t a# 1: 1 1# 2: 2 4# 3: 3 9# 4: 4 16Y <- data.table(t = 3:6, b = (3:6)^2)setkey(Y, t)Y# t ...

2019-01-12 17:30:43 157

翻译习题24 格式化字符串

输出格式化字符串的两种方法：print(f"we have {beans} beans")print("we have {} beans".format(beans))#习题24print("Let's practice everthing." )print('You\'d need to know \'bout escapes with \\ that do \n newlin...

2019-01-08 19:25:11 128

翻译格式化字符串

输出格式化字符串的两种方式：print(f"we have {beans} beans")print("we have {} beans".format(beans)) #习题24print("Let's practice everthing." )print('You\'d need to know \'bout escapes with \\ that do \n ne...

2019-01-08 19:22:17 193 1

翻译迹象权数WOE、信息值IV、kS值、GINI系数

WOE和IV使用来衡量变量的预测能力，值越大，表示此变量的预测能力越强。WOE=ln(累计正样本占比/累计坏样本占比)IV=（累计正样本占比-累计坏样本占比）*WOE信息值(IV) 预测能力 <0.03 无预测能力 0.03~0.09 低 0.1~0.29 中 0.3~0.49 高 0.5~ 极高 KS和GINI系数用来...

2019-01-08 18:37:48 6739

转载 python快捷键

键盘快捷键——节省时间且更有生产力！快捷方式是 Jupyter Notebooks 最大的优势之一。当你想运行任意代码块时，只需要按 Ctrl+Enter 就行了。Jupyter Notebooks 提供了很多键盘快捷键，可以帮助我们节省很多时间。下面是我们手动选择的一些对你的上手会有莫大帮助的快捷方式。我强烈建议你在阅读本文时逐一尝试一下。未来你会离不开它们的！Jupyter Not...

2019-01-03 18:37:49 276

原创累计核准率与累计违约率

分组数户数累计户数违约户数违约率累计违约户数累计核准率累计违约率 20 20 10 10/20 10 20/100 10/20 30 50 5 5/30 15 50/100 15/50 ...

2019-01-03 17:25:12 3129

原创 GINI系数的计算

简便易用的公式：假定一定数量的人口按收入由低到高顺序排队，分为人数相等的n组，从第1组到第i组人口累计收入占全部人口总收入的比重为wi，则说明：该公式是利用定积分的定义将对洛伦茨曲线的积分(面积B)分成n个等高梯形的面积之和得到的。三角形面积=1*1/2=1/2B面积可以近似成n个等高的梯形面积。高等于h=1/10n个梯形面积的计算公式：h/2(0+x1+x1+x2+x2+x3+…...

2019-01-03 17:06:19 6722

转载模型稳定性指标—PSI

由于模型是以特定时期的样本所开发的，此模型是否适用于开发样本之外的族群，必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异，为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后，针对不同样本，或者不同时间的样本，population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有...

2019-01-03 16:29:02 9773

翻译 Duplicated 与unique

>DT <- data.table(A = rep(1:3, each=4), B = rep(1:4, each=3),+ C = rep(1:2, 6), key = "A,B")> DT A B C 1: 1 1 1 2: 1 1 2 3: 1 1 1 4: 1 2 2 5: 2 2 1 6: 2 2 2 7: ...

2018-12-31 14:26:45 910

翻译经常问的问题

1.关于样本集的复制 > DT <- data.table(a=c(1,2), b=c(11,12))> DT2<-DT #用<-复制数据集，新数据集改变后，原数据集会跟着一起改变> DT2[,new3:=3L]> DT2 a b new31: 1 11 32: 2 12 3 > ...

2018-12-31 14:24:31 905

翻译长表和宽表的相互转化

使用函数melt()和decast()，是reshape2包中函数的增强先考虑传统长宽表转化函数， 1.默认函数a.融合data.table（宽表到长表）考虑如下data.table:> DT = fread("melt_default.csv")> DT family_id age_mother dob_child1 dob_child2 dob_c...

2018-12-31 14:23:22 2777

翻译二级索引和自动索引

1.二级指标a.什么是二级指标？二级指标类似于key在data.table中的作用，但是两者主要有如下差别：它不会对整个data.table进行排序，而是只对当列排序，并将此列存储在属性中index指标中。 data.table中可以有多个二级指标b.设置和得到二级指标> setindex(flights, origin)> head(flights)[,-c(...

2018-12-31 14:21:52 333

翻译 Key(主键)和基于子集的快速检索

主键什么是主键在前面我们讨论了如何用“i”进行提取子集的方法，这节我们采用另一种方法，用主键（key）来提取子集。开始，我们先看一个data.frame,每个data.frame都有一个行名称，先看下面一个data.frame DF :> set.seed(1L)> DF = data.frame(ID1 = sample(letters[1:2], 10, T...

2018-12-31 14:20:32 595

翻译引用语义

上一篇的介绍，所有操作都产生了一个新的数据集，下面主要学习如何添加新的列，更新或删除列。 “：=”的使用 LHS := RHS表格DT[, c("colA", "colB", ...) := list(valA, valB, ...)] ---当只有一列的时候，就可以不用list(),即DT[, colA := valA] 功能表格DT[, `:=`(colA = va...

2018-12-31 14:19:00 224

翻译 data.table基础知识

#加载航班信息#fread 快速文件阅读器#使用data.table 亲自创建#如果列是字符型，则不能转化成因子型（factor）#data.table 不能设置和使用行名字。> library(data.table)> flights <- fread("flights14.csv")> flights> dim(flights) ...

2018-12-31 14:14:30 596

m0_38093796的博客

原创 pandas groupby() 的使用

原创在jupyter中使用R

原创在 pandas中删除空字符

原创 EDA(Exploratory Data Analysis)

原创数据清洗（data clean）

原创 pivot() 、pivot_table() 、melt()

原创 Pandas pivot - ValueError: Index contains duplicate entries, cannot reshape

原创 hive常用日期及转换