8 genghaihua

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 8k+

seaborn heatmap 热力图

fig, axes =plt.subplots(1,2)# print(train_df.corr())sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0])sns.heatmap(train_df.corr(), annot=True,ax=axes[1])plt.show()可以看到各个特征变量之间的相关性都比较小(一般相关系数大于0.6可以进行变量剔除)。...

2020-05-21 18:04:01

seaborn violinplot小提琴图

小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似,但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。小提琴图如下:小提琴图各位置对应参数,中间一条就是箱线图数据,25%,50%,75%位置,细线区间为95%置信区间。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('d..

2020-05-21 16:48:07

seaborn boxplot 箱线图

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 16:23:59

Seaborn distplot 核密度估计和直方图估计混合

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 15:22:17

seaborn kdeplot 核密度估计

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 14:50:13

seaborn countplot 统计

value counts for a single and tow categorical variable # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt....

2020-05-21 14:18:39

分类模型指标ks的含义

如果理解ROC曲线的话,就很容易理解KS了。roc横纵坐标分别为FPR、TPR。KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离ks值 含义 > 0.3 模型预测性较好 0,2~0.3 模型可用 0~0.2 模型预测能力较差 < 0 模型错误 征信模型中,最期望得到的信用分数分布是正态分布,对于正负样本分别而言,也都是期望呈正态分布的样子。如果KS值过大,一般...

2020-05-15 11:05:21

mysql 获取指定index的列,查询第几列的数据

有同事面试问道这个题目,无聊之下实现了一下。SET @table_name="dim_app_id_source";#表名SET @position_index=3;#第几列SET @limit_num=20;#取多少条数据SET @col_name = (SELECT COLUMN_NAME FROM information_schema.COLUMNS WHERE table_na...

2020-04-29 16:53:49

XGBoost二阶泰勒展开公式推导

2020-01-07 13:00:35

机器学习--Logistic回归计算过程的推导

Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticR...

2019-12-27 17:24:57

securecrt不同session在同一个窗口打开

点击session,右键,选择上open sessions in a tap

2019-10-15 10:17:00

Python 确定多项式拟合/回归的阶数

通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,Perce...

2019-07-26 13:23:59

协方差矩阵的向量表示推导

多维随机变量的协方差矩阵对多维随机变量X=[X1,X2,…,Xn]TX=[X1,X2,…,Xn]T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×nn×n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。 我们定义协方差为ΣΣ, 矩相关性,而不是对象之间的,所以协方差矩阵的大小与维度相同。cici表示第i维的随机变量。这里分母为m...

2019-07-08 14:16:28

牛顿法

牛顿法用于最优化在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:上面的表...

2019-06-27 20:25:07

python利用eval方法提升dataframe运算性能

eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用.如果包含多个步骤,每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....

2019-06-19 16:47:28

numpy数据类型

numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型,避免占用不必要的内存。Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_t Integer (-32768 to 32767) np.int32 int32...

2019-06-19 11:36:22

numpy copy(无拷贝 浅拷贝、深拷贝)类型说明

numpy copy分为三种,no copy,shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作,如numpy的slic...

2019-06-19 10:52:44

xgb 切分点选择

XGBoost是串行生成CART树,但是XGBoost在处理特征时可以做到并行处理,XGBoost并行原理体现在最优切分点的选择,假设样本数据共M个特征,对于某一轮CART树的构建过程中,选择最佳切分点算法如下图:最佳切分点流程图1. 红色框表示根据每个特征大小对训练数据进行排序,保存为block结构,block个数与特征数量相等。2. 绿色宽表示对每个block结构选择最佳特征切分点...

2019-06-18 17:50:34

目标函数、损失函数、代价函数

损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)1损失函数 (一般针对个体)我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如: ,这个函数就称为损失函数(loss func...

2019-06-15 21:39:49

先验概率和后验概率的区别

从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。假如A代表结果,B代表导致A发生的原因那么P(Bi)表示先验概率P(Bi|A)代表后验概率贝叶斯公式:P(Bi|A)=P(A|Bi)P(Bi)/P(A)...

2019-06-15 21:17:00

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。