4 RyanZhengrp

尚未进行身份认证

暂无相关描述

等级
TA的排名 17w+

详解Python的装饰器

Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里。为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。defsay_hello():print"hello!"defsay_goodbye():print"hello!"#bughereif__name_...

2018-12-01 15:51:19

python 可变参数

 定义函数时,有时候我们不确定调用的时候会传递多少个参数(不传参也可以)。此时,可用包裹(packing)位置参数(*args),或者包裹关键字参数(**kwargs),来进行参数传递,会显得非常方便。 1、包裹位置传递deffunc(*args):....#func()#func(a)#func(a,b,c)>>>def...

2018-12-01 15:31:07

机器学习中的标准化/归一化

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化法,还有比如极值法、标准差法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。在数字信号处理中是简化计算的有效方式。归一化处理的好处:1 加快梯度下降的求解速度,即提升模型的收敛速度两个特征区间相差非常...

2018-11-27 09:17:43

离散型特征编码方式:one-hot与哑变量

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操...

2018-11-21 14:48:35

Dummy Variable & One-Hot Encoding

之前处理类别型变量都没有做处理,甚至没想过做啥变换,我这个建模大概是假的吧。DummyVariable虚拟变量的含义虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。虚拟变量的作用最开始用树的模型没有考虑过要处理类别型变量,...

2018-11-21 14:42:54

【pandas】[3] DataFrame通过数据类型选择子数据框

DataFrame.select_dtypes(include=None, exclude=None)ReturnasubsetoftheDataFrame’scolumnsbasedonthecolumndtypes.Parameters: include,exclude :scalarorlist-like Aselecti...

2018-11-04 15:29:32

python 中字典{ }的嵌套

在机器学习中会用字典的嵌套来存储决策树的信息,对绘制树形图有很大的作用,其中嵌套字典的生成是一个递归的过程 如下所示:>>>s={'a':{0:'no',1:{'flippers':{0:'no',1:'maybe'}}},'b':{}}#构造字典>>>s['a'][0]#取值'no'>>>s['a'][1...

2018-10-11 16:44:37

评分卡模型中的IV和WOE详解

1.IV的用途  IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑...

2018-09-28 20:16:33

python 字典遍历

#一、遍历keytest={'aa':'1a','bb':'2b','cc':'3c'}forkeyintest:  print'keyis:',keykeyis:aakeyis:cckeyis:bbforkeyintest.keys():  print'keyis:',keykeyis:...

2018-09-09 20:33:34

Jupyter使用的教程

如何本地运行本教程安装Jupyter到本地,详见JupyterNotebook 安装git后,执行gitclone 到笔记本目录下,执行jupyternotebook菜单栏File Edit View Insert Cell Kernel HelpFileNewNotebook-->Python3打开一个新笔记Open...MakeaC...

2018-09-07 08:24:52

hbase命令梳理

以下命令基于hbase版本:hbase(main):041:0>version1.2.0-cdh5.7.1,rUnknown,WedJun116:30:06PDT2016 generalstatus:查看hbase状态hbase(main):002:0>status1activemaster,1backupmasters,4...

2018-09-06 11:19:51

【pandas】[2] 移动窗口rolling的理解

概念:​​为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。给个例子好理解一点:importpandasaspds=[1,2,3,5,6,10,12,14,12,30]pd.Series(s).rolling(window=...

2018-09-02 21:00:22

【pandas】[1] DataFrame 数据合并,连接(merge,join,concat)

merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下  merge(left,right,how='inner',on=None,left_on=None,right_on=None, ...

2018-08-31 08:41:39

回归预测评估指标

  回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(MeanAbsoluteError)平均绝对误差  MSE(MeanSquareError)平均平方差/均方误差是回归任务最常用的性能度量。  RMSE(RootMeanSquareError) 方均根差  缺点:因为它使用的是平均误差,而平均误差...

2018-08-24 14:19:34

利用随机森林对特征重要性进行评估

前言随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。随机森林(RF)简介只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括:用有抽样放回的方法...

2018-08-24 09:30:53

python nonzero函数

先构建一个简单的矩阵: fromnumpyimport* a=mat([[1,1,0],[1,1,0],[1,0,3]]) print(a) 输出结果如下图:print(a.nonzero()) 第一个array表示非零元素所在的行,第二个array表示非零元素所在的列,分别取对应位置的值组成非零元素的坐标 print(len(a...

2018-08-01 10:52:35

矩阵的运算及其规则

一、矩阵的加法与减法   1、运算规则    设矩阵,,   则           简言之,两个矩阵相加减,即它们相同位置的元素相加减!   注意:只有对于两个行数、列数分别相等的矩阵(即同型矩阵),加减法运算才有意义,即加减运算是可行的.   2、 运算性质 (假设运算都是可行的)    满足交换律和结合律  交换律  ;   结合...

2018-07-30 09:10:48

Java的位运算符详解实例——与(&)、非(~)、或(|)、异或(^)

位运算符主要针对二进制,它包括了:“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符,但逻辑运算符是针对两个关系运算符来进行逻辑运算,而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。 1.与运算符与运算符用符号“&”表示,其使用规律如下:两个操作数中位都为1,结果才为1,否则结果为0,例如下面的程序段。publicclassdat...

2018-07-24 20:51:41

回归预测评估指标

   回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(MeanAbsoluteError)平均绝对误差  MAE=1n∑i=1n|fi−yi|MAE=1n∑i=1n|fi−yi| MSE(MeanSquareError)平均平方差/均方误差是回归任务最常用的性能度量。  MSE=1n∑i=1n(fi−yi)2MSE=1n∑i=...

2018-07-21 11:57:37

二分类模型评价指标-KS值

knitr::opts_chunk$set(echo=TRUE,eval=FALSE)11.KS值1.1概念  KS值越大,表示模型能够将正、负客户区分开的程度越大。   通常来讲,KS>0.2即表示模型有较好的预测准确性。  柯尔莫哥洛夫-斯米尔诺夫检验(Колмогоров-Смирнов检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另...

2018-07-21 11:45:10

查看更多

勋章 我的勋章
    暂无奖章