自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 模型融合---Stacking&Blending

模型融合是指通过分层对模型进行集成,比如以两层为例,第一层为基学习器,使用原始训练集训练基学习器,每个基学习器的输出生成新的特征,作为第二层模型的输入,这样就生成了新的训练集;第二层模型在新的训练集上再进行训练,从而得到融合的模型。Stacking Stacking是模型融合的常用方法,重点是在第一层中,如何用基学习器生成新特征,包含训练数据集的新特征和测试数据集的新特征。1...

2019-07-01 17:33:56 1203 1

转载 ubuntu权限问题

scp 文件 : /目录: Permission denied解决方法:先把需要移动的文件改变权限:777重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/仍然permission denied然后对目标文件夹修改权限:777再次执行,成功注:事实上,只是因为没有写入的权限,因此只需要修改目标文件夹的权限即可,使其拥有写入权限...

2019-01-29 14:32:32 461

转载 ubuntu权限问题

scp 文件 : /目录: Permission denied  解决方法:先把需要移动的文件改变权限:777  重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/ 仍然permission denied 然后对目标文件夹修改权限:777  再次执行,成功注:事实上,只是因为没有写入的权限,因此只需要修改目标文件夹的权限即可...

2019-01-29 14:28:46 960

原创 WOE转化的意义

之前一直在网上搜为什么在做评分卡的时候,要把bian变量转化为WOE,现在找到一定的原因,记录一下。先说结论:转化为WOE后,WOE值与对应的违约率是呈单调相反的关系。即WOE值越高,其违约率越低。对应的违约率:该箱内,该箱坏样本占该箱总样本的比例。因为没有转化前,违约率与变量的箱shi是没有太大关系的。上图很明显,cutpoint与badrate是没有线性关系的,而w...

2019-01-25 14:37:17 5918

原创 对ctree(条件推断决策树)的个人理解

个人的一些理解,不一定对。首先对因变量和单个自变量进行卡方检验,计算出因变量与所有自变量的卡方值,选择p值小于阈值(如0.05,一般小样本和中等样本都为0.05)的自变量进入模型,这时已经确定好那些自变量进入模型,下一步就是选择哪个zi自变量作为第一次分割的自变量,方法:在进入模型的自变量中,选择与因变量的相关性最高的那个自变量作为第一次分割的自变量。那么,怎么来划分呢,就是用置换检验来确定。置换...

2018-12-03 13:48:43 5479 1

原创 卡方分箱--基于四格表方法

import pandas as pdimport numpy as npdef ceshi(df,col,target,max_interval=5): colLevels = set(df[col]) #去重 colLevels = sorted(list(colLevels)) N_distinct = len(colLevels) total = ...

2018-11-07 17:55:35 1185

原创 记录python错误

安装python3时候出现权限错误,提示环境变量有问题,这时候需要加上在pip install    包名   后加--user

2018-08-03 10:18:42 159

转载 xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?

传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。xgboost在代价函数里加入了正则项,用...

2018-08-01 10:22:39 337

原创 决策树

C4.5算法可以用R语言的Rweka包中的J48函数来实现,但是此函数参数较多。rpart包是用来实现cart决策树的。

2018-07-14 15:07:46 194

转载 GBDT+LR

# 弱分类器的数目n_estimator = 10# 随机生成分类数据。X, y = make_classification(n_samples=80000) # 切分为测试集和训练集,比例0.5X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)# 将训练集切分为两部分,一部分用于训练GBD

2017-12-19 15:43:51 475

原创 ubuntu开机进入initramfs的解决办法

电脑在公司,晚上没关机,第二天启动ubuntu的时候就出现了这个情况,原因可能是由于晚上断电导致的,但是我晚上关掉虚拟机了,所以建议大家,晚上把电脑也关了。开机进入了initramfs界面,输入exit也没用。后来网上看了解决办法,有两种一、使用fsck -y  /dev/sdbn命令,如果这个有用的话,最后输入reboot重启虚拟机就可以了。二、使用fsck/dev/sda1命令

2017-12-12 11:36:51 22247 6

原创 对ROC和KS曲线的理解

先上图ROC曲线是评判一个模型好坏的标准,有两个值要知道,FPR(假正率)和TPR(真正率),ROC曲线就是以这两个值为坐标轴画的。比如逻辑回归得到的结果是概率,那么就要取阈值来划分正负,这时候,每划一个阈值,就会产生一组FPR和TPR的值,然后把这组值画成坐标轴上的一个点,这样,当选取多组阈值后,就形成了ROC曲线(每次选取一个不同的阈值,我们就可以得到一组FPR和TPR,即ROC曲

2017-10-24 21:24:51 21407

原创 GBDT

这一篇记录一下目前比较常用的集成算法GBDT。集成算法从根上来看,主要分为两大类--boosting和bagging。先说bagging,他的思想是建立多个弱学习期,最后的结果进行投票决定,而且每个弱学习器的训练样本都是在总样本中随机抽样的,这个算法是并行的,每个弱学习器是一起运算的。而boosting算法,其原理是在上一个弱学习器的基础上,构建下一个弱学习器,也就是根据上一个弱学习器的结果,对样

2017-10-18 10:07:55 678

转载 对梯度下降原理的理解

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度    在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂

2017-10-17 13:44:26 1114

原创 ubuntu16.04启动失败解决

今天启动uibuntu后,系统卡住,然后就直接关了,结果,第二次重启的时候就出错了,应该是硬盘检测错误,错误是这个:The root filesystem on /dev/sda1 requires a manual fsck硬盘sda1检测出现问题了,我用的解决办法是输入代码:fsck -c /dev/sda1执行后一直按y,然后就成功了,再重启就好了

2017-10-16 10:04:55 12709 1

原创 基于spark构建逻辑回归

from __future__ import print_functionfrom pyspark.sql import Rowfrom pyspark.sql import SQLContextfrom pyspark import SparkContextfrom pyspark.ml.classification import LogisticRegressionfrom

2017-10-13 15:13:27 1220

原创 关于spark中dataframe数据处理

在数据处理中遇到一个问题,当有一个数据集输入,需要将其中一个维度进行处理,该怎么操作,这里拿二值化操作举例,from pyspark import SparkContextfrom pyspark import SQLContextfrom pyspark.ml.feature import Binarizersc=SparkContext()sqlco

2017-10-13 11:45:23 2677

原创 spark mllib 的数据预处理

Tokenizer(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。基于python的实现fr

2017-10-13 10:06:28 1175

原创 对xgboost原理的理解

先空着

2017-10-12 20:34:01 434

原创 解决hadoop集群中有一个slaver的datanode启动失败

个人觉得,原因很有可能是master上存在hadoop的临时文件导致的,解决办法就是删除master上的tmp临时文件和所有日志文件。然后重新将master的hadoop文件压缩打包,再传递给slaver。然后将slaver上的旧hadoop删除掉,把传过来的新的hadoop解压安装。重点:这个方法会导致HDFS中存储的所有文件丢失。代码:在master上执行下列代码cd/

2017-10-12 15:29:50 1008

原创 CNN卷积神经网络原理记录

卷积神经网络最让人迷惑的地方就是在于他的卷积过程,还有其权值共享的原理。下面从初始化序贯模型(一种可以在中间随意堆叠神经网络层的结构)开始记录。卷积神经网络的目的是应用于图片识别,最初的成熟的CNN模型是手写数字识别,银行很早就开始应用这个系统。本文只是对原理的理解心得(纯属个人理解),不涉及任何公式推导。现在有一张1000*1000的照片,总共有1000000个像素点,也就是有1000000

2017-10-12 09:34:48 972

原创 GANs生成对抗网络知识点初探

纳什平衡纳什平衡是在GANs中提到的一种对结果衡量的标准,由于生成对抗网络的结果是接近与0.5的,解释一下:结果大于0.5表明生成网络生成的样本接近于真实样本,小于0.5则说明样本是假的,GANs的结果一般是在0.5附近。而其极限的情况则是等于0.5,也就是说判别网络判别不出来了,这时候就被称为纳什平衡。

2017-10-10 19:52:31 445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除