自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 xgboost算法的推导

一、xgboost的原理首先值得说明的是,xgboost是gbdt的升级版,有兴趣的话可以先看看gbdt的推导。xgboost同样是构造一棵棵树来拟合残差;不同之处在于(1)gbdt使用一阶导,xgboost使用二阶导。(2)xgboost在loss中包括模型复杂度,gbdt没有。二、xgboost的推导首先我们来定义一下模型:1.符号定义:2.模型定义    假设我们迭代T轮...

2019-11-16 11:20:48 308

原创 特征工程的方法及其说明

什么是特征工程?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:我们今天主要说一下特征工程常用方法。特征工程常用方法1. 时间戳处理时间戳属性通常需要分离成多个维度比如年、月、日、小时、...

2019-11-16 11:19:28 483

原创 Bagging and boosting

作为集成学习的二个方法—bagging和boosting的实现比较容易理解,但是理论证明比较费力。下面首先介绍这两种方法。一、什么是集成学习?所谓的集成学习,就是用多重或多个弱分类器结合为一个强分类器,从而达到提升分类方法效果。严格来说,集成学习并不算是一种分类器,而是一种分类器结合的方法。Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的...

2019-11-16 11:18:33 371

原创 决策树的相关知识

首先通过两个图来引入什么是决策树。决策树是仿树结构来进行决策的,例如上图来说,我们要对‘是否学习’这个问题进行决策时,通常伴随一系列的子决策。先看是否有‘对象’,有的话是否需要‘陪伴对象’,通过一次次子决策后得到最终决策:是否学习。一般情况下,一棵决策树包含一个根节点,若干内部节点和若干叶节点,如下图所示,那么与是否学习的决策过程对应起来,‘女票’为根节点,'陪女友’和‘任务’‘吃鸡’为内部...

2019-11-16 11:16:43 237

原创 svm的损失函数

损失函数:是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小,分类器的效果越好,越能反映输入数据与输出类别标签的关系(虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合,导致我们的模型失去了泛化能力)。相反,损失值越大,我们需要花更多的精力来提升模型的准确率。就参数化学习而言,这涉及到调整参数,比如需要调节权重矩阵W或偏置向量B,以提高分类的精度。一、SVM通常使用...

2019-11-12 17:41:51 686

原创 向量的内积和外积

向量是由n个实数组成的一个n行1列(n1)或一个1行n列(1n)的有序数组;向量的点乘,也叫向量的内积、数量积,对两个向量执行点乘运算,就是对这两个向量对应位一一相乘之后求和的操作,点乘的结果是一个标量。点乘公式对于向量a和向量b:a=[a1,a2,a3,…,an]a=[a_1,a_2,a_3,…,a_n]a=[a1​,a2​,a3​,…,an​] b=[b1,b2,b3,…,bn]b...

2019-11-11 19:32:26 3442

原创 离散变量的编码方式

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码或Labe...

2019-11-10 21:27:22 980

原创 连续型特征离散化的原因分析

在机器学习中,看过挺多案例,很多人在处理数据的时候,经常把连续性特征离散化。那么,什么情况下才需要对连续数据离散化呢?一、什么是离散化?连续数据:身高,年龄,工资离散数据:矮,高;红,绿;好,坏……连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。...

2019-11-10 21:01:46 1228

原创 连续数据的离散化处理方式pandas.cut与pandas.qcut

Python实现连续数据的离散化处理主要基于两个函数,pandas.cut和pandas.qcut,今天主要介绍这两个函数。我们先回忆一下,连续数据离散化方法中无监督学习方法主要有两种:等宽法等宽法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定。比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20] 、[21,40] 、...

2019-11-10 20:19:00 836

原创 特征归一化的意义

特征归一化的意义在机器学习领域中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,这个时候我们就需要进行数据标准化处理,原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。特征归一化1、定义数据的归一化处理,即将数据统一映射到[0,1]区间上。...

2019-11-10 16:33:16 2965

原创 最大似然估计(MLE)和最大后验概率估计(MAP)

最大似然估计(MLE)和最大后验概率估计(MAP)是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。但别急,我们先从概率和统计的区别讲起。一、概率和统计是一个东西吗?概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。...

2019-11-07 21:13:33 271

原创 参数估计方法

参数估计有多种方法,下面简单和大家分享以下两种:一、最大似然估计原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大。二、最小二乘法当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。三、两者联系一般假设其满足正态分布函数的特性,在这种情况下,最大似然...

2019-11-07 21:00:24 3287

原创 分类模型评价

评价一个分类模型的好坏,我们需要一些评价指标,如Acc、Recall和Pression等,下面就和大家分享一下这三个指标。一、几个常用术语首先,我们先说一下几个常用术语:TP(True positives)、TN(True negatives)、FP(False positives)、FN(False negatives)TP —— 模型预测样本是正样本,这个样本的真实结果也是正样本;比如:...

2019-11-07 20:54:48 596

原创 L1正则与L2正则的区别

使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization) ,从而限制权值大小,减少过拟合风险。特别是在使用梯度下降来做目标函数优化时,很常见的说法是, L1正则化产生稀疏的权值, L2正则化产生平滑的权值。为什么会这样?这里面的本质原因是什么呢?下面我们从两个角度来解释这个问题。L1正则化表达式L2正则化表达式一、数学角度这个角度从权值的更新公...

2019-11-06 19:47:19 497

原创 过拟合

定义较为复杂的模型通常可以很完美的拟合训练集的每个数据,但往往过于强调拟合原始数据而丢失了算法的本质,当用此模型预测新数据时会表现的很差,也就是说当我们给定一个新值使之预测,就会出现过拟合。出现的原因1、建模样本选取了错误的选样方法、样本标签等,或样本数量太少,所选取的样本数据不足以代表预定的分类规则2、样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则3、假设的模型...

2019-11-06 18:17:02 700

原创 梯度下降求解线性回归

//导包import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inline //随机种子np.random.seed(42)//保存图像Dir="." //一个.表示统计目录 两个.表示父级目录model_ID="linear_models"//定义一个保存图像的函数def sav...

2019-11-05 19:22:45 491

原创 机器学习(Machine Learning)

机器学习(Machine Learning)一、定义机器学习:为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。二、分类(一)有监督学习 (训练样本中包含对应的标签)1、分类问题(样本标签属于离散变量)(1)生成式模型联合概率分布:假设有随机变量X,Y,此时P(X=a and Y=b)用于表示X=a且Y=...

2019-11-04 20:02:45 552

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除