leileiliang-CSDN博客

原创 xgboost算法的推导

一、xgboost的原理首先值得说明的是，xgboost是gbdt的升级版，有兴趣的话可以先看看gbdt的推导。xgboost同样是构造一棵棵树来拟合残差;不同之处在于（1）gbdt使用一阶导，xgboost使用二阶导。（2）xgboost在loss中包括模型复杂度，gbdt没有。二、xgboost的推导首先我们来定义一下模型：1.符号定义：2.模型定义　　　假设我们迭代T轮...

2019-11-16 11:20:48 308

原创特征工程的方法及其说明

什么是特征工程？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：我们今天主要说一下特征工程常用方法。特征工程常用方法1. 时间戳处理时间戳属性通常需要分离成多个维度比如年、月、日、小时、...

2019-11-16 11:19:28 483

作为集成学习的二个方法—bagging和boosting的实现比较容易理解，但是理论证明比较费力。下面首先介绍这两种方法。一、什么是集成学习？所谓的集成学习，就是用多重或多个弱分类器结合为一个强分类器，从而达到提升分类方法效果。严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的...

2019-11-16 11:18:33 371

原创决策树的相关知识

首先通过两个图来引入什么是决策树。决策树是仿树结构来进行决策的，例如上图来说，我们要对‘是否学习’这个问题进行决策时，通常伴随一系列的子决策。先看是否有‘对象’，有的话是否需要‘陪伴对象’，通过一次次子决策后得到最终决策：是否学习。一般情况下，一棵决策树包含一个根节点，若干内部节点和若干叶节点，如下图所示，那么与是否学习的决策过程对应起来，‘女票’为根节点,'陪女友’和‘任务’‘吃鸡’为内部...

2019-11-16 11:16:43 237

原创 svm的损失函数

损失函数：是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小，分类器的效果越好，越能反映输入数据与输出类别标签的关系（虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合，导致我们的模型失去了泛化能力）。相反，损失值越大，我们需要花更多的精力来提升模型的准确率。就参数化学习而言，这涉及到调整参数，比如需要调节权重矩阵W或偏置向量B，以提高分类的精度。一、SVM通常使用...

2019-11-12 17:41:51 686

原创向量的内积和外积

向量是由n个实数组成的一个n行1列（n1）或一个1行n列（1n）的有序数组；向量的点乘,也叫向量的内积、数量积，对两个向量执行点乘运算，就是对这两个向量对应位一一相乘之后求和的操作，点乘的结果是一个标量。点乘公式对于向量a和向量b：a=[a1,a2,a3,…,an]a=[a_1,a_2,a_3,…,a_n]a=[a1,a2,a3,…,an] b=[b1,b2,b3,…,bn]b...

2019-11-11 19:32:26 3442

原创离散变量的编码方式

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码或Labe...

2019-11-10 21:27:22 980

原创连续型特征离散化的原因分析

在机器学习中，看过挺多案例，很多人在处理数据的时候，经常把连续性特征离散化。那么，什么情况下才需要对连续数据离散化呢？一、什么是离散化？连续数据：身高，年龄，工资离散数据：矮，高；红，绿；好，坏……连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。...

2019-11-10 21:01:46 1228

原创连续数据的离散化处理方式pandas.cut与pandas.qcut

Python实现连续数据的离散化处理主要基于两个函数，pandas.cut和pandas.qcut，今天主要介绍这两个函数。我们先回忆一下，连续数据离散化方法中无监督学习方法主要有两种：等宽法等宽法即是将属性值分为具有相同宽度的区间，区间的个数k根据实际情况来决定。比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20] 、[21,40] 、...

2019-11-10 20:19:00 836

原创特征归一化的意义

特征归一化的意义在机器学习领域中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，这个时候我们就需要进行数据标准化处理，原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。其中，最典型的就是数据的归一化处理。特征归一化1、定义数据的归一化处理，即将数据统一映射到[0,1]区间上。...

2019-11-10 16:33:16 2965

原创最大似然估计（MLE）和最大后验概率估计（MAP）

最大似然估计（MLE）和最大后验概率估计（MAP）是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。但别急，我们先从概率和统计的区别讲起。一、概率和统计是一个东西吗？概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。...

2019-11-07 21:13:33 271

原创参数估计方法

参数估计有多种方法，下面简单和大家分享以下两种：一、最大似然估计原理：最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是概率分布函数或者说是似然函数最大。二、最小二乘法当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。三、两者联系一般假设其满足正态分布函数的特性，在这种情况下，最大似然...

2019-11-07 21:00:24 3287

原创分类模型评价

评价一个分类模型的好坏，我们需要一些评价指标，如Acc、Recall和Pression等，下面就和大家分享一下这三个指标。一、几个常用术语首先，我们先说一下几个常用术语：TP（True positives）、TN（True negatives）、FP（False positives）、FN（False negatives）TP —— 模型预测样本是正样本，这个样本的真实结果也是正样本；比如：...

2019-11-07 20:54:48 596

原创 L1正则与L2正则的区别

使用机器学习方法解决实际问题时，我们通常要用L1或L2范数做正则化(regularization) ，从而限制权值大小，减少过拟合风险。特别是在使用梯度下降来做目标函数优化时，很常见的说法是, L1正则化产生稀疏的权值, L2正则化产生平滑的权值。为什么会这样？这里面的本质原因是什么呢？下面我们从两个角度来解释这个问题。L1正则化表达式L2正则化表达式一、数学角度这个角度从权值的更新公...

2019-11-06 19:47:19 497

原创过拟合

定义较为复杂的模型通常可以很完美的拟合训练集的每个数据，但往往过于强调拟合原始数据而丢失了算法的本质，当用此模型预测新数据时会表现的很差，也就是说当我们给定一个新值使之预测，就会出现过拟合。出现的原因1、建模样本选取了错误的选样方法、样本标签等，或样本数量太少，所选取的样本数据不足以代表预定的分类规则2、样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则3、假设的模型...

2019-11-06 18:17:02 700

原创梯度下降求解线性回归

//导包import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inline //随机种子np.random.seed(42)//保存图像Dir="." //一个.表示统计目录两个.表示父级目录model_ID="linear_models"//定义一个保存图像的函数def sav...

2019-11-05 19:22:45 491

原创机器学习（Machine Learning）

机器学习（Machine Learning）一、定义机器学习：为了解决任务T，设计一段程序，从经验E中学习，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时的性能得到提升。二、分类（一）有监督学习（训练样本中包含对应的标签）1、分类问题（样本标签属于离散变量）（1）生成式模型联合概率分布：假设有随机变量X,Y，此时P（X=a and Y=b）用于表示X=a且Y=...

2019-11-04 20:02:45 552

leileiliang的博客