一个两个n多个-CSDN博客

原创管道学习

构建管道管道就类似一个生产线一样，先做什么然后在做什么，避免了一次性做完一整个反而出现一些问题。如在进行网格搜索寻找最优参数的过程中，如果事先进行了数据的预处理，在进行划分数据集cv进行交叉验证时，就会出现问题。因为你在之前就已经进行了数据的缩放，在进行划分就类似与将这部分数据的信息泄露给建模过程，这将导致在交叉验证过程中得到过于乐观的结果。构建管道的代码如下：from sklearn.pi...

2019-08-21 10:30:11 228

原创 Kaggle初试-----House Prices

概述这是Kaggle上面入门的一个比较简单的关于房价预测的竞赛，比较适合机器学习方面的初学者。本文做出来的模型得分并不高，没有进行深入的研究探索，只是作为一次练手的项目。本文的一些代码在Github上，仅供参考。缺失值处理首先查看数据集中的缺失值情况，再来判断哪些该丢弃，哪些该填充。分别判断测试集和训练集的缺失值情况，首先查看训练集的情况。代码在data_explore.py中，其中主要就是...

2019-08-06 17:36:10 278

原创航空公司客户流失分析

背景与分析方法本文是接着航空公司客户价值分析，这是拓展思考的部分，这里简单的将它做了一下。在客户管理中，客户流失也是一个十分重要的问题。客户流失对利润增长造成的负面影响非常大，客户与航空公司之间的关系越长久，给航空公司带来的利润就回越高。所以流失一个客户，比获得一个新客户对公司的损失更大。客户流失分析针对老客户进行分析预测，这里的老客户定义为飞行次数大于6次的客户。用航空公司客户信息数据来进行...

2019-07-27 09:47:01 7573 1

原创航空公司客户价值分析(下)

模型训练将之前处理好的数据拿来就进行模型训练，这里用的聚类算法为K-Means算法。K-Means算法主要就在于k=n_cluster参数的确定上面，到底是将k确定为几能进行更好的分类了。这里我采用了SSE手肘法来确定k值，SSE值代表了每一个数据点离聚类中心的距离的评分，即为误差平方。当k小于真实聚类数时，随着k增大数据之间的聚合度会增加，SSE下降幅度会很大，当k快达到真实聚类值时，SSE下...

2019-07-25 22:12:38 1419 2

原创航空公司客户价值分析(上)

本案例来自《Python数据分析与挖掘实战》一书，相关数据集可以在本书的电子资料中找到，下面的一些内容很多都是吸收了书上的内容然后加以改变。简单的介绍一下挖掘的背景与目标，挖掘的背景就是航空公司面临着客户流失、竞争力下降等问题，目标是需要建立一个合理的客户价值评估模型，对客户进行分类区分有价值客户与无价值客户，从而来重新分配资源。本次项目的全部代码和数据集均在github上有,地址为:https...

2019-07-25 21:31:18 1073

原创连续属性离散化方法

离散化方法由于一些数据挖掘的算法，主要是一些分类算法，要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性，即连续的变为离散的。常用的离散化方法有以下三种：等宽法、等频法、基于聚类分析的方法。下面来依次简单介绍一下三种方法的原理：等宽法主要就是将属性的值域分成具有相同宽度的区间，区间的个数由数据本身的特点决定，可能会导致一些区间数据少，一些区间数据多的情况。等频法主要是...

2019-07-18 21:52:59 6090

原创拉格朗日插值法、数据规范化

拉格朗日插值法拉格朗日插值法是插值法中的一种，是用来进行缺失值处理的，将数据集中的未知值，通过拉格朗日插值法推算出来。这里的数学知识就不介绍了，主要介绍在代码中怎么应用。下面以某餐厅一段时间的销售量的数据集来演示使用方法：首先最开始的数据如下：可以看到2月14号这一天的数据是缺失了的，而且还有一部分数据明显是异常的，下面我们就要将缺失的值补上，以及将异常值也变为空补上。import p...

2019-07-18 21:38:18 735

原创数据特征分析

统计量分析用统计指标对定量数据进行统计分析，通常从两个方面进行分析：集中趋势、离中趋势。1、集中趋势(个体集中趋势地度量)通常从以下几个指标来衡量：均值、中位数、众数。2、离中趋势(个人离开平均水平的度量)通常使用标准差、四分位间距、极差、变异系数等。下面简单用一个餐饮销量数据来进行一下统计量分析：#餐饮销量数据统计量分析import pandas as pd#获取数据cateri...

2019-07-17 16:30:35 554

原创异常值分析方法

异常值分析原理异常值指的是样本中的一些数值明显偏离其余数值的样本点，所以也称为离群点。异常值分析就是要将这些离群点找出来，然后进行分析。常见的分析方法有三种：简单统计量分析、3σ 原则、箱型图分析。简单的介绍一下简单统计量分析和3σ 原则，本文主要还是介绍箱型图分析，这是一个比较通用的方法。简单统计量分析主要就是看看最大值和最小值等等，判断其是否超过了范围，有明显的错误。3σ 原则则是在数据服...

2019-07-16 12:33:49 5233

原创模型评估与优化方法

cross-validation交叉验证法是一种非常常用的对于模型泛化性能进行评估的方法。在sklearn中默认的使用的是K折交叉验证法，即是将数据集拆分为k个部分，然后1个作为testing set，剩下的k-1个作为training set。然后进行k次的模型训练，最后得到k个模型的评分。下面介绍一下这个函数的一些常用的参数：cross_val_score(estimator, X, y...

2019-07-14 18:16:24 1307

原创数据预处理

1、预处理方法1.1 StandardScalerStandardScaler方法的原理是将所有数据的特征值转换为均值为0，方差为1的状态，也就是标准正态分布。这样可以确保数据的“大小”是一致的，更有利于模型的训练。使用方法如下：import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import m...

2019-07-10 15:42:53 1405

原创神经网络学习

神经网络原理在这里主要介绍的是MLP算法。在MLP模型中，算法在过程中添加了Hidden Layers，然后在其中进行加权求和计算，最后再把其所计算的结果作为最终的计算结果。然而如果仅仅是简单的加权求和，其模型表现和线性模型的表示不会有很大的不同，所以在生成hidden layers后，还需要对结果进行relu或tanh即是非线性矫正和双曲正切处理。下面来介绍一下MLP模型的一些参数。MLP...

2019-07-08 16:56:03 1165

原创 SVM算法学习

SVM算法原理SVM算法是专门用来处理线性不可分的分类问题的，当然它也可以用来处理回归问题。它用来处理这类问题的方式一般是将数据投射到更高维的空间中，其中用得最普遍的两种升维方法分别是多项式内核(Polynomial kernel)和径向基内核(RBF)。SVM的核函数区别下面用一个酒的分类来说明几个核函数之间的区别：from sklearn.datasets import load_wi...

2019-07-06 21:44:04 723

原创决策树与随机森林学习

决策树(DecisionTree)决策树是一种在分类与回归中都有非常广泛应用的算法，它的原理是通过对一系列问题进行if/else的推导，最终实现决策。下面用一个酒的分类的例子来进行简单的说明。import numpy as npfrom sklearn.datasets import load_winefrom sklearn.tree import DecisionTreeClassi...

2019-07-04 19:04:30 243

原创朴素贝叶斯学习

贝努利朴素贝叶斯这种方法比较适合于符合贝努利分布的数据集，贝努利分布也被称为“二项分布”也就是“0-1分布”。下面用一个例子来说明：假设有一组关于一些因素与下雨之间的联系，例如刮北风、闷热、多云、天气预报是否有雨等等。再给7天是否下雨的数据。#导入贝努力贝叶斯from sklearn.naive_bayes import BernoulliNBimport numpy as npX...

2019-07-03 11:06:28 333

原创线性模型学习

最基本的线性模型-线性回归线性回归，也称之为最小二乘法(OLS)，是在回归分析中最简单也是最经典的线性模型。它的基本原理是：找到当训练数据集中y的预测值和其真实值的平方差最小的时候，所对应的w值和b值。下面是用线性回归来测试一下：from sklearn.datasets import make_regressionfrom sklearn.linear_model import Lin...

2019-07-01 15:16:57 292

原创 K最近邻算法学习(3)

KNN实战之酒的分类使用scikit-learn中内置的酒数据集来进行实验，划分训练集和测试集，对KNN模型进行评分。from sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassif...

2019-06-28 20:52:01 157

原创 K最近邻算法学习(2)

KNN算法处理多元分类任务下面来测试KNN算法在类型有多个的时候的性能，下面的测试是用有5个类别的数据集来测试的。from sklearn.datasets import make_blobsimport numpy as npfrom sklearn.neighbors import KNeighborsClassifierimport matplotlib.pyplot as plt...

2019-06-28 17:34:31 271 1

原创 K最近邻算法学习(1)

1、K最近邻算法原理(KNN)K最近邻算法主要原理就是近朱者赤，近墨者黑。当选取的最近邻数是1时，就是看新数据点离哪个数据最近，则新数据点就是和这个数据是同一类型。当然不能讲最近邻数盲目的设置成1，需要根据具体问题具体分析。当最近邻数大于1时，例如邻数为3时，就是找离新数据点最近的3个点，看这3个点是哪种类型，若其中多数为一类型则新数据点就是这个类型。K最近算法也可以用于回归，原理和其用于分类是...

2019-06-28 14:41:34 206

原创 meshgrid、pcolormesh方法的学习

meshgrid方法meshgrid(*xi, **kwargs)若将两个一维数组变成二维的如下：import numpy as npd = np.linspace(1.0,2.0,3)f = np.linspace(2.0,3.0,4)x,y = np.meshgrid(d,f)print("x:\n{},\ny:\n{}".format(x,y))运行结果如下：![在这里...

2019-06-28 13:40:47 5224

原创 scatter和make_blobs方法的学习

Scatter方法scatter(x,y,s=None,c=None,marker=None,cmap=None,edgecolors=None,.....)x,y:形如shape(n,)，输入数据s:size，标量或形如shape(n,)，可选，默认:20c:color，色彩或颜色序列，参数：b=blue，y=yellow，g=green，k=black...marker:Marker...

2019-06-27 17:52:26 745 1

bug_12的博客