jason7323-CSDN博客

转载【算法】xgboost

https://blog.csdn.net/github_38414650/article/details/76061893https://blog.csdn.net/sb19931201/article/details/52557382https://blog.csdn.net/yinyu19950811/article/details/81079192

2018-05-15 11:17:55 642

首先要明确有多少特征，哪些是连续的，哪些是类别的。检查有没有缺失值，对确实的特征选择恰当方式进行弥补，使数据完整。对连续的数值型特征进行标准化，使得均值为0，方差为1。对类别型的特征进行one-hot编码。将需要转换成类别型数据的连续型数据进行二值化。为防止过拟合或者其他原因，选择是否要将数据进行正则化。在对数据进行初探之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系。根据实际问题分析是...

2018-05-07 13:49:08 1158

转载【数据分箱】WOE，IV

数据分箱是下列情形下常用的方法：1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。3.有些算法只能使用分类自变量，需要把数值变量离散化。数据被归入几个分箱之后，可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的...

2018-04-24 15:20:11 1854

转载【算法】逻辑回归的总结

逻辑回归的总结Logistic Regression算法作为一个二分类算法，主要解决的是线性可分的问题，对于多分类算法，可以利用Softmax Regression算法。Softmax Regression是一般化的Logistic Regression，可以把Logistic Regression看成Softmax Regression的特例。那么Softmax Regression和Logis...

2018-04-24 14:09:57 415

转载【pandas】操作

一、生成数据表 1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))3、用p...

2018-04-19 10:55:10 190

转载【爬虫】Content-Type

在爬虫中向服务器发起一个GET请求的时候在服务器返回的信息头中会表示Content-Type。其实它就是代表我们所访问的资源的类型。如果是Html文件则Content-Type的值未text/html 等等，下面是在网上找到的其它类型的值分别代表的含义。如果以后的爬虫想要爬取音频文件等信息时，我想至少应该判断下content-type，至于再往下怎么做还有待于研究。下面时MIME标准中定义的类型...

2018-03-13 17:05:42 2046

转载【DataFrame】DataFrame操作

创建一个DataFrame，它有几种创建方式：列表，序列(pandas.Series), numpy.ndarray的字典二维numpy.ndarray别的DataFrame结构化的记录(structured arrays)其中，我最喜欢的是通过二维ndarray创建DataFrame，因为代码敲得最少：12345678import pandas as pdimport numpy as npdf...

2018-03-06 15:41:49 2178

转载【算法_调参】sklearn_GridSearchCV,CV调节超参使用方法

GridSearchCV 简介：GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调...

2018-03-06 11:09:19 3418

转载【数据预处理】样本不均匀

不均匀正负样本分布下的机器学习工业界机器学习典型问题:正负样本分布极不均匀(通常<1:10000），有什么较好的方案构造训练集的正负样本分布？构造后如何解决训练数据与预测的分布不一致？上采样、下采样、代价敏感，没什么好办法。这个之前调研过，主要分重采样和欠采样！这种不平衡是因为比率的不平衡给一些学习方法带来问题。但是在某些领域，比如反欺诈和安全，不仅是比率极不平衡，而且是正样本样本绝对数...

2018-03-06 09:44:40 6485

转载【算法】决策树,信息熵,信息增益,Gini

决策树算法中，ID3使用信息增益(选大的)，C4.5使用信息增益比(选大的)，CART使用Gini(选小的)。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一棵决策树的生成过程主要分为以下3个部分:1、特征选择：特征选择是指从训练数据中众多的特征中选择一个特征作为当前...

2017-11-21 16:14:08 14793

转载【算法】随机森林

随机森林RF：以决策树为基学习器构建Bagging集成，由多棵CART构成的，进一步在决策树的训练过程中引入随机属性选择。传统决策树在选择划分属性的时候是在当前节点所有的属性集合中选出一个左右属性进行划分；而在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度。如果k=d（全部属性集），...

2017-11-21 11:09:10 4509 2

转载【算法】Bagging,Boosting

Bagging：bootstrap aggregating的缩写Bagging方法就是将所有training data放进一个黑色的bag中，黑色意味着我们看不到里面的数据的详细情况，只知道里面有我们的数据集。然后从这个bag中随机抽一部分数据出来用于训练一个base estimator。抽到的数据用完之后我们有两种选择，放回或不放回。既然样本本身可以bagging，那么feature是不是也可以...

2017-11-20 23:07:51 201

jason7323的博客