qq_43380891-CSDN博客

原创蒸汽量预测

蒸汽量预测数据处理读取测试集数据和测试集数据,通过核密度估计(kernel density estimation)的方法绘制测试集和训练集数据各个特征的密度图像for column in data_all.columns[0:-2]: g = sns.kdeplot(data_all[column][(data_all["oringin"] == "train")], color="Red", shade = True) g = sns.kdeplot(data_all[column]

2021-07-31 22:36:03 142

原创 stacking

blending集成方法思路介绍综合多个基础模型，提高最后预测(回归问题或分类问题)的正确率算法流程(1)将总的数据集被分成训练集和测试集，再将训练集拆分成训练集和验证集，所以数据总共分为三类，测试集，验证集，测试集，训练集是为了训练模型，验证集是为了调整模型(调参)，测试集则是为了检验模型的正确率。(2)使用训练集创建了K个模型，如SVM、random forests、XGBoost等，这个是第一层的模型。训练好模型后将验证集输入模型进行预测，得到K组不同的输出，我们记作 ????1,…,??

2021-07-28 19:52:17 463

原创 adaboost

boosting提升方法核心思路：‘三个臭皮匠顶一个诸葛亮’，通过集成多个弱学习器达到强学习器的作用。弱学习器：学习的正确率仅仅比随机猜测好，对于二分类问题，随机猜测的正确率为12\frac{1}{2}21强学习器：分类的正确率较高Adaboost算法介绍adaboost对于二分类问题的处理流程：假设给定一个二分类的训练数据集：T={(x1,y1),(x2,y2),...,(xn,yn)}T= \lbrace (x_1,y_1),(x_2,y_2),...,(x_n,y_n) \rbrace

2021-07-25 19:43:44 81

原创 bagging理论

Baggingbootstraps抽样方式集成学习集成学习的主要思路是组合多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成学习的几类包括：Bagging，Boosting以及Stacking。Adaboost的基本原理对于Adaboost来说，解决上述的两个问题的方式是：1. 提高那些被前一轮分类器错误分类的样本的权重，而降低那些被正确分类的样本的权重。这样一来，那些在上一轮分类器中没有得到正确分类的

2021-07-22 22:04:10 255

原创机器学习分类问题

机器学习分类问题逻辑回归对于逻辑回归问题，我们最终的目的是找到特征x对应的输出y，根据y值类型的不同分为回归问题和分类问题。回归问题与分类问题需要预测的因变量不一样。在回归问题中，因变量是连续性变量，我们需要预测 ????(????|????) 是一个连续的实数，但是在分类问题中，我们往往是通过已知X的信息预测Y的类别，往往是一个离散集合中的某个元素。分类问题的几个模型基于概率的模型线性模型和朴素贝叶斯模型的主要区别：在线性判别分析中，我们假设每种分类类别下的特征遵循同一个协方差矩阵，每两个特征之

2021-07-20 21:15:57 323

原创偏差和方差理论

偏差和方差理论1. 训练误差和测试误差训练误差针对与训练过程中的训练集产生的误差，通过误差函数进行计算，但是我们更加重视测试误差，测试误差体现了模型的泛化能力。2. 偏差和方差第一次接触这个概念，参考一个知乎的解释：首先 Error = Bias + VarianceError反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。举一个例子，一次打靶实验，目标是为了打到

2021-07-18 21:43:23 106

原创机器学习线性模型

课程笔记监督学习：根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。也就是说，在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。监督学习包括回归问题和分类问题回归问题和分类问题的区别：分类和回归的区别在于输出变量的类型:定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。举个例子：预测明天的气温是多少度，

2021-07-15 19:50:59 109

原创机器学习数学基础

机器学习数学基础（一）高等数学函数相关问题函数的定义反函数复合函数导数的相关问题定义：假设函数y=f(x)f(x)f(x)在U(x0)U(x_0)U(x0)处有定义，若：f′(x0)=lim⁡Δx→0f(x0+Δx)−f(x0)Δx=lim⁡x→x0f(x)−f(x0)x−x0存在，则称此极限值为该点的导数 f^{\prime}(x_0) =\lim _{\Delta x \rightarrow 0} \frac{f(x_{0}+\Delta x)-f(x_{0})}{\D

2021-07-13 20:49:16 141

qq_43380891的博客