柚子you-CSDN博客

原创线性回归算法

1.简单线性回归在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析；简单线性回归是属于回归(regression)，即label为连续数值型，即用一条直线，最大程度的拟合样本特征和样本数据标记之间的关系建模过程，就是找到一个模型，最大程度的拟合我们的数据，最大的拟合数据，本质上就是找到没有拟合的部分，也就是损失的部分尽量小，就是损失函...

2020-03-29 21:37:11 3246

原创数据预处理和特征工程

1.无量纲化：当数据量纲不一致时需要进行归一化处理，有两种方法：最值归一化(normalization)：把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0～100分、灰度0～255)，受outlier的影响比较大；均值方差归一化(standardization)：把所有数据归一到均值为0方差为1的分布中。适用于数据中没有明显的边界，有可能存在极端数据值的...

2020-03-29 20:42:14 266

原创梯度下降法

一梯度下降法原理梯度下降(Gradient Descent, GD)，是一种基于搜索的最优化方法。梯度下降(Gradient Descent, GD)优化算法，其作用是用来对原始模型的损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。机器学习就是需找一种函数f(x)并进行优化，且这种函数能够做预测、分类、生成等工作。而梯度下降是目前机器学习、深度学习解决最优化问题的算法中，最核...

2020-03-29 19:43:16 259

原创评估机器学习模型的好坏

1.训练集和测试集在用模型进行预测或分类的时候，需要判断得到模型的好坏，就要事先将数据分为训练集合测试集，在sklearn中直接调用train_test_split来划分数据：from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, ...

2020-03-08 22:37:56 1245

原创 KNN算法

一.算法思想KNN算法又称为K近邻学习，是一种监督学习学习算法，可用于分类和回归，其原理就是：给定测试样本，基于距离（一般是欧式距离）找出训练集中与其最靠近的的个训练样本，然后基于这K个样本来预测；在分类任务中，可使用投票法即选择这K个样本中出现最多的类别作为预测的分类结果；在回归任务中，选择这K个样本的均值作为回归预测值。二.代码实现from sklearn import datasets...

2020-03-01 18:54:09 302

原创假设检验1——理论基础

假设检验和区间估计都依赖于抽样分布，利用抽样分布的特性推导出区间估计和假设检验的概率公式。1.假设检验与区间估计由于假设检验与区间估计都是基于抽样分布，即基于样本抽样分布的性质去计算相应的置信区间或者比较临界值判断假设是否成立，两者相比假设检验比区间估计多了一个已知条件，即假设总体参数等于某个常数。例如，对于总体均值的区间估计和假设检验需要用到均值抽样分布（Z 分布或 T分布），如果样本容量...

2019-09-08 16:50:22 1786

原创参数估计（点估计和区间估计）

一、点估计1.点估计就是用样本统计量来估计总体参数。概念理解：当我们想知道某一总体的某个指标的情况时，测量整体该指标的数值的工作量太大，或者不符合实际，这时我们可以采用抽样的方法选取一部分样本测量出他们数值，然后用样本统计量的值来估计总体的情况。例如：想了解一个学校学生的身高情况，就可以随机抽取一部分学生测量他们的身高，得到一个平均值，再用这个样本的均值去估计整体学生的身高情况，就是点估计...

2019-09-07 12:55:38 53889 4

原创用python分析数据的抽样分布

数据集：数据有四列 ID、年龄、价格、港口操作环境:jupyter notebook分析一：按照港口分类，求出各类港口数据年龄和价格的统计量（包括均值、方差、标准差、变异系数等）1.导入数据import numpy as npimport pandas as pddf=pd.read_excel("C:/../data.xlsx",index_col=0,header=0,encodi...

2019-09-03 19:29:22 897

原创常用的统计量和抽样分布

一、统计量**样本均值：**即在总体中的样本数据的均值，反映样本数据的集中趋势。样本方差：每个样本值与全体样本值平均数之差的平方值的平均数；方差是用来衡量随机变量和其数学期望（均值）之间的偏离程度。样本变异系数：变异系数又称为离散系数，定义为标准差与平均值之比，样本变异系数即样本数据的标准差与其均值之比。样本k阶中心矩：在概率论中，矩是用来描述随机变量的某些特征的数字，即求平均值；随机变量...

2019-08-25 23:11:05 2008 1

原创数据的概率分布以及用python绘制分布图

一、基础概念先来看下数据的类型，常见的数据分类方式有三种：第一种是按照数据的结构属性分类，根据数据的存储形式分为结构化数据和非结构化数据，例如数据库的存储对象基本上都是结构化数据，结构化数据是进行数据分析的基本类型；对于非结构化数据，其存在形式多样化，有视频、音频、图片、影像、文档和文本等形式，对于非结构化数据只有将其转化为结构化数据才能进行数分析。第二种按照数据的连续性特征分为离散型数据和连续...

2019-08-11 22:13:42 22078 1

原创用Python实现数据的描述性统计分析

python代码：import numpy as npfrom scipy import statsimport pandas as pddf=pd.DataFrame(np.random.randn(5,6),index=[1,2,3,4,5],columns=["a","b","c","d","e","f"])print("最大值:",np.max(df))print("最小值:...

2019-07-27 14:07:12 3070

原创数据的描述性统计

数据的描述性统计标签（空格分隔）：对数据的描述性统计主要是指对结构化数据的描述分析，可从三个维度进行分析：数据的集中趋势、数据的离散程度和数据的分布形态。描述数据集中趋势的指标有：众数、中位数、平均数（包含算数平均数、加权平均数、集合平均数）和分位数。描述数据的离散程度的指标有：方差、标准差、极差和平均差（数值型数据）；四分位差（顺序数据）；异众比率（分类数据）；离散系数（相对离散程度）...

2019-07-21 17:53:05 3143

weixin_43992800的博客