Charles Han-CSDN博客

原创机器学习基础之KMeans算法

机器学习基础之KMeans算法什么是聚类聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集成为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（也就是类别），如“浅色瓜” “深色瓜”，“有籽瓜” “无籽瓜”，甚至“本地瓜” “外地瓜”等；需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇对应的概念语义由使用者来把握和命名。聚类和分类的区别？...

2019-12-29 22:05:39 645

原创机器学习基础 - 决策树算法

机器学习基础 - 决策树算法1. 本章的主要学习内容为决策树：决策树、信息熵与最优划分、基尼系数、CART实现：决策树实现2. 初始决策树决策树是一个非常有意思的模型，它的建模思路是尽可能模拟人做决策的过程。因此决策树几乎没有任何抽象，完全通过生成决策规则来解决分类和回归问题。因为它的运行机制能很直接地被翻译成人类语言，即使对建模领域完全不了解的非技术人员也能很好地理解它。因此在学术...

2019-12-22 22:16:01 1425

原创机器学习基础之逻辑回归

机器学习基础之逻辑回归算法本章学习重点：逻辑回归：损失函数、梯度、决策边界实践部分：代码实现以及sklearn逻辑回归1. 什么是逻辑回归算法逻辑回归（Logistic Regression，LR）。在Kaggle竞赛的统计中，LR算法以63.5%的出产率，荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中，逻辑回归同样应用广泛，大到国家各项经济政策的制定，小到计算广告CTR，都能看...

2019-12-15 22:48:25 363

原创机器学习基础-最优化方法梯度下降

最优化方法-梯度下降这是机器学习基础的第五篇，本文主要的学习内容为最优化方法即梯度下降：梯度下降：实现梯度下降、线性回归中的梯度下降随机梯度下降：相关代码调用即可1.前言：机器学习方法论之前已经学习了分类算法：KNN算法，回归算法：线性回归，从这些算法中可以知道：机器学习就是需要找到一个函数f(x)并进行优化，且这种函数能够进行做预测、分类、生成等工作。就如何找到函数f(x...

2019-12-08 11:04:08 473

原创机器学习基础-线性回归算法

简单的线性回归什么是简单线性回归？所谓简单，是指只有一个样本特征，即只有一个自变量；所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变量之间是如何关联的。简单线性回归，其思想简单，实现容易（与其背后强大的数学性质相关。同时也是许多强大的非线性模型（多项式回归、逻辑回归、SVM）的基础。并且其结果具有很好的可解释性。基本的推导思路我们所谓的建模过程，其实就是找到一个模型，最大程度的...

2019-12-01 12:14:29 239

原创机器学习中的数据预处理和特征工程

机器学习中的数据预处理和特征工程Week 3无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler缺失值处理处理分类型特征：编码与哑变量处理连续型特征：二值化与分段归一化一般来说，常用的数据归一化有两种：最值归一化(normalization)：把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0～100分、灰度0～255)，受ou...

2019-11-24 22:20:16 261

原创机器学习中如何评价模型的好坏

机器学习中如何评价模型的好坏Week 2 主要学习机器学习中的基础知识Targets for this week：数据拆分：训练数据集&测试数据集评价分类结果：精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等评价回归结果：MSE、RMSE、MAE、R SquaredLet’ s go !数据拆分在机器学习中，通常将所有的数据划分为三份：训练数据集、验证数...

2019-11-17 16:19:44 4188 2

原创非监督学习之Kmeans算法

非监督学习之Kmeans算法Keyword:Clustering, Dimensionality ReductionExample:Clustering Movie: 两人喜好的电影被聚类分为Class A和Class B，这些数据没有label，但是通过聚类可以看出这两类数据之间的区别。K-means Algorithm：Step1: Assign随机的画2个聚类中心，分配距离...

2019-11-10 18:15:22 278

原创机器学习番外篇—朴素贝叶斯三种模型（多项式，高斯，伯努利）

朴素贝叶斯三种模型（多项式，高斯，伯努利）高斯有些特征可能是连续型变量，比如说人的身高，物体的长度，这些特征可以转换成离散型的值，比如如果身高在160cm以下，特征值为1；在160cm和170cm之间，特征值为2；在170cm之上，特征值为3。也可以这样转换，将身高转换为3个特征，分别是f1、f2、f3，如果身高是160cm以下，这三个特征的值分别是1、0、0，若身高在170cm之上，这三个特...

2019-08-29 22:02:43 1314

原创机器学习-监督学习之集成方法

机器学习-监督学习之集成方法Ensemble Methods: Bagging and BoostingBagging: 选出几种算法去分别回答每个问题，然后将几种算法的结果取平均值得到一种新的强化算法Boosting: 每种问题用最适合的算法进行计算，然后合并成强化的算法上述几种算法成为weak learners，生成的超级算法成为strong learners.Bagging Al...

2019-08-25 15:44:01 218

原创机器学习-监督学习之决策向量机算法

机器学习-监督学习之决策向量机算法首先我们看下面的例子，我们有一些蓝色的点和一些红色的点，现在想用一条线来分割他们，我们的目标是让点到分割线的距离尽可能远，这个距离称为Margin。对于复杂问题如下图，我们用两种指标来衡量：1.margin的宽度 2.错分类的数量Error = Classification error + margin errorPerceptron 算法之前学的...

2019-08-23 22:57:27 794

原创机器学习-监督学习之朴素贝叶斯算法

机器学习-监督学习之朴素贝叶斯算法贝叶斯理论是概率论框架下实施决策的基本方法，对分类任务来说，在所有的相关概率都已知的理想情况下，贝叶斯理论考虑如何基于这些概率和误判损失来选择最优的类别标记。基本原理：Prior: 已知的，在A/B发生条件下R发生的概率Posterior: 未知的，推测出来的R发生条件下是A/B的概率误报 False positive举个例子来解释误报，在医院看...

2019-08-18 17:00:22 200

原创机器学习-监督学习之决策树算法

机器学习-监督学习之决策树算法Entropy 熵熵的定义：表示一个随机变量的复杂性或者不确定性从上面的例子中，Entropy可以描述为粒子有多少自由度可以移动上述三种物质中，冰块的熵最小，水居中，蒸汽最大另一个例子来描述熵：当集合越稳固或者具有同类性则熵越低另一个概念：knowledge即从中取出一个球，我们有多大可能知道其中的颜色，我们发现knowledge与entropy是相反...

2019-08-17 13:45:42 558

原创机器学习-监督学习之感知器算法

机器学习笔记2-监督学习之感知器算法简介神经网络是机器学习中的一个模型，可以用于两类问题的解答：分类：把数据划分成不同的类别回归：建立数据间的连续关系对于回归问题如下是一个入学成绩的例子：X1 和 X2 为两个影响因素 Test和Grades， W称为权重，b称为偏差当Wx+b>0时则结果为1(蓝色)，当Wx+b<0时则结果为0(红色)如果有n维的话，上述方程同样适用...

2019-08-14 22:33:39 616

原创机器学习-监督学习之线性回归

机器学习笔记1-监督学习文章目录机器学习笔记1-监督学习线性回归用数据拟合直线调整直线绝对值技巧Absolute Trick平方技巧 Square Trick线性回归 Linear RegressionError Function随机梯度下降法与批量梯度下降法在SKlearn中实现高维度求解w1, w2数学组方法注意事项正则化 Regularization线性回归分类预测的是状态，而回归预测...

2019-08-13 21:04:46 326

weixin_45516016的博客