guieraxbc-CSDN博客

原创机器学习基础篇：K-Means聚类分析

机器学习基础篇：K-Means聚类分析文章目录机器学习基础篇：K-Means聚类分析常用的聚类分析算法K-Means聚类算法导入库及初始化数据集K-Means类实现初始化和拟合模型绘制初始和最终聚类中心常用的聚类分析算法算法名称算法描述K-MeansK-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据K-中心点系统聚类K-Means聚类算法基于距离的非层次聚类算法，在最小化误差函数的基础上将数

2021-10-12 18:50:07 988 1

原创牛客刷题-数据结构篇（python）

目录数字颠倒/字符串反转外逆序+内逆序列表倒序输出汽水瓶兔子，斐波那契数列小球弹5次求A和B的最小公倍数单词倒排，去除多余分隔符单词倒排网友版-摘自解题评论统计字符，数字的个数、空格的个数、中英文的个数等差数列字符统计，按权重排名，按value顺排，按key逆排Redraiment的走法，即最长顺序数记负均正1计负均正2二分法求解立方根杨辉三角的偶数位置问题完全数计算：大于这个数1/2的公因子是不存在的递归求解放苹果-摘自解题评论十进制转二进制，查找输入整数二进制的1的个数计算某字母出现次数不足8位，补全输

2021-10-10 19:14:11 649

原创机器学习基础篇：支持向量机 - SVM

文章目录支持向量机 - SVM一、简单定义二、基本术语三、线性可分支持向量机四、线性支持向量机五、非线性支持向量机参考支持向量机 - SVM一、简单定义支持向量机（support vector machines,SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机：支持向量机还包括核技巧，这使它成为实质上的非线性分类器，支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题，支持向量机的

2021-09-10 01:24:30 462

原创关于线性分类 - 从线性回归到其他机器学习模型到线性分类

关于线性分类 - 从线性回归到其他机器学习模型到线性分类线性分类一、频率派 - 统计机器学习1、线性回归：从三个方面来打破：属性、全局、系数①属性非线性：②全局非线性：③系数非线性：全局性：数据未加工：2、线性分类线性分类有两种①硬分类：②软分类：3、感知机模型（硬分类）4、线性回归和线性分类的关系从回归到分类二、贝叶斯派 - 概率图模型概率图参考线性分类从两个角度来看机器学习(点击此处 - 频率派和贝叶斯派)一、频率派 - 统计机器学习1、线性回归：f(w,b)=wTx+b,x∈Rpf(

2021-09-08 00:58:08 347

原创机器学习基础篇：感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯

第二章、第四章、第六章大概了解第二章、第四章、第六章感知机感知机模型解决的问题模型形式学习策略感知机损失函数的由来求解算法线性判别逻辑斯蒂回归朴素贝叶斯感知机感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现

2021-08-31 01:57:02 308

原创机器学习基础篇：关于线性回归-正则化、MLE、MLP

正则化、MLE、MLP三个串联起来阐述线性回归从两个方面：未加正则化的线性回归：①标量的最小二乘法LSE：损失函数是L=∣∣wTxi−yi∣∣2L = ||w^Tx_i-y_i||^2L=∣∣wTxi−yi∣∣2，目标是求其最小值，对其做矩阵变换，变换后对w求导，∂L(w)w=(XTX+XTX)W−XTY−XTY=2XTXW−2XTY=0\begin{aligned}\frac{\partial L(w)}{w} &=(X^TX+X^TX)W-X^TY-X^TY \\

2021-08-31 01:49:41 1197

原创关于频率派和贝叶斯派

关于频率派和贝叶斯派前言一、频率派二、贝叶斯派贝叶斯定理参考前言一、频率派简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率二、贝叶斯派然而，贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并

2021-08-30 19:35:11 424

转载【转载】机器学习课程复习材料-概率论

本文是斯坦福大学CS229机器学习课程的基础材料，原始文件下载原文作者：Arian Maleki ， Tom Do翻译：石振宇审核和修改制作：黄海广备注：请关注github的更新。CS229 机器学习课程复习材料-概率论文章目录CS229 机器学习课程复习材料-概率论概率论复习和参考1. 概率的基本要素1.1 条件概率和独立性2. 随机变量2.1 累积分布函数2.2 概率质量函数2.3 概率密度函数2.4 期望2.5 方差2.6 一些常见的随机变量3. 两个随机变量3.1 联合分布和边缘.

2021-08-25 03:03:00 120

转载【转载】机器学习课程复习材料-线性代数

本文是斯坦福大学CS 229机器学习课程的基础材料，原始文件下载原文作者：Zico Kolter，修改：Chuong Do， Tengyu Ma翻译：黄海广备注：请关注github的更新，线性代数和概率论已经更新完毕。CS229 机器学习课程复习材料-线性代数文章目录CS229 机器学习课程复习材料-线性代数线性代数复习和参考1. 基础概念和符号1.1 基本符号2.矩阵乘法2.1 向量-向量乘法2.2 矩阵-向量乘法2.3 矩阵-矩阵乘法3 运算和属性3.1 单位矩阵和对角矩阵3.2 转.

2021-08-25 03:01:09 233

原创【阅读笔记】使用决策树预测泰坦尼克号幸存者实例 - scikit-learn机器学习

文章目录使用决策树预测泰坦尼克号幸存者实例一、数据获取二、数据探索三、数据预处理四、数据建模五、模型评价使用决策树预测泰坦尼克号幸存者实例代码来自《scikit-learn机器学习：常用算法原理及编程实战》P122import pandas as pdfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.model_selection import cross_val_score一、数据获取导包及二、数据探索三、

2021-08-24 23:10:43 624

转载【转载】机器学习数学基础

数学基础知识文章目录数学基础知识高等数学线性代数行列式矩阵向量线性方程组矩阵的特征值和特征向量二次型概率论和数理统计随机事件和概率随机变量及其概率分布多维随机变量及其分布随机变量的数字特征数理统计的基本概念来自：https://github.com/fengdu78/Data-Science-Notes高等数学1.导数定义：导数和微分的概念f′(x0)=lim⁡Δx→0 f(x0+Δx)−f(x0)Δxf'({{x}_{0}})=\underset{\Delta x\to 0}{\mathop{

2021-08-24 20:09:12 95

转载【转载】MSE（均方误差）、RMSE （均方根误差）、MAE （平均绝对误差）- 机器学习 - 线性回归之模型评估

MSE（均方误差）、RMSE （均方根误差）、MAE （平均绝对误差）1、MSE（均方误差）（Mean Square Error）MSE是真实值与预测值的差值的平方然后求和平均。范围[0,+∞)，当预测值与真实值完全相同时为0，误差越大，该值越大。import numpy as npfrom sklearn import metricsy_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])y_pred = np.array([1.0, 4

2021-08-18 23:35:47 5466

原创【数理统计基础】随机变量和概率分布

前言随机变量和概率分布关于总体数据的模型。所谓随机变量的值表示的是数据值，概率分布要给出的是取某个数据值时所对应的概率，要么给出的是数据取某个或某些值时概率的计算准则。随机变量和概率分布前言变量随机变量概率分布一、离散型随机变量概率函数二项分布泊松分布几何分布二、连续型随机变量概率函数正态分布指数分布变量随机变量是对试验结果的数值描述随机变量示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。概率分布随机变量的概率分布是描述随机变量取不同值的概率一、

2021-08-17 19:25:28 389

原创 Python - CSV- DataFrame转换数据全为NaN问题

Python - CSV- DataFrame转换问题问题描述：原来的data是有数据的加完列标签names，将英文转换为中文，下面的值即全为Null了原因分析：导入csv时自动把第一行变成列标签，转换成dataFrame不能另覆盖，行数不同解决方案：先把csv转换成dataFrame再修改列名即可...

2021-08-09 23:54:47 3438

原创 Excel相关操作整合

文章目录前言一、对比两列数据不同二、突出显示重复值参考三、将多个单元格值按某分隔符连接前言一、对比两列数据不同二、突出显示重复值参考excel相关的功能使用汇总 - sqiucheng三、将多个单元格值按某分隔符连接=TEXTJOIN("’,’",A1:DN1)...

2021-08-09 23:34:04 68

原创正态分布、偏度及箱线图

前言参考：正态分布的峰度和偏度分别为_【1003】正态分布10种鉴别方法汇总【荐藏】数据描述正态分布：若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ，σ2)。期望值μ决定了其位置，标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。实际应用中，许多数据集具有如图所示的对称的峰形或钟形分布，即正态分布。当数据被认为近似这种分布时，就可以运用经验法则来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例，实际应用中可计算一些概率问题，类似购买的灯

2021-08-07 21:39:15 6842

转载数据建模必知的六大步骤

前言转载自：知乎 - https://zhuanlan.zhihu.com/p/88366912数据建模必知六大步骤数据建模，通俗地说，就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程，并且这个过程是周期性循环的。数据建模的具体过程可分为六大步骤，如下图所示：一、制订目标制订目标的前提是理解业务，明确要解决的商业现实问题是什么？如：在社交平台KOL中，存在假粉丝的情况，如何识别假粉就是一个要解决的现实问题。二、数据理解与准备基于要解决的现实问题，理

2021-08-07 20:49:42 6073

转载【转载】Pandas速查手册中文版

Pandas速查手册中文版目录缩写和包导入导入数据导出数据创建测试对象查看、检查数据数据选取数据清理数据处理：Filter、Sort和GroupBy数据合并数据统计目录来源：简书 - 作者：hooly缩写和包导入在这个速查手册中，我们使用如下缩写：df：任意的Pandas DataFrame对象s：任意的Pandas Series对象同时我们需要做如下的引入：import pandas as pdimport numpy as np导入数据pd.read_csv(filename)

2021-08-04 22:51:21 484

原创【阅读笔记】数据挖掘与建模过程 - Python数据分析与挖掘实战

文章目录数据挖掘与建模过程一、数据获取/取样二、数据探索数据质量分析数据特征分析三、数据预处理数据清洗数据集成数据变换数据规约Python主要预处理函数四、数据建模五、模型评价六、参考资料数据挖掘与建模过程一、数据获取/取样明确挖掘目标，从业务系统中抽取出一个与挖掘目标相关的样本数据子集。一是相关性，二是可靠性，三是有效性import pandas as pdfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.mode

2021-08-04 19:53:50 452

原创【阅读笔记】决策树-scikit-learn机器学习

文章目录前言决策树模型概述信息熵信息增益决策树的创建及剪枝算法创建步骤剪枝算法scikit-learn中决策树算法的相关参数使用决策树预测泰坦尼克号幸存者实例scikit-learn中模型参数选择的工具及使用方法聚合算法及随机森林算法的原理分支选择方法ID3C4.5CART优缺点总结前言决策树模型概述信息熵计算公式：信息增益熵差决策树的创建及剪枝算法创建步骤计算数据集划分前的信息熵遍历所有未作为划分条件的特征，分别计算根据每个特征划分数据集后的信息熵选择信息增益最大的特征，并

2021-08-03 00:32:16 469

原创【阅读笔记】数据分析思维：分析方法和业务知识

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-07-19 23:44:05 928

fmqdzh的博客