自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 浅谈特征选择的原理和Python实现

0.引言在现实世界中,我们总是倾向于收集尽可能多的特征来对一个事物进行描述,以期能够全面准确的刻画事物。然而,我们了解事物的目的是时刻变化着的,所以并非每一次对事物的刻画都需要所有特征。例如在机器学习领域众所周知的西瓜,描述西瓜的特征有很多,包括:大小、色泽、敲声、纹理、触感、根蒂等。了解西瓜的目的(学习任务)也各不相同:好吃、好闻、好看等。显然,若学习任务是判断一个西瓜是否好看,则只需要大小、色泽、纹理等特征即可,这些特征即是“相关特征”。若需求为判断西瓜是否好吃,只需要根蒂、敲声即可,其他的特征则为“

2021-04-27 18:46:43 753

原创 浅谈流形学习之Isomap算法

1.流形学习基本概念“maniflod”在英文中作为动词的原意为复写,使多样化。中文译法出自文天祥的“天地有正气,杂然赋流形”,虽然初识不太好理解,但讲究一个文采飞扬。此外,“mani-”表示多,“fold”有折叠的意思,可简单理解为由多个面叠加而成。“manifold”在日文中就翻译为多样体,较为符合原意。流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法。按照数学中的定义,流形是指在局部与欧式空间同胚的空间,即它在局部具有欧式空间的性质,能够适用欧式距离进行距离计算。

2020-09-28 17:21:00 4237

原创 非线性降维-核主成分分析KPCA

1.引言传统线性降维方法(PCA、LDA、MDS等)通过对原有特征线性组合来实现降维,其本质是将数据投影到一个地位的线性子空间,其优点是方法简单计算容易。但如果原始数据无法表示为特征的线性组合则很难使用线性降维方法。例如Helix曲线。此时需要引入非线性的降维方法。2.核主成分分析(KPCA)原理简述与基于核函数的支持向量机类似,通过将非线性可分问题映射到更高维的特征空间,使其在更高维空间上线性可分。为了将样本x∈Rkx\in R^kx∈Rk映射到维度更高的k维空间,定义非线性映射函数ϕ:Rd→R

2020-08-10 21:39:02 4927 2

原创 线性降维:PCA、LDA、MDS

降维1. KNN1. KNN为什么要在介绍降维之前学习KNN呢?因为通过对KNN的了解,可知,以KNN为代表的一类算法,由于本身为非参数化模型,无法使用例如在损失函数中加入正则表达式的之类的方法对某些维度信息进行约束,极易造成过拟合。KNN是惰性学习算法的典型例子。惰性是指它仅仅对训练数据集有记忆功能,而不会从训练集中通过学习得到一个判别函数。惰性学习算法一般思想简单,且没有训练过程。相对应的则是急切学习,...

2020-07-15 09:41:43 2564

原创 Python读取dat文件数据并构成Dataframe对象

0.引子现实世界中,当需要对数据进行处理时,到手的数据文件往往五花八门,data、txt、csv、json等等。Python为我们提供了强大的数据分析处理工具,如果文件中的句符合格式要求,可以使用pandas模块中的各种read对象直接读取,例如对于iris.data...

2020-05-07 11:01:46 19926 2

原创 VScode配置java开发环境

1、安装JDK

2020-04-28 10:28:48 1095 3

原创 我所知道的聚类

0.什么是聚类机器学习按照训练数据是否有标签(即是否已知预测结果)可分为有监督学习和无监督学习,例如我们熟知的集成学习、深度学习、贝叶斯分类器等都是有监督学习。由于人类的经验(数据标签)并非总是正确,所以无监督学习通过技术手段,在不做人为干预的情况下,让机器自己进行学习,可发现更多隐藏的规律,从而可能学习到数据更本质、更内涵的知识。此外,现实生活中,数据没有标签是常态,而对数据标注工作注定耗时费...

2020-04-26 16:11:18 874

原创 问题:get_params() missing 1 required positional argument: 'self' 之解决

问题描述在对进行网格搜索XGboost参数的python程序调试中突然爆出Error:TypeError: get_params() missing 1 required positional argument: 'self'代码为:from sklearn.model_selection import GridSearchCVfrom sklearn.pipeline import P...

2020-04-04 15:58:54 1624

原创 集成学习初探

1.引言集成学习,顾名思义,是将多个不同的基分类器组合为一个元分类器,新组建的元分类器较之于基分类器具有更好的泛化性能和鲁棒性。虽然集成学习并不是全新的机器学习算法,只是对现有算法的优化策略,却能够有效的提高弱学习器(基分类器)的性能,在深度学习出现之前,集成学习在很多场合都能取得最佳的决策效果。最成功的的集成学习方法是已经可以认为是一种单独算法的随机森林(RF),其在很多竞赛中脱颖而出。一般...

2020-03-27 17:14:32 600

原创 EM算法:三硬币模型

EM算法是一种迭代算法,用于含有隐含变量的概率模型参数的极大似然 估计或最大后验概率估计。EM算法每次迭代有两步组成:E步,求期望(Ecpectation);M步,求极大值(Maximization)。所以该算法也称为期望极大算法。...

2020-03-18 11:59:52 1023

原创 朴素贝叶斯分类器的python实现

徒手实现一个贝叶斯分类器引子代码新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入引子贝叶斯分类器顾名思义是以...

2020-01-21 22:27:16 542

原创 朴素贝叶斯分类器

朴素贝叶斯引子核心算法例子合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入朴素,即naive,简单、天真之意。贝叶斯分类是若干以...

2020-01-15 21:49:07 183

原创 sympy特点及简单使用

sympy库对于需要进行数学运算的python开发者非常友好,它不仅拥有比math、numpy等库更高的运算精度,还具有更强大的符号运算能力,能够轻松对表达式进行简化、积分、求导等操作,堪称居家旅行,养家糊口之利器。下面直接用代码进行说明。安装直接在anaconda prompt中用pip install sympy进行安装即可,网络条件不好时可能报错,多试几次就能成功。精度print(m...

2020-01-12 21:47:28 993

原创 极大似然估计初探

极大似然估计1.贝叶斯决策新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1.贝叶斯决策由于极大似然估计与贝...

2020-01-09 17:22:27 257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除