自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (4)
  • 收藏
  • 关注

原创 FP-growth算法通俗讲解

FP-growth算法是一种高效发现频繁集的方法。例如你在搜索引擎中搜索一个词,它会自从补全查询词项,该处用到了FP-growth算法,通过查看互联网上的用词来找出经常在一块出现的词。【FP(Frequent Pattern)】 FP-growth算法基于Apriori算法,但是比Apriori算法执行速度快,通常性能要好两个数量级以上。FP-growth算法虽然能更高效地发现频繁项集,但是不能用于发现关联规则。 FP-growth算法将数据集存储在一个特定的F...

2020-11-29 13:29:21 5437

原创 Apriori算法通俗讲解

一、Apriori算法简介 Apriori算法用于解决大规模数据集的关联分析问题。关联分析(association analysis)或关联规则学习(association rule learning)是从大规模数据集中寻找物品间的隐含关系。但是,寻找物品的不同组合是一项十分耗时的任务,计算代价高,蛮力搜索并不能解决问题,所以需要更智能的方法在合理时间范围内找到频繁项集。Apriori算法就是解决这个问题的。二、关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务。...

2020-10-05 21:20:27 11371 3

原创 K-均值聚类算法通俗讲解

本章开始讲无监督学习,与有监督学习最大的区别是目标变量事前不存在。 本章是K-均值聚类算法。聚类是一种无监督的学习,它将相似的对象归到同一个簇中,将不相似对象归到不同簇。有点像全自动分类。聚类有时也被称为无监督分类,其产生的结果与分类相同,只是类别没有预先定义。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。 K-均值聚类(K-means)算法是指将数据集分成k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。一、K-均值算法 ...

2020-09-22 21:16:20 17165

原创 树回归算法之通俗讲解

本章也是预测数值型数据,非分类算法。 前面介绍了线性回归预测数值型数据,但是有不足: (1)需要拟合所有的样本点(局部加权线性回归除外) (2)当数据拥有众多特征且特征之间关系十分复杂时,构建全局模型的想法就显得很难了,也略显笨拙。 (3)实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。 所以就用到了树回归,树结构和回归法结合。 树回归是通过构建树,来对连续性数值型(回归)数据...

2020-09-05 22:43:55 2942

原创 Regression算法之通俗讲解

本篇内容较多,系统性介绍方法、算法。Regression的意思是回归,回归和之前讲的分类都属于监督学习。与之前讲的分类机器学习方法不同,回归在于其目标变量是连续数值型。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,就是所谓的回归方程。确定回归方程的回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体做法就是将输入带入回归方程中,计算结果,就得到了预测值。一、用线性回归找到最佳拟合直线 说到回归,一般指的是线性回归(l...

2020-08-31 11:45:48 2079

原创 AdaBoost算法通俗讲解

AdaBoost是元算法中最流行的一种,也被认为是最好的监督学习的方法 。一、元算法 元算法(meta-algorithm),也被称作集成方法(ensemble method),是对其他算法进行组合的一种方式,将不同的分类器组合起来的结果。使用集成方法时有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 下面介绍基于同一种分类器多个不同实例的两种计算方法bagging和boosting。 ...

2020-07-20 18:44:51 1522

原创 Python读取excel数据且横轴是日期的图像绘制

Python的matplotlib包含很多图表函数,其中plot()函数是绘制坐标图的。通常情况下,横轴和纵轴都是数值型数据很好画图,直接带入数据,坐标轴会自动调节大小和显示密度。但是当横轴是日期时,且从excel文件读取数据时,有一点麻烦。遇到的问题:1. 首先,excel里的日期显示不正常。2. 横轴日期的显示不理想,或太密集或太松弛。解决:1. 方法一:修改excel...

2020-04-27 11:43:09 6491

原创 支持向量机算法理解

支持向量机(Support Vector Machines,SVM),在很多地方见过,如强化学习、入侵检测中,作为机器学习的一种据说很好算法,今天开始了解一下,还不够深入,等待更新。一、分隔超平面假设有两类线性可分的样本,分隔超平面就是将两类样本进行分隔。在二维平面上,分隔超平面是一条一维(一元)直线f(x)=ax+b;在三维空间里,分隔超平面是一个二维(二元)平面f(x,...

2020-03-22 00:08:45 1456

原创 逻辑回归算法之梯度算法

在学习Logistic逻辑回归算法(上一节介绍)编程时,被其中一句python语句卡住了,该语句就是:weights = weights + alpha * dataMatrix.transpose() * error让我们来顺一下。首先,是二分类算法,类别为1或0,利用sigmoid函数很合适令:整合得:当sigmoid>0.5时,分类为1,sig...

2020-02-22 17:00:36 2080

原创 Logistic回归算法讲解

回归:假设有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。Logistic回归进行分类是根据现有数据对分类边界线建立回归公式(找最佳拟合),以此进行分类。这里的回归表示要找到最佳拟合参数集,多元函数的参数集合,非线性回归。 Logistic回归训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。不同于之...

2018-11-27 21:28:30 1917

原创 朴素贝叶斯分类器算法通俗讲解

首先会用到贝叶斯决策理论,说一下。贝叶斯决策理论的核心思想是:选择具有最高概率的决策。例如一个点(x, y),属于类别1的概率是p1(x, y),属于类别2的概率是p2(x, y),用贝叶斯决策理论来判断它的类别: 如果p1(x, y) > p2(x, y),那么类别1; 如果p1(x, y) < p2(x, y),那么类别2。...

2018-11-13 14:07:20 1988

原创 决策树算法通俗讲解

决策树就是先把一堆数据依次按照某一个条件(特征)划分子集,构建成树,然后来一条新的数据,让新数据按照构造树时的条件一一比较,直到找到叶子节点确定类别。(一)构造决策树 我们知道每一条数据中都包含几个特征(值),决策树需要根据某一条件来判断划分子集。那么好几个特征中我们选择哪个特征作为决策对象才会有好的划分效果呢?首先我们要找到决定性的特征。还有一个问题,怎么样...

2018-11-05 15:22:06 1598

原创 kNN算法通俗讲解

接触机器学习一段时间了,知道它有四种分类:监督学习、无监督学习、半监督学习、强化学习;也知道它的一般步骤:收集数据-->准备数据-->分析数据-->选择模型-->训练模型-->评估模型;知道数据越多测试结果就越准确。 但是,作为一理工女,不动手就不理解,有很多疑团,怎么让一堆样本做为数据输入,怎么训练数据让模型更好,通过什么方法来评估...

2018-11-04 18:27:16 1721

原创 代码管理托管平台

代码管理比较熟悉的是SVN和Git,以前用的SVN比较多,在公司实习大多用的SVN服务管理代码,团队协作。不过现在SVN渐渐淡出视线,取而代之的是Git服务。Git服务于SVN的区别:Git比SVN速度快很多; Git是分布式管理,用户提交代码先提交到本地仓库,需要上传服务器时再push上去;SVN是集中式管理,用户提交代码直接提交到服务器上; Git可以轻松拥有无限个分支,SVN使用...

2018-09-03 09:48:18 1402 2

原创 虚拟机三种网络连接模式

在VMware Workstation中创建虚拟机后,配置虚拟机的网络连接有3种模式,分别是:        1.桥接模式(VMnet0)        2.NAT模式(VMnet8)        3.仅主机模式(VMnet1)        这三种网络连接模式有什么用途及其区别是什么,以下简单介绍。        VMware Workstation安装好之后会多出两个网络

2017-02-09 12:53:15 1848

原创 root权限切换

默认安装Ubuntu后,使用普通用户登录。普通用户没有root权限,也不可以进入root文件。怎么使用root用户呢?使用命令:sudo su或sudo su root输入root密码,即登录密码即可进入root文件夹 但请注意,这只是本地切换到root,具有root权限,Ubuntu默认是不允许root远程登录的,如果允许root登录,需要

2016-11-25 14:58:56 2744 1

原创 windows和Linux互传文件

Linux系统之间可以通过简易安装SSH协议利用scp命令进行文件互传,但是windows默认不支持SSH协议,需要借助其他工具实现windows和Linux系统之间的文件互传。以下介绍几种自己使用的方法。方法一 pscp.exe       下载pscp.exe文件,并将其存放入C:\Windows\System32文件夹下,然后在windows命令框中输入命令。windows文件-

2016-11-10 19:43:44 58066 4

原创 小菜谈谈之缓冲区溢出

所谓缓冲区是指内存中存放数据的地方,可以更为抽象地理解为一段可读可写的内存区域。

2016-10-31 21:57:51 678

Logistic回归算法

资源包含Logistic回归算法,以及一个应用实例:预测病马死亡率。可直接执行。

2018-11-28

朴素贝叶斯分类器算法

实现朴素贝叶斯分类器算法基本功能,代码有注释,还包括一个垃圾邮件过滤的实例。另外我这次用的是python2.7版,如果用python3的可能需要根据提示修改几个语法(sorted函数的参数)。

2018-11-13

kNN分类器和两个实例-Python

kNN基本分类器,以及两个运用kNN算法的实例:约会网站的配对和手写识别系统,包含数据源。

2018-11-06

决策树算法

该资源包含决策树的分类算法:构造树、测试算法、预测隐形眼镜分类的实例。大部分代码都有注释。

2018-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除