自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小赵的博客

机器学习笔记

  • 博客(22)
  • 资源 (7)
  • 收藏
  • 关注

原创 看懂SoftMax回归算法之代价函数求偏导的数学推导——机器学习笔记(12)

本文专门讲解softmax算法的代价函数求导的数学推导过程,如果你也喜欢机器学习算法,也希望理解其中的细节,只需要一点微积分基础,进来看吧

2020-08-17 22:08:27 2403 1

原创 对OpenCV人脸检测方法detectMultiScale参数“最直白”的理解——Python学习笔记(8)

使用OpenCV的detectMultiScale方法可以很快的实现人脸识别,但是要想达到好的识别效果,需要设置合适的参数值。那么它的参数到底是什么含义,如何发挥作用,又如何设置更合理?这也许是最通俗易懂的理解。

2020-07-28 22:32:11 21633 6

原创 ECharts学习笔记(1)——使用关系图展示关联分析结果

前面的文章中学习了关联分析算法,于是想把分析结果以一种直观、形象的方式展现出来,于是用到了ECharts的关系图,作为JS小白,先从关系图的基本属性学起吧。1、关系图的一些主要配置项series-graph.type= 'graph'series-graph.legendHoverLink= true是否启用图例hover 时的联动高亮。series-graph...

2020-01-08 15:39:50 13860 5

原创 机器学习笔记(11)——关联分析之Apriori算法原理和Python实现

说到关联分析,首先想到的就是“啤酒和尿布”的案例,那么如何发现“啤酒”和“尿布”之间的关联关系呢,就是寻找频繁项集。先来学习两个概念。1、支持度和可信度支持度(support)——数据集中包含该项集的记录所占的比例。可信度(confidence)——针对一条关联规则定义,如{尿布}--->{啤酒}的可信度为“支持度({尿布,啤酒}/支持度({尿布}))”。例如:支持度({尿布...

2020-01-06 17:05:31 2802

原创 机器学习笔记(10)——逻辑回归算法优化之随机梯度下降法

在上一篇文章《机器学习笔记(9)——深入理解逻辑回归算法及其Python实现》中,详细学习了逻辑回归算法的分类原理和使用梯度下降法来最小化损失函数的数学推导过程,从而拟合出分类函数的参数θ。1. 随机梯度下降还记得参数θ的迭代公式吗:可以看出,每次迭代更新参数θ都需要遍历整个数据集,计算复杂度取决于样本的个数和样本的特征值数,真实情况下,往往样本数不只100个,特征值也不只2个,那...

2019-03-12 22:59:52 4303 2

翻译 Python学习笔记(7)——Matplotlib中的Axes.plot(绘制点、线和标记)的用法

Axes.plot用于绘制XY坐标系的点、线或其他标记形状。1.调用方法plot([x], y, [fmt], data=None, **kwargs)plot([x], y, [fmt], [x2], y2, [fmt2], ..., **kwargs)点和线的坐标由参数x,y提供。可选参数fmt是一个快捷字符串,用于定义颜色、标记符合和线条形状,例如:>>&gt...

2019-02-14 17:17:54 65678

原创 机器学习笔记(9)——深入理解逻辑回归算法及其Python实现

逻辑回归是一种分类算法,它根据现有的数据对分类边界线建立回归公式,然后再用此公式进行分类。举个简单的例子,假设我们有两类数据分别用x和o表示,希望找到一条分类边界线,有了这条分类边界线,我们就可以对新样本进行分类了,逻辑回归算法的目标就是拟合出参数。为了得到合适的参数,我们需要学习3个知识点:Simoid函数、代价函数和梯度下降法,进而理解逻辑回归算法的思想。1. Sigmoid函数S...

2019-01-28 22:59:11 1823

原创 Python学习笔记(6)——条件语句if的用法

条件语句可以让程序选择是否执行特定的语句块。1. 布尔值在用作if语句中的条件时,标准值False、None、数值0、空字符串、空元祖、空列表、空字典等,都被视为假。True和其他各种值都被视为真。>>> if 'aa':... print('aa is True')... aa is True>>> if 0: # ...

2018-12-23 23:20:00 1452

原创 Pycharm使用技巧(1)——Pycharm中如何快速自动排版Python代码

编写代码后,可以使用Ctrl+Alt+L快捷键,就可以对整个文件的代码进行排版了。例如:在类或方法之间加入2个空行 在注释符#后添加空格 删除多余的空格 对超出最大宽度的代码自动折行排版的规则遵循Settings->Editor->Code Style中的设置。...

2018-12-12 23:12:43 34229 6

原创 机器学习笔记(8)——C4.5决策树算法的完整Python代码

C4.5算法较之ID3算法主要有4点改进:采用信息增益率作为最优划分属性。 能够处理连续值类型的属性。 能够处理缺失值属性。 增加了剪枝处理,从而避免过拟合。其中第2、3、4点在之前文章中都详细讨论过,此文主要补充说明第一点信息增益率准则,并对C4.5算法给出完整的Python代码。一、信息增益率ID3算法中的信息增益准则对取值数目较多的属性有所偏好,例如西瓜数据集中,如果把“...

2018-12-10 16:37:55 22259 212

原创 机器学习笔记(7)——C4.5决策树中的缺失值处理

缺失值处理是C4.5决策树算法中的又一个重要部分,前面已经讨论过连续值和剪枝的处理方法:机器学习笔记(5)——C4.5决策树中的连续值处理和Python实现机器学习笔记(6)——C4.5决策树中的剪枝处理和Python实现现实任务中,通常会遇到大量不完整的样本,如果直接放弃不完整样本,对数据是极大的浪费,例如下面这个有缺失值的西瓜样本集,只有4个完整样本。在构造决策树时,处理含...

2018-11-12 23:07:05 19053 29

原创 机器学习笔记(6)——C4.5决策树中的剪枝处理和Python实现

1. 为什么要剪枝还记得决策树的构造过程吗?为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据都具有的一般性质,从而导致过拟合。这时就可以通过剪枝处理去掉一些分支来降低过拟合的风险。剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning):预剪枝是在决策树的生成过程中...

2018-10-26 14:21:27 20316 61

原创 机器学习笔记(5)——C4.5决策树中的连续值处理和Python实现

在ID3决策树算法中,我们实现了基于离散属性的决策树构造。C4.5决策树在划分属性选择、连续值、缺失值、剪枝等几方面做了改进,内容较多,今天我们专门讨论连续值的处理和Python实现。1. 连续属性离散化C4.5算法中策略是采用二分法将连续属性离散化处理:假定样本集D的连续属性有n个不同的取值,对这些值从小到大排序,得到属性值的集合。把区间的中位点作为候选划分点,于是得到包含n-1个...

2018-10-18 17:05:20 22546 135

原创 Python学习笔记(5)——字典的定义和操作方法

1. 什么是字典字典是Python中唯一的一种内置映射(mapping)类型的数据结构,就像日常生活中的字典一样,可以轻松的找到特定的单词(键),以获悉其定义(值)。字典由键(key)和其相应的值(value)组成,键-值对成为项(item)。例如:dataType = {'string': '字符串', 'list': '列表', 'dict': '字典'}在之前的文章ID3决策树...

2018-10-11 15:30:28 1726

翻译 Python学习笔记(4)——Matplotlib中的annotate(注解)的用法

在上一篇博文ID3决策树算法中,绘制决策树时,使用了Matplotlib的注解工具annotate,借此机会系统学习一下annotate的用法。annotate用于在图形上给数据添加文本注解,而且支持带箭头的划线工具,方便我们在合适的位置添加描述信息。参数说明:Axes.annotate(s, xy, *args, **kwargs)s:注释文本的内容 xy:被注释的坐标点,二维...

2018-09-30 11:25:18 92989 8

原创 机器学习笔记(4)——ID3决策树算法及其Python实现

决策树是一种基于树结构来进行决策的分类算法,我们希望从给定的训练数据集学得一个模型(即决策树),用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果,一旦模型构建成功,对新样本的分类效率也相当高。最经典的决策树算法有ID3、C4.5、CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题,本文重点介绍ID3算法。举个...

2018-09-27 16:07:37 37486 53

原创 Python学习笔记(3)——列表的索引、切片、增删改和排序

列表是由一系列按顺序排列的元素组成,列表的元素可以是字母、数字或任何东西,它们之间没有关系,用方括号([ ])表示列表。>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]>>> numbers[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]1. 索引从0开始与大多数编程语言一样,列表的索引从...

2018-09-18 17:20:52 2939

原创 机器学习笔记(3)——使用聚类分析算法对文本分类(分类数k未知)

聚类分析是一种无监督机器学习(训练样本的标记信息是未知的)算法,它的目标是将相似的对象归到同一个簇中,将不相似的对象归到不同的簇中。如果要使用聚类分析算法对一堆文本分类,关键要解决这几个问题:如何衡量两个对象是否相似 算法的性能怎么度量 如何确定分类的个数或聚类结束的条件 选择哪种分类算法下面就带着这几个问题,以我工作中的一个业务需求为例,来学习一下怎么对中文文本进行聚类。(此文略长...

2018-09-14 11:37:13 51121 229

原创 Python学习笔记(2)——字符串常用方法(对齐、替换、拆分、合并)

1. 字符串对齐——center、ljust、rjust通过在两边填充字符(默认空格)让字符串居中、左对齐、右对齐。2. 查找子串——find、index、countfind:查找子串,返回子串第一个字符的索引,如果没找到返回-1。index:查找子串,返回子串第一个字符的索引,如果没找到引发异常。count:计算子串出现的次数。注意:以上三个方法均可指定起点和终点,但...

2018-09-04 16:55:15 3253

原创 Python学习笔记(1)——字符串拼接、长字符串、原始字符串r、格式设置%

1. 单引号和双引号字符串可以用单引号或双引号括起来,含义是一样的。但是当字符串中有引号时,可以将单引号和双引号结合使用,或使用反斜杠转义。>>> "Hello world!"'Hello world!'>>> 'Hello world!''Hello world!'>>> "Let's go.""Let's go

2018-09-04 16:55:04 1951

原创 机器学习笔记(2)——使用朴素贝叶斯算法过滤(中英文)垃圾邮件

在上一篇文章《使用朴素贝叶斯算法对文档分类详解》中,我们实现了用朴素贝叶斯算法对简单文档的分类,今天我们将利用此分类器来过滤垃圾邮件。1. 准备数据——文本切分之前算法中输入的文档格式为单词向量,例如['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],而实际情况中通常要处理的是文本(例如邮件),那么就要先将文本转换为词向量,...

2018-08-30 15:48:20 9927 9

原创 我的第一篇学习笔记——使用朴素贝叶斯算法对文档分类详解

朴素贝叶斯算法可以实现对文档的分类,其中最著名的应用之一就是过滤垃圾邮件。先做一个简单的分类,以论坛的留言为例,构建一个快速的过滤器,来区分哪些留言是负面言论,哪些是正面言论。我对算法思路的理解:首先计算训练集中每个词语分别在正面(负面)文档中出现的概率以及正面(负面)文档的概率,再计算待分类样本中的每个词语属于正面(负面)文档的概率和正面(负面)文档概率的乘积,即为该样本属于正面(负面)样本...

2018-08-28 14:38:01 2592 3

OpenCV Haar Cascade分类器XML文件

Python版本的OpenCV库中,人脸识别Haar级联(Haar Cascade)的XML文件下载。

2020-07-28

apriori关联分析算法python代码

资源中包含apriori关联分析算法的Python代码,python的版本为3.6,使用pycharm平台运行即可。

2020-01-06

HCluster.py

资源中包含层次聚类算法的Python代码,不含测试数据,python的版本为2.7,您运行代码前,将测试文件路径修改为您本地的存储路径,使用pycharm平台运行即可。请自行准备测试数据。

2020-01-02

Logistic算法(随机梯度下降法)的Python代码和数据样本

资源中包含随机梯度下降逻辑回归算法的Python代码和测试数据,python的版本为3.6,您运行代码前,将测试文件路径修改为您本地的存储路径,使用pycharm平台运行即可。

2019-03-12

Logistic回归算法的Python代码和数据样本

资源中包含逻辑回归算法的Python代码和测试数据,python的版本为3.6,您运行代码前,将测试文件路径修改为您本地的存储路径,使用pycharm平台运行即可。

2019-01-28

C4.5决策树算法的Python代码和数据样本

资源中包含完整的C4.5决策树算法Python代码和测试数据,其中有4个文件:C45.py是算法的实现代码,treePlotter.py是绘制决策树代码,PlayData.txt是样本数据,C45test.py用来构建、绘制并测试决策树,您可以运行该文件来依次进行决策树的构建、剪枝、绘制树型图,并对测试样本进行分类。

2018-12-21

朴素贝叶斯算法的邮件数据

《机器学习笔记(2)——使用朴素贝叶斯算法过滤(中英文)垃圾邮件》 一文中的邮件数据

2018-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除