Renirvana-CSDN博客

原创 K-Means聚类

前面的文章都是关于监督式机器学习，本文开始介绍一种“无监督学习”的聚类算法。在“无监督学习”模型中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”（clustering）。聚类聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）。通过这样...

2019-12-29 08:40:06 646

原创决策树简介

什么是决策树决策树(decision tree)，也称为判定树，是一类常见的机器学习方法。决策树是基于树结构来进行决策的，这恰是人类在面临决策问题时一种很自然的处理机制。决策过程中提出的每个判定问题都是对某个属性的“测试”。每个测试的结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内。一般的，一棵决策树包含一个根节点、若干个内部节点和若干个叶节点；叶节点...

2019-12-24 22:11:32 922

原创 # 逻辑回归模型简介

在一元线性回归模型一文中提到过很多机器学习模型都是在线性回归模型的基础上创建的，本篇文章就简单的描述一下如何将线性回归应用到分类问题中——即逻辑回归。逻辑回归的基本概念线性回归针对的是连续型的数据类型，对于二分类（取值为0或1）问题当然不适用。数学推导中最常用的思想就是将未知问题转化为已知的问题来求解。现在我们的问题是如何对数据集进行分类，很自然的就会想到将其与线性回归模型联系起来。简单的数据...

2019-12-13 07:34:41 613

原创梯度下降的原理

本文来了解一下梯度下降算法的基本原理，不涉及复杂的数学推导。机器学习问题很大程度上来说其实就是找到一个合适的目标函数，然后不断优化参数的最优化过程，而梯度下降正是最优化过程中的重要算法。梯度下降（Gradient Descent）是应用非常广泛的优化算法之一，其应用范围涵盖经典机器学习算法、神经网络、深度学习。机器学习问题很大程度上来说其实就是找到一个合适的目标函数，然后不断优化参数的最优化...

2019-12-08 19:47:54 801

原创一元线性回归模型

本文主要介绍线性回归模型，该模型主要应用于监督学习中目标变量是连续数值型的场景。一元线性回归模型线性回归模型是数据科学领域最简单的模型，很多复杂的模型（如多项式回归、逻辑回归、SVM）都是建立在线性回归模型的基础上的，或者是从其中能找到线性回归模型的影子。最简单的线性回归模型就是一元线性回归模型，其模型的形式就是：y=ax+b(1)y=ax+b \tag{1}y=ax+b(1)由式...

2019-12-08 19:42:27 5829 1

原创简单的数据预处理

在K-NN中我们通过计算距离来判断新样本的类别，在计算距离时每个特征的计量单位不同它们的数值大小会差别很大。比如人的特征有身高和年龄，身高可以是1.7米或170厘米，年龄可以是20岁。假设有两个人的身高和年龄分别为（160，19）和（180，22），如果我们使用欧式距离公式计算样本之间的距离，则有d=(180−160)2+(22−19)2d=\sqrt{(180-160)^2+(22-19)^...

2019-11-24 20:41:02 832

原创 K-NN分类学习模型实现手写数字分类

机器学习算法中的监督学习分为分类和回归两类。分类机器学习算法比较常用且易于理解。本文就从最简单的K-NN( k-Nearest Neighbor )分类算法开始，来了解机器学习模型的创建过程。K-NN算法概述K-NN也称为K-近邻算法，通过测量不同特征值之间的距离进行分类。K-NN算法的工作原理是：首先准备一个已经分类的训练数据集，这个数据集的分类结果已知；其次，对于一个没有分类的新数据，将...

2019-11-17 20:40:05 452

原创分类机器学习模型的评估方法及性能度量

当我们创建一个机器学习模型，然后通过该模型输出结果，那我们会不会直接使用这个结果呢？如果你的答案是：会使用，那你对这个结果完全认可吗？如果你的答案是否定的，那你对这个结果有哪些疑问呢？本文从模型评估的方法和性能的度量两个方面来解答以上的疑问，本篇文章主要讨论分类学习模型的评估与性能度量。模型的评估方法我们创建的机器学习模型都要通过训练数据来训练模型，为了检测学习模型是否符合我们的要求，就...

2019-11-17 12:30:13 1540 1

原创假设检验之p值(probability value)

假设检验与参数估计时统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，但推断的角度不同。参数估计是在总体参数未知的前提下，通过样本统计统计量估计参数的方法，得到总体参数的一个点估计或区间估计。而假设检验是，根据以往的经验先给出总体参数值的一个假设，然后通过现有的样本信息去检验这个假设是否成立。关于假设检验过程中的原假设、备择假设、单侧检验及双侧检验等内容都比较容易理解。这里重点讨论一...

2019-09-08 21:09:23 15267 1

原创参数估计

参数估计包括点估计和区间估计两类。点估计点估计是以抽样得到的样本指标作为总体指标的估计量，并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如，用样本均值x直接作为总体均值μ的估计值，用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有：矩估计法、顺序统计量法、最大似然法、最小二乘法...

2019-09-02 22:09:01 6648

原创使用python实现正态分布检验

本次的正态分布检验的数据描述为What’s Normal? – Temperature, Gender, and Heart Rate中的数据，其中数据源中包含体温、性别和心率三个数据。这次我们选择文章中的一个问题来实现，即样本的中的体温是否符合正态分布。正态性检验通过样本数据来判断总体是否服从正态分布的检验称为正态性检验。以下的数据为了方便起见，data.txt中只包含了体温一列。1、通...

2019-08-12 07:27:35 11075 2

原创数据的描述性统计-python实现

数据的集中趋势众数某个班级学生生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87} ，那么该班级数学成绩的众数为：data = [87,75,95,87,70,92,87,64,98,87]##众数def mode(list): d = {} for i in list: if i in d: d[i] +=1; else: d[...

2019-07-28 21:24:05 1189

原创数据的描述性统计

对数据的描述分为三个维度，分别是：数据的集中趋势、数据的离中趋势和数据的分布形态。数据的集中趋势描述数据集中趋势的指标有众数、中位数和平均数，其中平均数又分为算数平均数、加权平均数和几何平均数众数数据集合中出现次数最多的数值被称为众数。如果一个数据集合中，只有一个数值出现最多，那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生，这些学生的数学成绩...

2019-07-21 18:03:37 2793

原创 Git实战（1）

最近开始学习Git版本控制，立贴记录以备后续查阅。有关Git的概念和软件的安装网上的资料已经很全了，在此只记录Git的日常使用，及遇到的问题和解决方法。本次学习Git的一些常用命令，包括版本库的创建、文件的提交、删除、提交日志等。建议在命令行中实践Git操作，每次操作Git都会给出相应的提示信息，从这些提示信息中能了解到很多Git GUI学不到的东西。创建版本库安装好Git后就可以创建...

2018-04-22 18:08:00 247

原创 VMware虚拟机centos7突然没有了网卡

VMware虚拟机centos7突然没有了网卡VMware虚拟机安装centos7，且正常使用一段时间后，再次启动后发现通过Xshell无法连接虚拟机。之前也遇到过类似的问题，但用之前的方法根本解决不了问题。查阅各种方法后才发现问题所在，因此记下以备不时之需。排查问题使用ifconfig命令查看网络接口配置信息：查看全部接口信息 ifconfig -a 查看所有网卡

2018-01-25 22:10:35 12387 2

原创 CPU、内存、硬盘、指令以及他们之间的关系

CPU、内存、硬盘、指令以及他们之间的关系最近读完《程序是怎样跑起来的》以及《深入理解计算机系统》的3、6、9章节后对计算机的组成有了更深入细致的了解，现总结一下对CPU、内存、硬盘、指令的理解及他们之间的关系。 1、CPUCPU是英文Central Processing Unit（中央处理器）的缩写，相当于计算机的大脑，它是解释和运行程序的。CPU的内部由寄存器、控制器、运算器和时钟四个部分构成

2017-02-26 13:45:02 4517

翻译 String与StringBuffer和StringBuilder的区别

String与StringBuffer和StringBuilder的区别本文主要关注String类的基本功能，然后会比较String与StringBuffer和StringBuilder的区别。 String类String类表示字符串，可以通过两种方式实例化Strin

2017-01-21 16:17:27 545

翻译 Java字符串常量池是什么？

Java字符串常量池是什么？顾名思义，Java中的字符串常量池（String Pool）是存储在Java堆内存中的字符串池。我们知道String是java中比较特殊的类，我们可以使用new运算符创建String对象，也可以用双引号（”“）创建字串对象。 Java中的字符串常量池下图，清楚地解释了如何在Java堆内存中维护字符串常量池，以及当我们使用不同的方式创建字符串时在堆内存中如何存放。之所

2017-01-20 18:25:19 974

翻译 Java堆VS栈-Java中的内存分配

Java堆VS栈-Java中的内存分配原文:Java Heap Space vs Stack – Memory Allocation in Java在Java EE书籍和java教程中都能看到很多关于堆和栈的描述，从程序运行时的角度如何理解堆内存和栈到底是什么呢？Java堆内存java堆是在运行时给对象和JRE类使用的内存。我们创建的任何对象都存储于堆内存中。垃圾收集器也是收集堆内存中的那些没有任何

2017-01-20 13:51:02 554

原创 java集合工具类Collections中的“坑”

java集合工具类Collections包括以下几个方法： public static final <T> List<T> emptyList() public static final <T> Set<T> emptySet() public static final <K,V> Map<K,V> emptyMap() 在实际使用时发现通过以上方法创建的集合无法进行添加或删除操作。

2016-12-19 17:19:00 1455

原创 java是值传递还是引用传递？

java到底是值传递（Pass by value）还是引用传递（Pass by reference），被这个问题困扰了很久，一直也没有去深入了解问题的本质。最近看了一篇文章后觉得理解又加深了一点。但还是存在一些疑惑，于是继续深究下去。

2016-12-17 16:42:05 458

digits.rar

K-NN手写数字分类算法中使用的训练数据集与测试数据集，训练数据集包含2000个左右的测试数据，测试数据集合中的文件数量为950个左右。

2019-11-17

数据仓库 (中文第四版)pdf格式

《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是《Web数据挖掘》的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。

2017-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人