宁悦-CSDN博客

原创三次样条插值法

一、问题引入对于给出如下的离散的数据点，现在想根据如下的数据点来推测x=5时的值，我们应该采用什么方法呢？用于拟合样条函数的数据x f ( x)3.02.54.51.07.02.59.00.5 我们知道在平面上两个点确定一条直线，三个点确定一条抛物线（假设曲线

2018-01-11 16:56:43 98789 37

正则表达式在平时处理文本内容的时候有很大用处，这里就简单的总结一下正则表达式的用法。一、元字符在学习正则表达式的时候，首先要了解正则里的一些基本符号。首先是表示一些单字符。 . 任意字符（除换行符外） \d 任意数字 \D 任意非数字 \w 任意字母数字下划线 \W 任意非字母数字下划线 \s 任意空白符 \S 任意非空白符有了单字符之后，需要匹配单字符出现的次数，也就是量词。* 表示0到多次 + 表示1...

2020-07-10 11:40:26 5885

原创机器学习/深度学习/强化学习资料汇总

去年3月份开始学习机器学习开始，7月份学习深度学习、强化学习，经过一年多的学习终于算勉强入门。把自己搜集到的一些书籍和不错的视频推荐给大家，希望帮助大家快速入门AI，同时也是作为自己学习的一个阶段性总结。一、机器学习1.1 书籍类1.周志华-西瓜书（链接：https://pan.baidu.com/s/1wE07V3XeWuUqSJvhXrK9qQ提取码：phbl）2.李航-统计...

2020-03-13 21:48:18 5503 2

原创概率图-精确推理-变量消除法(Variable Elimination)

一、推理问题简介推理问题是概率图模型的核心，分为精确推理和近似推理。推理问题可以分为3类：1>求边缘概率：2>求条件概率：3>求MAP：二、变量消除法简介变量消除法的思想很简单，就是对联合概率不断求和消除其中的变量，最后得到边缘分布。如上图所示，首先对联合概率来说，先把b消元，得到中间只含a和c的表，然后对c进行求和，得到最后只含有a的概率表，对这...

2019-12-16 09:29:37 9469 2

原创神经网络-3比特异或实现

一、问题描述想要实现3个比特的异或问题，即形式如下010和011的异或结果为0010 100 110 0 1二、数据处理首先，完成数据集的制作，输入为6位，输出为3位。import numpy as npa = np.array([[0,0,0],[0,0,1],[0,1,0],[0,1,1],[1,0,0],[1,0,1],[1,1,0],[1,1,1]])...

2019-12-08 16:08:54 653

原创 BP神经网络

一、神经网络简介神经网络的发展可以说一波三折，神经网络的前身感知机算法因为无法解决异或问题，而被明斯基批判，导致神经网络研究的衰退，后来多层感知机和BP算法的提出，让神经网络的研究得到了一定发展，可惜由于算力不够，加上同期SVM，集成方法的成功，导致研究又陷入了低谷，而后Hinton在06年提出深度学习，把神经网络又重新拉回了大家的视野，进而16年AlphaGo的成功，开启了一个新的时代-深度...

2019-12-08 15:41:36 565

原创概率图-表示-贝叶斯网络

一、贝叶斯网例子贝叶斯网是一种经典的概率图模型，它利用有向无环图来刻画属性之间的依赖关系。首先来看一个的例子，一个学生想要请求教授为其写一封推荐信，推荐信的质量用变量L表示，取值范围为{是,否}。而教授健忘不知道这个学生的名字，所以要查看学生的成绩来确定是否为其写推荐信。学生成绩的取值范围为{A,B,C}，分别对应于g1,g2,g3，而考试的成绩和试题的难度还有智商有关系，他们的取值范围都...

2019-12-07 11:10:42 1996 1

原创 DBSCAN算法

一、DBSCAN算法概念介绍DBSCAN算法是密度聚类算法，所谓密度聚类算法就是说这个算法是，根据样本的紧密程度来进行聚类。下面来介绍一些DBSCAN中的概念。要根据样本中的数据密度进行聚类，首先定义样本中数据密度大的地方应该怎样表示，很直观的想法就是如果A样本周围有5个样本，那么我们认为A样本是密度很高的。那你可能会说，为啥不是10个呢，周围是离A样本多远啊。这两个是我们算法中要调整的超...

2019-12-04 10:04:27 4600

原创层次聚类

一、层次聚类定义每一种聚类方法都有其特定的数据结构，对于服从高斯分布的数据用K-Means来进行聚类效果会比较好。而对于类别之间存在层结构的数据，用层次聚类会比较好。例如，要把所有的大学专业进行分类，这很明显是一个带有层次结构的分类，计算机科学与技术，物联网工程，网络工程等等，可以看成计算机学科，而计算机学科，机械等又可以看成工科专业。最终所有的学科会划分成13个学科门类。而实现层次聚类会...

2019-12-03 14:39:12 874

原创 EM算法

一、EM算法推导需要用到的数学知识1.1条件分布函数条件分布的定义如下图所示，对于条件分布需要了解的是下面两个式子： 1.2边缘分布函数 ...

2019-11-08 17:06:53 343

原创支持向量积【SVM】

支持向量积根据数据的情况分为三种。如果数据是线性可分的，则用线性可分支持向量积。如果数据是近似线性可分的，则用线性支持向量积。如果数据是不可分的，则用非线性支持向量积。一、线性可分支持向量积1.1 线性可分模型的定义线性可分支持向量积的数据是线性可分，如下图所示，存在一个超平面能将数据完全分开。而支持向量积训练的目的就是找到一个超平面能将上述的数据分开，但是能将数据分开的超平面...

2019-10-24 20:47:06 3008

原创最大熵模型

一、最大熵模型的理解最大熵模型是由最大熵原理推导而来的，最大熵原理认为在所有可能的概率模型中，熵最大的模型是最好的模型。即在满足约束条件的情况下，所有变量的取值都是等可能的。假设有如下的离散分布：x 1 2 ...... k p p1 p2 ...... pk 现在利用最大熵原理，证明熵最大的...

2019-10-20 14:42:03 680

原创 pandas的常见用法(2)

pandas在特征工程的各个部分都有应用，我们先从最开始的部分说起，数据预处理部分。一、pandas在数据预处理中的应用1.1 处理空值问题在数据预处理的过程中，主要处理数据空值的问题# 创建数据集df = pd.DataFrame(np.random.randn(7,3),columns=['x1','x2','x3'])# not a number 表示缺失数据df.i...

2019-09-05 09:04:02 146

原创 pandas常见用法

pandas在kaggle比赛中比较常见，基本上所有的数据都会读入pandas，然后在pandas里面进行各种特征工程，包括特征筛选，特征组合等等。下面列出常见的pandas用法。目录一、数据的读取与保存二、DataFrame中的列对象-Series2.1 Series对象的创建 2.2 Series对象的一些属性和...

2019-08-31 13:24:22 890

原创 numpy常见用法

目录一、numpy数组的创建1.1 手动创建1.2 调用numpy函数创建1.3 创建连续数组二、numpy数据类型以及本身操作2.1 numpy的数据类型及转换2.2 numpy数组的shape即转换三、取numpy数组中的值3.1切片索引3.2布尔索引3.3 花式索引四、numpy数组的计算4.1 numpy数组本身的计算4.2 与其...

2019-08-30 10:18:48 748 1

原创 kaggle比赛-House Prices：baseline-v1

学完机器学习的基本算法之后，想找一个实践的机会。于是就瞄准了kaggle比赛，先从最基本的房价预测开始，这是一个比较简单的比赛。一、赛题分析训练集数据是1460x81的数据，其中1460是数据条数，80列是有关房价的特征，1列是房价。测试集数据是1459x80的数据，其中1459是数据条数，80列是有关房价的特征，没有房价的标签从数据集的分布来看，标签是一个连续值，这是一个回归的问...

2019-08-12 21:16:03 447 1

原创线性回归-波士顿房价预测

这篇文章介绍用线性回归解决波士顿房价的预测问题，线性回归的原理部分参见线性回归博客。一、了解数据首先导入需要的包import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.datasets import load_bostonfro...

2019-05-07 15:06:18 30719 2

原创高斯分布

高斯分布在整个机器学习中都频繁出现，比如，在一开始学习线性回归的时候，在涉及到他的概率解释的时候，假设噪声服从高斯分布。在高斯混合模型（GMM），高斯判别分析（LDA）等等中，都涉及到了高斯分布，所以这里结合CS229课程笔记和机器学习-白板推导（二）-数学基础来对高斯分布进行一个介绍。一、一维高斯分布一维高斯分布的概率密度函数如下：下面是均值为0，方差为1的高斯分布图像：...

2019-04-26 10:41:23 6729

原创主成分分析【PCA】

一、背景在讲PCA之间，我们先来讨论一下过拟合的问题。通常遇到过拟合，会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下，我们一般采取正则化来避免过拟合。但除了正则化之外，我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。为什么降维可以解决过拟合的问题？在我们通常收集的数据中，有很多特征是可以由其他特征推测出来，或者两个特征其实是描述的同一件事情。比如，...

2019-04-23 16:48:30 497

原创 K均值算法【K-means】

一、K-Means算法流程K均值算法是学习无监督学习的第一个算法，这个算法理解和实现都比较简单，算法的目的是将数据分成K组。为了达到这个目的，算法首先随机初始化k个数据点（聚类中心），然后遍历所有数据，计算出每一个数据到k个点的距离，找到最小的距离，则该点属于这个类。之后计算每一组中的平均值，然后更新聚类中心，直到中心点不再发生变化。下面是算法的运行过程：输入：没有标签的数据X，...

2019-04-21 08:53:02 2222 2

原创贝叶斯线性回归

一、贝叶斯线性回归框架二、贝叶斯线性回归详细介绍首先介绍Inference，求出后验概率。下面是推断的部分：给定X，求出Y万分感谢下面的参考资料，这个系列真的帮我理解了很多算法，建议大家看看。参考资料：机器学习-白板推导系列-贝叶斯线性回归...

2019-03-29 10:36:21 566

原创指数分布族

我们都知道logistic回归，softmax回归，线性回归，他们看上去不一样但是他们都属于广义线性模型【Generalized Linear Mode】。这篇博客就来介绍他们。要介绍广义线性模型前，首先介绍指数分布族。一、指数分布族【The exponential family】指数分布族具有如下形式：下面是对指数分布族的一些理解：下面列出怎么求解参数二、最大熵的...

2019-03-28 09:17:48 13383 2

原创线性判别分析【LDA】

LDA线性判别的思想很简单，把训练集样本投影到一条直线上，使得同类样本的投影点尽可能近，不同类样本点的距离尽可能远。即类内小，类间大。一、LDA模型定义下面我们把类内小，类间大这种思想转化为数学表达式：上面的式子不容易求解，需要对上面的式子做化简。二、LDA模型求解2.1 求解方式12.2 求解方式2上面的方法可能理解起来比较困难，下面是西瓜书和Jerr...

2019-03-26 14:13:33 582

原创高斯判别分析【GDA】

一、高斯判别模型定义高斯判别属于生成模型的一种（明明是个生成模型，名字里面非得加个判别，还有logistic回归模型，明明是分类，名字里面非要加回归），生成模型就是要最大化后验概率，如下图所示：下面是整个高斯判别模型的说明：二、模型求解2.1 模型中Φ的求解下面就是求解模型参数的过程：2.2 模型中u1，u2的求解2.3 模型中Σ的求解...

2019-03-25 11:05:58 1747 4

原创线性回归

一、线性回归的一般形式监督学习的主要任务是分类和回归，而线性回归是最简单的一种回归方式。线性回归是要解决上面的问题，对于给定房子的面积如何来预测房子的价格。根据数据分布的特点，我们很自然的想到，如果能找到一条直线。这条直线在这些数据上表现好，那么它就能完成对于未知数据的预测。很自然我们假设的直线应该是下面的样子。其中，Θ是参数为了衡量我们假设函数的好坏，还需要引进损失函数来评...

2019-03-23 19:29:30 2166

原创隐马尔可夫模型【HMM】

隐马尔可夫模型属于生成模型，它在语音识别、自然语言处理、生物信息、模式识别领域有广泛的应用。隐马尔可夫模型可以用三句话概括，一个模型、两个假设、三个问题。解决了这些问题，隐马尔可夫模型也就掌握了。一、一个模型1.1 模型定义先引入一些有关HMM的符号：观测变量符号为O，O1，O2，O3.....为观测序列，它的取值集合为V={v1，v2，v3....}状态变量符号为I，i1，i...

2019-03-21 15:45:26 1597

原创高斯混合模型推导【GMM】

一、背景1.1 GMM背景有时候我们的数据分布可能如上左图所示，根据数据分布情况我们猜测这个数据服从三个高斯分布如上右图所示，很自然就会把模型定义为三个高斯模型的混合接下来我们会尝试用极大似然估计的方法来求解其中的参数，1.2 GMM为什么不能用极大似然估计解决因为无法用对数极大似然估计法求得参数的解析解，所以引入了EM算法来进行求解参数。二、EM算求解参数...

2019-03-15 10:10:40 932 1

原创 logistic回归【逻辑斯蒂回归】

一、logistic回归原理1.1 从线性回归到logistic回归角度理解模型logistic回归名字里有回归两个字，但本质上是一个分类问题，对于给定的特征输入X，判断该特征代表的样例是正类还是负类。借鉴以前我们学习线性回归的知识，我们希望建立一个线性模型Wx+b，让模型能告诉我们如果是正类输出1，是负类输出0，但是我们都知道wx+b的结果是负无穷到正无穷上的所有数，所以没办法满足我们的...

2019-03-10 11:00:13 487

原创朴素贝叶斯法

一、全概率公式与贝叶斯公式下面是是全概率公式和贝叶斯公式的定义（张宇概率九讲）贝叶斯定理是在事件已经发生后，反过来讨论事件在那个条件下发生的概率。下面以一个例题来讲解全概率公式和贝叶斯公式二、朴素贝叶斯算法朴素贝叶斯算法属于生成模型，需要对p(x|y)进行建模，如下图所示：p(y)称为先验概率，他给出的是属于那一个类别的概率，这个一般比较好计算。p(x|y)是lik...

2019-03-09 11:22:08 1204

原创 AdaBoost

一、集成学习AdaBoost是集成学习的一种。集成学习的目的是通过结合几个由给定的算法组成的模型，去提高单个模型的准确率。就是俗话说的三个臭皮匠顶一个诸葛亮的意思。对于多个简单的模型，集成学习有两种结合算法的方式，一种是平均的方式，例如Bagging方法，随机森林法。另一种是提升的方法，例如：Adaboost,GBDT等。二、AdaBoost根据上面集成学习的定义，AdaBoost算法...

2019-03-08 14:51:10 1251

原创决策树

通常决策树的学习分为3个步骤：特征选择、决策树的生成、决策树的剪枝。一、特征选择首先，看一组数据，是贷款申请样本数据表，年龄，有工作，有自己的房子，信贷情况为特征，类别为是否申请成功数据。摘自李航的统计机器学习。决策树的本质是树，对应上面具体的问题，构建树的时候，选择年龄、有工作、有自己的房子、信贷情况、他们中谁作为二叉树的第一个节点会让分类的结果准确一点。就产生了决策树的特征选择...

2019-03-05 10:14:48 1484

原创 K近邻法(KNN)-原理及编码实现

一、KNN算法概述K近邻算法（k-nearest neighbor,KNN）是一种基本的分类和回归方法,KNN算法对于一个新的样本只需要计算和他最近的K个点，K个点中多数表明他是那个类，他就是那个类。KNN没有和别的算法一样，要先训练，然后才能预测。这个算法可以直接预测该点的标记。只是在查找最近的K个点的时候，需要遍历整个数据集，消耗的时间会非常大。为了减少查找的时间，才有了K-D树。...

2019-02-28 09:38:34 904

原创感知机-收敛性证明及代码实现

一、感知机原理感知机是最简单的线性二分类模型，如果要处理的数据是线性可分的，则该模型能取得很好的效果，如果数据不是线性可分的，则该模型不能取得很好的效果。以二维平面为例，如果要分类的点，能被一条直线分开，直线的一侧是正类，直线的另一侧是负类，则说明数据是线性可分的。如果数据需要一个圆来分开则说明数据不是线性可分的，曾经感知机因为不能处理异或问题，而被人批判，导致神经网络的研究停滞了几十年。...

2019-02-26 19:45:39 3835 8

原创 AlphaGo姐妹篇AlphaFold

在AlphaGo成功之后，我以为DeepMind的下一步动作是进军游戏产业，制作一个能打败所有顶尖游戏选手的程序，毕竟这个能做出来也很拉风。但是，没想到他下一步的动作是AplhaFold，用来预测蛋白质的三维结构，运用人工智能技术来助力科学发现。在Community Wide Experiment on the Critical Assessment of Techniques for Pro...

2018-12-04 09:28:58 4933

原创 1024程序猿节

大家节日快乐！！！

2018-10-24 19:19:45 176

原创 Matlab常用语法和基本运算

（一）Matlab基本操作 1> 实数的加减乘除乘方等运算可直接在Matlab的控制台下进行对应的操作，如下。>> 5+6ans = 11>> 3-2ans = 1>> 5*7ans = 35>> 5*8ans = 40>> 1/2ans =...

2018-10-13 14:44:06 1593

原创 GIT常用命令（一）

1、创建版本库版本库可以理解成GIT管理的目录，GIT能追踪里面每一个文件的增加，修改，删除。创建版本库的命令只需要一行，在相应的目录下里，点击鼠标右键会出现Git Bash Here，点击进入命令行，输入git init 完成初始化。git就会跟踪这个目录下所有的文件。如下，显示创建成功。$ git initInitialized empty Git repository in ...

2018-09-23 11:06:10 323

原创 ACL访问控制列表

一、什么是ACL ACL是一个有序的语句集，它通过对比报文中的字段值与访问列表参数，来允许和拒绝报文通过某个接口，这种控制可以限制网络数据流和限制某些用户对网络的使用。它最直接的作用就是包过滤，一般在路由器和三层交换机上进行网络安全属性配置。二、ACL组成 ACL由条件和操作组成。 1>条件：用来匹配数据包中的字段值。 2>操作：条件匹配的时候，采取允许和

2018-01-16 17:53:41 1344

原创最小二乘法 python实现

最小二乘法适用于对处理的一堆数据，不必精确的经过每一点，而是根据图像到每个数据点的距离和最小确定函数。最小二乘法逼近的最简单的例子是根据一组观测值对(x1,y1),(x2,y2)…(xn,yn)来拟合一条直线。直线的数学表达式为下面是一元线性拟合的原理说明：一元线性拟合的python实现代码import matplotlib.pyplot as pltfrom py

2018-01-14 15:29:55 31841 11

原创矩阵三角分解法（LU分解）

矩阵分解法是高斯消元法的变形，它的复杂度和高斯消元法一样都是O(n^3)，但是矩阵分解法在处理线性方程组系（具有相同的系数矩阵，但是右端项不同的方程组）时，运算比较方便。下面是矩阵分解原理的原理：下面是如何来求解L和U矩阵：在求L和U矩阵的时候，要注意两点： 1>先求U矩阵中的一行，然后在求L矩阵的

2018-01-13 16:52:42 24192 2

HousePrice.html

Edraw 9.1 破解版

软件工程复习提纲

Packet Tracer安装包

SQL SERVER 2014

SQL SERVER 2008 jdbc驱动

SQL基本操作

Winpcap软件

Ethereal软件

数据库操作

数据库的基本操作

空空如也