4 guoziqing506

尚未进行身份认证

暂无相关简介

等级
TA的排名 4k+

MySQL基本操作四:数据的查询

之前我介绍了MySQL中,数据记录的增、删、改操作。本文我们看查询操作。为方便后面举例,还是先建立一个表,并插入一些数据。我在这里依旧建立一个学生信息表,建表的代码如下:CREATE TABLE tab_student( StuID CHAR(4), Name VARCHAR(20), Sender CHAR(1), Age INT, Math INT,...

2018-12-02 21:15:59

MySQL基本操作三:数据的插入、更新、删除

介绍MySQL中数据的插入,更新,删除操作前,我先建一个表。方便后面举例子。这是一个学生信息表:CREATETABLEtab_student(NameCHAR(20),StuIDVARCHAR(20),RankINT);建好以后,长成这样:1.插入数据1.1插入完整数据记录语法形式如下:INSERTINTOt...

2018-08-17 22:14:03

CART-分类和回归树

之前在博文 决策树归纳 中,我介绍了用决策树进行分类的算法,包括ID3和C4.5。然而决策树不仅可以用来做数据分类,也可用于做数据回归。1984年Breiman,Friedman,Olshen等人出版了著作《Classification and Regression Trees》(简称CART)介绍了二叉决策树的产生。他们给出了用二叉决策进行树数据分类和回归的方法。在阅读本文之前,我假设读者已...

2018-08-15 20:28:19

概率检索模型

概率检索模型是当前信息检索领域效果最好的模型之一,它基于对已有反馈结果的分析,根据贝叶斯原理为当前查询排序。我在之前的博客 SVM解释:二、SVM的数学基础 中介绍了如何用朴素贝叶斯算法对数据进行分类,其实概率检索模型的基本原理与朴素贝叶斯分类是一样的。先回忆一下朴素贝叶斯算法的原理:对于测试元组XXX,最终目的是要计算对于不同的类CiCiC_i,计算后验概率p(Ci|X)p(Ci|X)p(C...

2018-08-13 21:30:26

海量数据处理技巧

数据时代来临,数据量的爆炸式增长是最为显著的特征。当高性能硬件的普及还跟不上这样的数据大潮时,如何在有限的时空资源内处理海量数据成为了计算机科学以及数理统计等领域最大的挑战。所谓“数据处理”,在本文中特指通过计算机技术,对海量数据进行存储、统计、查询等操作。我将在下面介绍一些基本的海量数据处理的方法,供大家参考。需要明确的一点是,现实情况复杂多变,所以对于海量数据处理这样大的主题,是不可能用一...

2018-08-02 20:07:18

逻辑回归(logistic regression)原理详解

机器学习解决的问题,大体上就是两种:数值预测和分类。前者一般采用的是回归模型,比如最常用的线性回归;后者的方法则五花八门,决策树,kNN,支持向量机,朴素贝叶斯等等模型都是用来解决分类问题的。其实,两种问题从本质上讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预测,若是连续的数值预测就是回归问题,若是离散的类标号预测,就是分类问题。这里面有一类比较特殊的算法,就是逻辑回归...

2018-08-01 12:34:18

最大化期望算法(EM)详解

我们知道最大似然估计的根本目的是根据抽样的到的样本(即数据),反推出最有可能的分布参数(即模型),这是一个非常典型的机器学习的思想。所以在很多领域最大似然估计有着极为广泛的应用。然而,如果已知的数据中含有某些无法观测的隐藏变量时,直接使用最大似然估计是不足以解决问题的。这个时候就要依靠最大化期望(EM)算法了。简单的说,EM算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者...

2018-07-30 09:15:53

SVM解释:五、SMO算法

SMO算法是JohnC.Platt在1998年提出的。论文的题目是”SequentialMinimalOptimization:AFastAlgorithmforTrainingSupportVectorMachines”。它很快便成为最快的二次规划优化算法,特别是在针对线性SVM和数据稀疏时性能更优。当然了,SMO优越性能的背后是其相当复杂的数学推导,所以,我也把这块最...

2018-07-23 08:42:47

SVM解释:四、线性不可分的情况

之前的博客介绍了在数据为线性可分的情况下,如何用SVM对数据集训练,从而得到一个线性分类器,也就是超平面WX+b=0WX+b=0WX+b=0.但是我已经强调过多次,线性可分的情况有相当的局限,所以SVM的终极目标还是要解决数据线性不可分的情况。解决这种线性不可分的情况基本的思路有两种:加入松弛变量和惩罚因子,找到“最好”超平面,这里的“最好”可以理解为尽可能地将数据正确分类;使用...

2018-07-23 08:41:42

SVM解释:三、线性可分的情况

在之前的博客 拉格朗日乘子法和KKT条件 中,我已经大致介绍了支持向量机(SVM)的数学理论基础。从本文开始,我将逐步推导SVM是如何运用于数据分类的。由简入难,我先来介绍最简单的,通过训练线性可分的数据分类。在我写的SVM的第一篇博客中,已经大致介绍了SVM是做什么的,大概是怎样一个思路,所以本文我们直接进入正题,从介绍最大边缘超平面的计算方法开始。1. 最大边缘超平面一个给定的...

2018-07-23 08:41:26

SVM解释:二、SVM的数学基础

本节所述的内容为与支持向量机(SVM)相关的数学基础知识。总的来说,我先介绍了凸优化问题求最优解的思路,介绍了拉格朗日乘子法和KKT条件,随后根据KKT条件给出了求解有不等式约束的凸优化问题的一种解法,即拉格朗日对偶。我的学习体会是,如果不理解上面说的这些数学基础知识,学习SVM会寸步难行。所以我把基础知识部分当做学习SVM的第一站。当然,如果你已经了解这些,也可以直接跳到我的下一篇博客。。去...

2018-07-23 08:41:07

SVM解释:一、SVM的整体框架

支持向量机(Support Vector Machine)是一种非常重要的分类方法,大的范畴上讲,属于监督学习。它最早由Vapnik等人在1992年提出,已经发展了近30年。尽管它的训练速度偏慢,但是由于其对复杂非线性数据的强大的建模能力,依然在很多领域,包括手写数字识别,对象识别,基准时间序列预测检验等有着非常广泛的应用。可以说,任何一种二分类的问题都在理论上都可以用SVM解决。当然,SVM...

2018-07-23 08:40:36

隐性语义索引(LSI)原理与实现

隐性语义索引(Latent Semantic Idexing, LSI),也叫Latent Semantic Analysis(LSA),是信息检索领域一类非常重要的技术思想。它通过对词项-文档矩阵的奇异值分解,在理论上成功地解决了潜在语义(或者叫隐性语义)的检索问题。本文将介绍关于LSI的原理和实现方法。隐含语义问题基于关键词的文档检索是IR中最简单,也是最普遍的技术手段。一般来说,...

2018-07-11 21:55:52

C++:继承和多态

C++中类之间的关系,一共分为以下三种:has-a:包含关系。表示类A的一个成员是类B,比如类Student中,有数据成员score,而score是属于类Score的;use-a:使用关系。表示类B会用到类A的成员,比如类State会用到类Region中的成员函数getArea(),我们可以通过定义友元类来实现快捷编程;is-a:继承关系。表示类B是类A的一个子集,比如类Student是...

2018-07-10 14:26:03

C++:指针的应用

指针是C++的一个非常强大的特性,它能使我们直接访问计算机的内存,指针可以用来引用一个数组,一个字符串,一个整数或者任何其他变量。这种强大的功能使得指针在C++程序设计中是非常普遍的,而同时,指针的知识又显得有那么些“繁杂”,有必要清晰地做个总结。什么是指针指针,就是内存地址。我们一般会声明一个变量是整数int,浮点double,或者字符char等等,指针变量(通常简称指针)和他们本质...

2018-07-01 20:44:22

MySQL基本操作二:索引的操作

索引创建在数据库的表对象上,由表中的一个或多个字段生成的键组成,这些键被数据结构(例如B树)组织起来,目的是通过索引快速地定位与键值相关的数据对象。MySQL支持6种索引:普通索引;唯一索引;全文索引;单列索引;多列索引;空间索引。本文,我将分别介绍关于这6种索引创建,查看,删除的基本操作。普通索引1. 创建表时创建普通索引语法形式如下:CREATE TABLE tab...

2018-06-29 11:32:09

主成分分析(PCA)原理与实现

主成分分析(PCA)是最重要的数据降维的方法之一。针对高维数据的处理时,往往会因为数据的高维度产生大量的计算消耗,为了提高效率,一般最先想到的方法就是对数据降维。与“属性子集选择”的方法(即选择一部分有代表意义的属性直接替代原数据)不同,PCA是通过创建一个由原数据中的属性“组合”而成的,数量较小的变量集合来替代原数据。PCA的基本思想可以这样描述:找出数据的所有属性中最主要的部分,用这个部分...

2018-06-27 14:16:19

奇异矩阵及广义逆矩阵

再介绍奇异矩阵以及矩阵的广义逆之前,先复习几个概念,然后我一步步给出奇异矩阵和广义逆的介绍。伴随矩阵1. 余子式定义1 余子式:在nnn阶行列式|A||A||A|中,划去元素aijaija_{ij}所在的行和列,剩下的元素(显然,剩下了(n−1)2(n−1)2(n - 1)^2个元素),按照原先的排列生成的新行列式的值称为元素aijaija_{ij}的余子式,记为MijMijM...

2018-06-03 17:00:26

线性方程组解的分析:唯一解,无穷多解以及无解

本文将总结关于线性方程组解的知识点。线性方程组定义1 线性方程组:我们将形如下式的方程组称为线性方程组。a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2…am1x1+am2x2+⋯+amnxn=bm(21)(21)a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2…am1x1+am2x2+⋯+amnx...

2018-06-03 16:50:20

矩阵的分解:满秩分解和奇异值分解

满秩分解定义与性质定义1满秩分解:对于m×nm×nm\timesn的矩阵AAA,假设其秩为rrr,若存在秩同样为rrr两个矩阵:Fm×rFm×rF_{m\timesr}(列满秩)和Gr×nGr×nG_{r\timesn}(行满秩),使得A=FGA=FGA=FG,则称其为矩阵AAA的满秩分解。定理1:满秩分解有两个性质,满秩分解不唯一:假设存在rrr阶可逆方阵...

2018-06-02 01:41:39

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!