自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习19-SVM线性可分公式推导(一)

一  在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应

2017-06-22 12:43:26 1492

转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却

2017-06-21 16:34:15 352

原创 机器学习18-XGBoost的推导过程

一,对随机森林的重新思考   随机森林的每个决策树由随机样本数,随机样本特征,通过信息熵的度量来确定,可以说各个决策树之间是相互独立的,每个树只是在某个分类方向上具有优势(弱分类器),将具有优势的这些树组成森林,即可生成随机森林,从而达到分类的目的。但是如果我想对随机森林进一步提升准确率,应该采取什么策略呢?有以下2个方向:   1,决策树。    假定当前得到m-1颗决策树,可以根据

2017-06-19 16:29:52 1606 1

转载 开源IndexR:如何对上千亿的数据进行秒级探索式分析

目前,行业中的大数据分析架构一般使用基于 Hadoop 体系的分布式计算引擎 + 分布式存储系统架构(如下图)。Hadoop 体系的架构特点是上层解决计算问题,下层解决存储问题。它可以让开发者在不了解分布式底层细节的情况下,进行分布式程序的开发。但是,这种架构同时也存在一些问题:整合工作量大分布式存储目前的标准比较统一,一般使用 HDFS。HDF

2017-06-16 10:14:25 3770 1

原创 机器学习17-随机森林中的细节点(更新中)

一,特征连续如何选择分割点1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺

2017-06-15 13:53:25 959

原创 机器学习16-熵与随机森林

熵与随机森林一,熵熵是描述系统混乱的量,熵越大说明系统越混乱,携带的信息就越少,熵越小说明系统越有序,携带的信息越多。你要现确定系统,再来描述。你的例子,可以这样理解,同样大的硬盘,熵越大什么坏了的硬盘越多,他可以承载的信息越少,熵越小意味着坏掉的硬盘越少,可以承载的信息量越大。

2017-06-15 11:31:15 2885

原创 PCA算法原理与详细注解

http://blog.codinglabs.org/articles/pca-tutorial.html这篇博文非常详细的介绍了PCA算法的过程,但对数学基础较薄弱人来说,看的有些费劲。本篇博文从一个刚接触PCA算法小白的角度学习PCA算法,希望能帮助到你。整体认知:PCA算法就是一个降维算法,比如10维数据降到7维数据,2维数据降到1维数据。通过降维,方便数据计算。在图像上更有直观

2017-06-05 15:50:50 2139

转载 奇异值分解(SVD)原理详解及推导

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43053513     SVD不仅是一个数学问题,在工程应用中的很多地方都有它的身影,比如前面讲的PCA,掌握了SVD原理后再去看PCA那是相当简单的,在推荐系统方面,SVD更是名声大噪,将它应用于推荐系统的是Netflix大奖的获得者Koren,可以在Google上找到他

2017-05-31 16:01:48 656 1

原创 最大似然估计

一,定义 设总体分布为 F(x,Ø ), 其中x1,x2,x3,x4,,,xn 为该总体样本采集得到的样本,因为x1,x2,x3,x4,,,xn 独立同分布,于是他的联合密度函数为:这里的Ø 被看做固定但未知的参数,反过来,因为样本已经存在,x1,x2,x3,x4,,,xn 也是固定的,则L(x,Ø )是关于X的函数,即似然函数。求参数Ø 的值使得似

2017-05-25 16:06:59 6550

原创 概率分布-beta分布

一,beta分布的概率密度其中系数B为:Gamma函数在之前博文中推导过:beta分布期望beta分布图

2017-05-25 15:03:55 3065

原创 纳什均衡的对赌问题

问题:A ,B两人各自取一枚硬币,自行取正反。若都是正面,A给B 3元。若都是反面,A给B 1元。其余,B给A 2元。那么当A采取何种策略能保证赢钱?如果AB两人无策率的随机取正反,即硬币出现正反概率为1/2 ,A赢钱的期望E(A)=3 * 1/4 +1 * 1/4 - 2 * 1/2 = 0则 A赢钱的期望为0元。游戏是公平的,但现在A采取什么样的策略才能保证

2017-05-24 16:45:06 649

原创 概率分布-泊松分布

分布特点泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为  特征函数为 应用场景在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出

2017-05-24 13:30:44 5040

原创 mysql-proxy数据库中间件架构

一、mysql-proxy简介mysql-proxy是mysql官方提供的mysql中间件服务,上游可接入若干个mysql-client,后端可连接若干个mysql-server。它使用mysql协议,任何使用mysql-client的上游无需修改任何代码,即可迁移至mysql-proxy上。mysql-proxy最基本的用法,就是作为一个请求拦截,请求中转的中间层

2017-05-21 14:57:03 11610 1

原创 机器学习公式推导-Γ函数的推导

推导出:Γ函数是阶乘在实数上的推广

2017-05-19 11:06:06 1240

转载 机器学习模型-外卖订单量预测异常报警模型实践

一、前言外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示):周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响,呈现整体的上涨或下降。

2017-05-17 16:10:51 5201 3

原创 贝叶斯公式的数学定义

定义贝 叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。例子例如:一座别墅在过去的

2017-05-15 22:40:33 563

转载 hadoop数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2017-05-09 14:22:10 8671 1

原创 Java中关于OOM的场景及解决方法以及JVM知识

Java中关于OOM的场景及解决方法以及JVM知识1、OOM for Heap=>例如:java.lang.OutOfMemoryError: Java heapspace【分析】 此OOM是由于JVM中heap的最大值不满足需要,将设置heap的最大值调高即可,参数样例为:-Xmx2G【解决方法】调高heap的最大值,即-Xmx的值调大。名词解析:

2017-05-09 10:09:33 611

转载 Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。    多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志时

2017-04-26 14:49:02 730

原创 机器学习算法实现04-k-means均值算法的实例

根据之前博文中k-均值算法表述,编写代码,对k-均值算法有个清晰认识问题:将图中数据分成3组。下图是整个k-均值算法的流程  1,首先选择 K 个随机的点,称为聚类中心(cluster centroids);  2,对于数据集中的每一个数据,按照距离 K 个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。  3,

2017-04-20 17:20:30 720

原创 机器学习15-k-均值算法表述

一,无监督学习简介     在这个博文中,我将开始介绍聚类算法。这是我们学习的一个非监督学习算法。我们将要让计算机学习无标签数据,而不是此前的标签数据。那么,什么是非监督学习呢?在本系列博文的一开始,我曾简单的介绍过非监督学习,然而,我们还是有必要将其与监督学习做一下比较。在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中

2017-04-19 09:56:14 993

原创 机器学习14-支持向量机大边界的数学原理

在本篇博文中,我将介绍一些大边界分类背后的数学原理。你将对支持向量机中的优化问题,以及如何得到大边界分类器,产生更好的直观理解。    首先,让我来给大家复习一下关于向量内积的知识。假设我有两个向量,u 和 v 我将它们写在这里。两个都是二维向量,我们看一下,uT v 的结果。u T v 也叫做向量 u 和 v 之间的内积。由于是二维向量,我可以将它们画在这个坐标系上。我们说,这就是向

2017-04-17 09:54:55 1556

原创 机器学习13-支持向量机大边界的直观理解

人们有时将支持向量机看作是大间距分类器。在这一部分,我将介绍其中的含义,这有助于我们直观理解 SVM 模型的假设是什么样的。   这是我的支持向量机模型的代价函数,在左边这里我画出了关于 z 的代价函数 cost1(z),此函数用于正样本,而在右边这里我画出了关于 z 的代价函数 cost0(z),横轴表示 z,现在让我们考虑一下,最小化这些代价函数的必要条件是什么。如果你有一个正

2017-04-16 14:41:50 1523

原创 机器学习12-支持向量机的数学上定义

一,代价函数的优化      到目前为止,你已经见过一系列不同的学习算法。在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是你该选择使用学习算法 A 还是学习算法 B,而更重要的是,应用这些算法时,所创建的大量数据在应用这些算法时,表现情况通常依赖于你的水平。比如:你为学习算法所设计的特征量的选择,以及如何选择正则化参数,诸如此类的事。还有一个更加强大的算法广泛的应用于工业界和学

2017-04-16 14:08:56 449

原创 机器学习算法实现03-神经网络

依据之前博文中的神经网络理论做个简单的例子,对神经网络前向传播与反向传播算法有个深入理解,同时对神经网络计算细节有个清晰认识。题目:上图的样本案例分3类,利用神经网络知识推算出一个未知坐标属于哪类这里我准备用3层结构的神经网络层一,nn_params:初始化参数值。    首先进行参数随机初始化    eps = 0.0001 ;   Theta1=

2017-04-13 10:27:04 610

原创 机器学习11-神经网络综合运用

小结一下使用神经网络时的步骤:    网络结构:第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数即我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于 1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。训练神经网络: 1. 参数的随机初始化

2017-04-08 16:28:40 538

原创 机器学习10-神经网络反向传播算法

一,神经网络的代价函数  首先引入一些便于稍后讨论的新标记方法:假设神经网络的训练样本有 m 个,每个包含一组输入 x 和一组输出信号 y,L 表示神经网络层数,Sl 表示每层的 neuron 个数(SL 表示输出层神经元个数),SL  代表最后一层中处理单元的个数。将神经网络的分类定义为两种情况:二类分类和多类分类,二类分类:SL=1, y=0 or 1 表示哪一类;K 类分类:SL

2017-04-08 02:22:27 826

原创 机器学习09-神经网络表述

一,为什么使用神经网络    我们之前学的,无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大,下面是一个例子:当我们使用 x1、x2 的多次项式进行预测时,我们可以应用的很好。之前我们已经看到过,使用非线性的多项式项,能够帮助我们建立更好的分类模型。假设我们有非常多的特征,例如大于 100 个变量,我们希望用这 100 个特征来构建一个非线性的多

2017-04-07 16:51:57 782

原创 机器学习算法实现02-非线性逻辑回归正则化

对于非线性逻辑回归问题,你选择的函数可能是多项式函数,指数函数,或幂函数等等。本篇博文主要阐述非线性逻辑回归问题的处理过程,并使用正则化技术。详细理论请参阅我的机器学习理论系列博文。  如图所示,对上图进行逻辑回归处理,很明显选择多项式函数是个不错的主意,当然对于不同分布图要选择合适的函数。本列子中选择H(x)=Θ0+Θ1*X1+Θ2*X2^2+Θ3*X3在SRC.txt文件中

2017-04-07 14:43:21 608

原创 机器学习08-正则化

一,为什么要使用正则化   到现在为止,我们已经学习了几种不同的学习算法,包括线性回归和逻辑回归,它们能够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过度拟合(over-fitting)的问题,可能会导致它们效果很差。在这篇博文中,我将为你解释什么是过度拟合问题,我们将谈论一种称为正则(regularization)的技术,它可以改善或者减少过度拟合问题。如果我们有非

2017-03-30 13:18:53 958

原创 机器学习算法实现01-逻辑回归的全过程

在读这篇博文之前,你应该认真读过我之前的逻辑回归理论,里面涉及大量的推导你应该也明白,本篇博文着重将理论结合实际案例,将逻辑回归过程完全呈现出来,并得到最优解,并能根据最优解预测结果。  因为涉及到公司业务问题,我不能将实际案例拿出来讲,但我将根据实际案例抽象出核心算法案例,如下图  图中有7个坐标(x1,x2),当然在实际中通常是(x1,x2,x3 ......xn),不过没关系

2017-03-29 15:04:52 929

原创 机器学习07-逻辑回归-代价函数与梯度下降的优化

一,代价函数   针对逻辑回归,本篇博文讲述逻辑回归里的代价函数,并给出优化后的梯度下降算法,读完本篇博文你应该可以使用逻辑回归了。如何拟合逻辑回归模型的参数θ。具体来说,我要定义用来拟合参数的优化目标或者叫代价函数,这便是监督学习问题中的逻辑回归模型的拟合问题。 对于线性回归模型,我们定义的代价函数是所有模型误差的平方和。理论上来说,我们也可以对逻辑回归模型沿用这个定义,

2017-03-29 14:22:41 3885

原创 机器学习06-逻辑回归-分类与决策边界

在这篇博文以及之后博文中,开始介绍分类问题。在分类问题中,你要预测的变量 y 是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区

2017-03-28 17:08:28 9186

原创 机器学习05-学习率与正规方程

通过前面博文,你应该了解:单/多变量线性回归,代价函数,梯度下降算法,特征缩放。这篇博文主要讲解:1,在梯度下降算法中,如何选择合适的学习率α。2,在一定条件下,不使用多次迭代梯度下降算法求最优值θ,而是一次性求出θ。一,学习率α的选择 梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收

2017-03-26 19:18:18 1058

原创 机器学习04-多变量梯度下降与特征缩放

本篇博文是单变量线性回归与梯度下降的拓展,使之能在正式生产中更好地落地http://blog.csdn.net/xinzhi8/article/details/64919106 代价函数与梯度下降算法(一)(代价函数又称成本函数)http://blog.csdn.net/xinzhi8/article/details/64948465 代价函数与梯度下降算法(二)

2017-03-23 23:30:44 2031

原创 机器学习03-代价函数与梯度下降算法(二)

在阅读这篇博文之前你需要了解的数学知识:1,误差:本篇用平方差误差公式。2,函数的收敛性:当函数趋向无穷大或无穷小,或某个具体数值时,该函数总是逼近某个值,这就是函数的收敛性。3,导数:导数的数学意义就是这个点的斜率。4,矩阵。   在《机器学习笔记02-代价函数与梯度下降算法(一)》中我们谈到代价函数:而在本篇博文中,我们将讨论如何

2017-03-22 21:35:22 3195

原创 机器学习笔记02-代价函数与梯度下降算法(一)

在阅读这篇博文之前你需要了解的数学知识:1,误差:本篇用平方差误差公式。2,函数的收敛性:当函数趋向无穷大或无穷小,或某个具体数值时,该函数总是逼近某个值,这就是函数的收敛性。3,导数:导数的数学意义就是这个点的斜率。4,矩阵。一,模型表示     我们的第一个学习算法是线性回归算法。这篇博文你将会使你了解监督学习过程完整的流程。让我们通过一个例子来开始:这个例

2017-03-22 14:36:36 4461

原创 机器学习笔记01-介绍(introduction)

一,什么是机器学习     第一个机器学习的定义来自于 Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。Samuel 的定义可以回溯到 50 年代,他编写了一个西洋棋程序。这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之

2017-03-21 21:07:27 984

原创 数据结构与算法之带权图的最小生成树

http://blog.csdn.NET/xinzhi8/article/details/62222154 图介绍与深度优先搜索  http://blog.csdn.Net/xinzhi8/article/details/62222154 广度优先搜索  http://blog.csdn.net/xinzhi8/article/details/63682781 有向图的拓扑排序

2017-03-20 23:07:36 1593

原创 数据结构与算法之有向图的拓扑排序

图的基础介绍和基础算法深度优先搜索,广度优先搜索在我前两篇博文中。  http://blog.csdn.net/xinzhi8/article/details/62222154 图介绍与深度优先搜索  http://blog.csdn.net/xinzhi8/article/details/62222154 广度优先搜索    当图的边有方向时,即有向图,这时图的搜索策略将发生变化

2017-03-19 10:59:14 2135

Charset_v0.4.1.crx_.zip

Charset_v0.4.1.crx_

2021-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除