自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (3)
  • 收藏
  • 关注

翻译 ROC

ROC曲线(Receiver Operating Characteeristic Curve)是显示Classification模型真正率和假正率之间折中的一种图形化方法。解读ROC图的一些概念定义:: 真正(True Positive , TP)被模型预测为正的正样本 假负(False Negative , FN)被模型预测为负的正样本 假正(False Positi

2013-05-16 16:48:44 773

转载 机器学习会议

ICML: international conference of machine learningICIP: international conference on image processing        ICCV: international conference on computer vision        iccv: “ICCV”是“Internati

2013-05-16 16:47:20 1241

转载 Weka3.5中使用LibSVM

Dr. Y.Bao推荐数据试验中最好用上SVM的分类方法,让我们在Weka中使用LibSVM,我在网上差了半天,看到许多相同的被转来转去的帖子都讲得人晕头转向,尤其是像我这种Java基础不牢固的人更是不知所以,弄了半天走了不少弯路,不过最后总算是让我把LibSVM集成进Weka了,下面就以我自己的实际经验介绍一下最简单并且切实可行的方法:Weka3.5后增加了libsvm这个选

2013-01-15 23:32:35 9657

原创 ICA扩展描述

7. ICA算法扩展描述     上面介绍的内容基本上是讲义上的,与我看的另一篇《Independent Component Analysis:Algorithms and Applications》(Aapo Hyvärinen and Erkki Oja)有点出入。下面总结一下这篇文章里提到的一些内容(有些我也没看明白)。     首先里面提到了一个与“独立”相似的概念“不相关(u

2013-01-08 23:16:01 830

原创 独立成分分析(Independent Component Analysis)

1. 问题:     1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢?     2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microphone)用来记录声音。宴会过后,我们从n个麦克风中

2013-01-08 23:15:12 621

转载 主成分分析(Principal components analysis)-最小平方误差解释

3.2 最小平方误差理论          假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为最佳的直线就是回归后的直线呢?回归时我们的最小二乘法度量的是样本点到直线的坐

2013-01-08 23:14:20 1000

转载 主成分分析(Principal components analysis)-最大方差解释

在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题     真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样

2013-01-08 23:13:14 971 1

翻译 在线学习(Online Learning)

原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。      假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样例x

2013-01-08 23:12:12 1337

翻译 K-means聚类算法

K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设

2013-01-08 23:10:49 702

翻译 规则化和模型选择Regularization and model selection

1 问题     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含

2013-01-08 23:10:04 573

翻译 SVM(6)

11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for

2013-01-08 23:08:26 684

翻译 SVM(5)

9 规则化和不可分情况处理(Regularization and the non-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张

2013-01-08 23:07:27 432

翻译 SVM(4)

7 核函数(Kernels)考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中

2013-01-08 23:06:19 616

翻译 SVM(2)

6 拉格朗日对偶(Lagrange duality)     先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题:            目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为            L是等式约束的个数。    然后分别对w和求偏导,使得偏

2013-01-08 23:05:30 553

翻译 SVM(1)

1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的logi

2013-01-08 23:04:32 579

翻译 判别模型、生成模型与朴素贝叶斯方法

1判别模型与生成模型上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵

2013-01-08 23:01:40 1065

翻译 线性回归,logistic回归和一般回归

作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要      本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。     讲义最初介绍了一个基本问题,然后引出了线性回

2013-01-08 22:59:51 908

原创 混合高斯模型mixture Gaussians和EM算法

这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。      与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由

2013-01-08 22:56:52 1782

翻译 迁移学习 transfer learning

迁移学习( Transfer Learning ) 在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型;然后利用这个学习到的模型来对测试文档进行分类与预测。然而,我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:一些新出现的领域中的大量训练数据非常难得到。我们看到Web应用领域的发展非常快速。大量新的领域不断涌现,从传统的新闻,到网页,到图

2013-01-08 22:50:59 871

转载 分类器:Cart,bagging,random forest boosting

本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法。CART(Classification And Regression Tree)         Breiman, Fri

2013-01-08 22:45:50 1171

原创 线性分类器之 logistic regression与neural networks的关系

logistic  regression和neural networks 的区别和联系: Logistic regression 的本质是线性分类器,但是在做完线性变化后,结果又通过sigmoid函数做非线性变换,sigmoid函数是神经网络中处理非线性现象(nonlinear saturation)的常用办法。而neural networks则既可以是线性,也可以是非线性。因此logistic

2013-01-08 22:41:33 1374

原创 关注机器学习的最新热点方向

目前机器学习最热门的领域有以下七个,后面给出相应的资料链接:1. 迁移学习 Transfer learning 。 http://www.cse.ust.hk/TL/index.html 2.  半监督学习Semi-Supervised learning 。 http://pages.cs.wisc.edu/~jerryzhu/research/ssl/semireview.html

2013-01-08 22:21:04 2716

原创 Symbian CAknSettingItemList使用心得

1,实例化 setting item list 时,一定要遵守下面的顺序:1) CAknSettingItemList *pList = new (ELeave) CAknSettingItemList derived class2) pList->SetContainerWindowL(*this);3) pList->SetMopParent(t

2008-11-14 13:24:00 813

原创 How to Create Dynamic Settings Pages

Create Dynamic Settings PagesHow to Create Dynamic Settings Pages Many times there are situations where you want to create settings pages dynamically and not design them beforehand in the resour

2008-11-14 13:22:00 794

原创 Creating a CAknEnumeratedTextPopupSettingItem-derived class to use dynamic data at runtime

In this article, I will introduce another way -- creating a CAknEnumeratedTextPopupSettingItem-derived class to use dynamic data at runtimeAn important note: "Setting Item Lis 6" panic will occur

2008-11-14 13:10:00 853

原创 (三)

 4    生成(Build )ARM  目的文件  4.1      概述      针对ARMI 的生成(Build)工作总体上比针对WINS 的要困难得多,因此,从一开始就寻找由gcc报告的额外编译错误和报警信息就是再正常不过了。首先这是由于: 在很多情况下gcc 比微软的编译器要严格得多,而且具有一些微妙的差异,它们在第一次的ARMI 生成(Build)过程中就会表现出来。下面几节

2008-08-25 17:07:00 470

原创 Symbian OS C++程序员编码诀窍 (二)

 3    系统资源的使用(ROM 和 RAM )   3.1      重要性        移动电话是一种资源有限设备。然而,它却存在大量的可用功能,这对现有的系统资源提出了很高的要求。开发者需要注意这些制约,尽可能地少用这些有限的资源。 3.2      减少代码量      最终编译后的代码必须尽可能得小,以便为设备留出尽可能多的可用空间,这一点非常重要。以下诀窍就如何保证

2008-08-25 16:37:00 529

原创 symbian知识一---- Symbian OS C++程序员编码诀窍 (一)

1    简介 1.1      读者对象和范围     本文的读者对象是:所有使用C++语言为Symbian OS 6.x/7.0s 开发应用的开发伙伴们。    有一个不成文的80/20 法则,说的是:需要用80%的时间去纠正开发中产生的20%的问题。本文的目的就是要解决这20%的问题。   2    内存      本节所述内容包括:对Symbian OS 所提供的预

2008-08-25 15:31:00 604

原创 Windows下多线程编程技术及其实现

  本文首先讨论16位Windows下不具备的线程的概念,然后着重讲述在32位Windows 95环境下多线程的编程技术,最后给出利用该技术的一个实例,即基于Windows95下TCP/IP的可视电话的实现。   一、问题的提出   作者最近在开发基于Internet网上的可视电话过程中,碰到了这样一个问题。在基于Internet网上的可视电话系统中,同时要进行语音采集、语音编解码、图象采

2008-08-22 13:49:00 611

原创 C# 日志操作情形

//添加数据库文件IO引用using System.IO;using System.Text;using System.Data;using System.Data.SqlClient;public class IISLogFile{   private string LogSoftware; private string LogVersion; private string LogDate;

2007-11-20 17:28:00 2240

原创 Linux 内核剖析

Linux® 内核是一个庞大而复杂的操作系统的核心,不过尽管庞大,但是却采用子系统和分层的概念很好地进行了组织。在本文中,您将探索 Linux 内核的总体结构,并学习一些主要的子系统和核心接口。您还可以通过其他 IBM 文章的链接更深入地进行学习。由于本文的目标是对 Linux 内核进行介绍并探索其体系结构和主要组件,因此首先回顾一下 Linux 的简短历史,然后从较高的层次审视 Linux

2007-09-13 22:33:00 487

原创 串口学习

 1,什么是串口?2,什么是RS-232?3,什么是RS-422?4,什么是RS-485?5,什么是握手?1,什么是串口?串口是计算机上一种非常通用设备通信的协议(不要与通用串行总线Universal Serial Bus或者USB混淆)。大多数计算机包含两个基于RS232的串口。串口同时也是仪器仪表设备通用的通信协议;很多GPIB兼容的设备也带有RS-232口。同时,串口通信协议也可以用于获取远

2007-09-13 00:26:00 720

原创 ado学习

 ADO是为MS的强大的数据访问接口 OLE DB 设计的,上一个便于使用的应用程序层。 OLE DB 为任何数据源都提供了高性能的访问,包括:关系型数据库、非关系型数据库、电子邮件、文件系统、文本和图形以及自定义业务对象等。    ADO 2.0 实际上是基于 MSADO15.DLL 这个动态链接库的,这个库文件的名字虽然和 ADO 1.5 的一样,但是它实现了更新的接口。    ADO

2007-09-13 00:11:00 772

原创 使用ADO封装类的数据库程序开发实例

源代码运行效果图如下: 一、前言用过ADO的人都知道, 调用ADO要处理很多"麻烦"的事情,如异常处理等,要写很多try - catch块. 有点不甚其烦。我干脆把常用的函数都封装起来,免去老是要写try - catch块的麻烦。做起来虽然没有什么技术含量,但也比较烦琐,所以只完成了一部分,且由于时间及个人水平有限,没有对封装的东西作全面测试,并必定有很多错误,但想到对某些朋友可能有用。所以先"捐

2007-09-13 00:04:00 1000

原创 ADO接口简介

 ADO库包含三个基本接口:_ConnectionPtr接口、_CommandPtr接口和_RecordsetPtr接口。 _ConnectionPtr接口返回一个记录集或一个空指针。通常使用它来创建一个数据连接或执行一条不返回任何结果的SQL语句,如一个存储过程。使用_ConnectionPtr接口返回一个记录集不是一个好的使用方法。通常同Cdatabase一样,使用它创建一个数据连接,然后使用

2007-09-12 23:47:00 632

原创 在Visual C++中如何利用UDL文件来建立ADO连接

使用通用数据连接文件(*.UDL,以下简称文件)来创建ADO连接,可以和ODBC一样可视化地定义要连接的数据源,从而实现数据访问的透明性。 1.使用UDL文件来创建ADO连接 创建ADO的连接,首先要设置ADO连接对象的ConnectionString属性,该属性提供所要连接的数据库类型、数据所处服务器、要访问的数据库和数据库访问的安全认证信息。比较专业的方法是在ConnectionStrin

2007-09-12 23:45:00 698

原创 VC 实现adox2

 在上一篇文章《ADO第一次亲密接触》中我们详细介绍了ADO基本的操作方法,在实际的开发过程中我们常常需要存储较大的二进制数据对象,比如:图像、音频文件、或其它二进制数据,这些数据我们称之为二进制大对象BLOB(Binary Large Object),其存取的方式与普通数据有所区别。本文将介绍利用ADO在数据库中存取BLOB数据的具体实现过程,并给出实现图像存取显示的完整示例工程。二、前期准

2007-09-12 23:43:00 826

原创 VC 实现adox1

一、ADO简介ADO(ActiveX Data Object)是Microsoft数据库应用程序开发的新接口,是建立在OLE DB之上的高层数据库访问技术,请不必为此担心,即使你对OLE DB,COM不了解也能轻松对付ADO,因为它非常简单易用,甚至比你以往所接触的ODBC API、DAO、RDO都要容易使用,并不失灵活性。本文将详细地介绍在VC下如何使用ADO来进行数据库应用程序开发,并给出示例

2007-09-12 23:41:00 878

原创 VC实现简单Http连接

一、引 言 ---- Windows Socket API是一套开放的、支持多种协议的Windows下的网络编程接口,它包 括一个标准的 Berkeley Socket功能调用的集合,以及为Windows所作的重要扩充。 Windows Socket经过不断完善并在众 多公司的全力支持下,已成为Windows网络编程 的事实上的标准。 ---- 本 文 将 在VC++ 5.0 环 境 下 介 绍

2007-09-12 23:35:00 1954

原创 C++大型项目开发约束

 第一章简介大型软件项目通常由相应的大型开发团队承担。大型团队生成的代码要有项目范围内可评测的质量,代码必须遵从于某一标准并以此来评价。因此,对大型的项目团队来说,建立一个编程的标准或一组指南很重要。使用编程标准也使以下各项成为可能: 增加开发过程代码的强壮性、可读性、易维护性;减少有经验和无经验开发人员编程所需的脑力工作; 在项目范围内统一代码风格;

2007-08-29 11:37:00 6019

正则表达式30分钟入门教程

工作过程中用到的一门新知识,我就是在边学边做的情况下进行的,呵呵,也希望对你们有用

2009-03-03

P2P流量检测技术的研究

这是我在做一个网络监控设备的时候,找的资料,希望对你们有用。

2009-03-03

组合数学——卢开澄 第三版

计算机系教材,许多大学的指定考试书目,相信还是很有用的,我也是费劲找到的

2009-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除