自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 资源 (4)
  • 收藏
  • 关注

原创 数据预处理

常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-sco

2016-02-03 14:12:49 9603 3

原创 朴素贝叶斯理论推导与三种常见模型

朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导(其实很浅显,别被“理论”吓到),三种常用模型及其编码实现(Python)。如果你对理论推导过程不感兴趣,可以直接逃到三种常用模型及编码实现部分,但我建议你还是看看理论基础部分。另外,本文的所有代码都可以从我的gith

2015-09-09 21:41:03 79231 32

原创 KMeans聚类算法思想与可视化

1.聚类分析1.0 概念聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇(cluster),使得簇中的样本彼此相似,但与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此它是一种无监督的学习算法,一般用于数据探索,比如群组发现和离群点检测,还可以作为其他算法的预处理步骤。下面的动图展示的是一个聚类过程,感受一下:1.1 基本

2015-08-20 18:52:00 53431 11

原创 流形学习-高维数据的降维与可视化

1.流形学习的概念流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。

2015-05-22 19:55:12 46963 2

原创 SQL

终于有时间继续玩阿里的数据挖掘比赛,第二赛季限定工具,不得不先重拾一下数据库。以下笔记总结自网络教程。SQL简介SQL指结构化查询语言SQL是一种ANSI的标准计算机语言,存在不同的版本,但不同版本都支持一些共同的关键词。SQL 语法一个数据库通常包含一个或多个表。SQL 对大小写不敏感某些数据库系统要求在每条 SQL 命令的末端使用分号SQL DML 和 DDL把 SQL 分为两个部

2015-05-18 22:53:08 5537

原创 DeepLearning tutorial(7)深度学习框架Keras的使用-进阶

上一篇文章总结了Keras的基本使用方法,相信用过的同学都会觉得不可思议,太简洁了。十多天前,我在github上发现这个框架的时候,关注Keras的人还比较少,这两天无论是github还是微薄,都看到越来越多的人关注和使用Keras。所以这篇文章就简单地再介绍一下Keras的使用,方便各位入门。主要包括以下三个内容:训练CNN并保存训练好的模型。将CNN用于特征提取,用提取出来的特征训练SVM。

2015-05-08 16:01:40 25185 36

原创 DeepLearning tutorial(6)易用的深度学习框架Keras简介

之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发。(其实还有很多其他的深度学习框架都是比较容易用的。)1. Ke

2015-04-30 17:03:10 65681 78

原创 libsvm和liblinear的使用总结

0.安装方法unix系统下的安装方法:到官网下载源包(目前最新版本为libsvm-3.20、liblinear-1.96),解压后,打开终端进入makefile所在的目录,键入make即可。以下为一些基本的使用命令,ubuntu系统下。1.生成符合要求的数据格式,以图像数据为例从图像库得到csv文件 (csv文件里每一行存储一张图:label,feat1,feat2,…..),在终端下键入:pyt

2015-04-22 23:50:06 6809 1

原创 2015阿里天池大数据竞赛-Solution

竞赛介绍:链接这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。 本repo目录说明data 存放数据preprocess 数据预处理rule 根据规则生成提交文件model 训练机器学习模型(暂时不分享)代码使用说

2015-04-14 00:02:06 18634 5

原创 Kaggle比赛-Otto Group Product Classification-打败一半参赛队伍的简单解法

简介Otto Group Product Classification Challenge是Kaggle上目前正在进行的一个比赛,目前已1000+队伍参赛,由Otto公司赞助1W美刀,数据也是来自于该公司的产品,提供了train.csv、test.csv、samplesubmission.csv三份数据。train.csv里包含了6万多个样本,每个样本有一个id,93个特征值feat_1~feat_

2015-03-24 23:02:45 7170 2

原创 《Python核心编程》数字类型

1、数字类型简介Python中数字类型包括:整型、长整型、布尔型、双精度浮点型、十进制浮点型、复数。这些数字类型都是不可变类型,也就是说,改变了数字的值会生成新的对象。在Python中删除数字对象,可以用语句:del aInt,aLong,aFloat,aComplex2、整型布尔型取值范围只有两个值,True和False。它们在数学运算中对应1和0.对于值为0的任何数字或空集(空列表、空元

2015-03-16 00:58:04 3602

原创 机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size

本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会使收敛过慢,如果学习速率太大,则

2015-03-14 23:49:23 70014 7

原创 正则化方法:L1和L2 regularization、数据集扩增、dropout

本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上

2015-03-14 18:12:20 128814 43

原创 交叉熵代价函数

本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为: 其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+

2015-03-13 13:18:56 155818 19

原创 《Neural networks and deep learning》概览

最近阅读了《Neural networks and deep learning》这本书(online book,还没出版),算是读得比较仔细,前面几章涉及的内容比较简单,我着重看了第三章《Improving the way neural networks learn》,涉及深度神经网络优化和训练的各种技术,对第三章做了详细的笔记(同时参考了其他资料,以后读到其他相关的论文资料也会补充或更改),欢迎有

2015-03-12 12:34:05 30075 5

原创 OpenCV人脸检测(C++代码)

OpenCV人脸检测(C++代码)—— By wepon这篇文章简单总结一下人脸检测的代码实现,基于OpenCV,C++版本。之所以强调C++版本是因为OpenCV有很多其他语言的接口,之前我也写过人脸检测的Python实现《Python-OpenCV人脸检测(代码)》,这篇文章则讲C++实现,其实大同小异,C++相比于Python实现代码写起来会繁琐一点,这也是语言本身决定的吧。为了保持代码风格一

2015-03-05 14:24:05 24427 4

原创 《Python核心编程》笔记 Python对象

第4章 Python对象1、Python对象Python使用对象模型来存储数据,构造任何类型的值都是一个对象。所有的对象都有三个特性:身份,可通过内建函数id()查看,这个值即该对象的内存地址。类型,可通过内建函数type()查看。值,对象表示的数据项。>>> p = 12>>> id(p)31108092>>> type(p)<type 'int'>>>> p12>>> 2、标

2015-03-04 01:14:44 2498

转载 图像语义分析--深度学习方法

本文 转自:语义分析的一些方法(三),主要论述了基于深度学习方法的图像语义分析,包括图片分类、图片搜索、图片标注(image2text、image2sentence),以及训练深度神经网络的一些tricks,最后还简要地提及语义分析方法在腾讯广点通上的实际应用。文中没有复杂的公式、原理,但总结了图像语义分析一些star-of-art的方法,值得一读。

2015-02-27 19:40:30 32415 5

原创 卷积神经网络的一些细节

节选自语义分析的一些方法(二),以后会不断补充。——by wepon结合文献『Deep Learning for Computer Vision』, 以下讲讲卷积神经网络的一些注意点和问题。激励函数,要选择非线性函数,譬如tang,sigmoid,rectified liner。在CNN里,relu用得比较多,原因在于:(1)简化BP计算;(2)使学习更快。(3)避免饱和问题(sa

2015-02-27 19:35:11 5872

原创 《Python核心编程》笔记 基础

春节终于over了,回归充实的学习研究生活。打开久违的CSDN博客,看到官方推送的 『博客Markdown编辑器上线啦』,让我顿时有了写作的欲望,真是程序员的福利。之前阅读各种文章书籍,都是用MarkDownPad做的笔记,喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果,将以前阅读《Python核心编程》的手记整理发上来,也当温习一遍。第三章 Python基础1、语句和语法注

2015-02-27 11:22:18 2731

原创 《Python核心编程 》笔记-快速入门

春节终于over了,回归充实的学习研究生活。打开久违的CSDN博客,看到官方推送的 『博客Markdown编辑器上线啦』,让我顿时有了写作的欲望,真是程序员的福利。之前阅读各种文章书籍,都是用MarkDownPad做的笔记,喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果,将以前阅读《Python核心编程》的手记整理发上来,也当温习一遍。第二章 快速入门print语句中使用字符

2015-02-27 11:17:23 2615

原创 Python-OpenCV人脸检测(代码)

做人脸识别,首先要检测出图片/视频中的人脸,今天就研究了一下OpenCV的Python接口,把常用的一些功能模块写成函数。基于Python-OpenCV以及PIL,实现图片中人脸的检测以及截取保存、眼睛检测、笑脸检测。下面简单总结一下。........总之,利用opencv里训练好的haar特征的xml文件,在图片上检测出人脸(眼睛、鼻子、笑脸…)的坐标,利用这个坐标,我们可以将人脸区域剪切保存,也可以在原图上将人脸框出。剪切保存人脸以及用矩形工具框出人脸,本程序使用的是PIL里的Image、ImageDr

2015-02-05 09:04:20 69463 3

原创 DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现)

本文主要讲解将CNN应用于人脸识别的流程,程序基于python+numpy+theano+PIL开发,采用类似LeNet5的CNN模型,应用于olivettifaces人脸数据库,实现人脸识别的功能,模型的误差降到了5%以下。本程序只是个人学习过程的一个toy implement,模型可能存在overfitting,因为样本小,这一点也无从验证。但是,本文意在理清程序开发CNN模型的具体步骤,特别是针对图像识别,从拿到图像数据库,到实现一个针对这个图像数据库的CNN模型,我觉得本文对这些流程的实现具有参考

2015-01-29 20:35:43 117295 104

原创 利用Python PIL、cPickle读取和保存图像数据库

利用Python PIL、cPickle读取和保存图像数据库 @author:wepon@blog:http://blog.csdn.net/u012162613/article/details/43226127计算机视觉、机器学习任务中,经常跟图像打交道,在C++上有成熟的OpenCV可以使用,在Python中也有一个图像处理库PIL(Python Image L

2015-01-28 09:40:54 30508 11

原创 DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解

DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/43225445本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano,代码来自:Convolutional Neural

2015-01-28 07:48:28 87969 25

原创 DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解

DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/43221829本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano,代码来自:Multilayer Perceptron,如果你想

2015-01-28 03:18:22 69992 12

原创 DeepLearning tutorial(2)机器学习算法在训练过程中保存参数

DeepLearning tutorial(2)机器学习算法在训练过程中保存参数@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/43169019参考:pickle — Python object serialization、DeepLearning Getting starte

2015-01-26 23:45:09 12553 7

原创 DeepLearning tutorial(1)Softmax回归原理简介+代码详解

DeepLearning tutorial(1)Softmax回归原理简介+代码详解@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/43157801本文介绍Softmax回归算法,特别是详细解读其代码实现,基于python theano,代码来自:Classifying MNIST

2015-01-26 20:06:44 36870 5

原创 【NumPy基础】100道numpy练习——进阶篇

选自numpy-100,当作熟悉NumPy的练习。NumPy只是一个数值计算的工具包,在实际的算法实现中来熟悉NumPy才是有效的,因此后面不打算继续写了,到此文为止,基本的语

2015-01-18 22:56:53 11850

原创 【NumPy基础】100道numpy练习——Apprentice篇

【NumPy基础】100道numpy练习——Apprentice篇@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42811297今天又用半小时扫了一下Apprentice篇里的10道exercise,不知道怎么翻译Apprentice(学徒~~)这个词,就直接以Apprentice篇作为

2015-01-17 21:37:48 10479 2

原创 【NumPy基础】100道numpy练习——初学与入门篇

100道numpy练习@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42784403今天在deeplearning.net上看theano tutorial,发现一个numpy-100-exercise,介绍numpy一些基本用法的,不过不是很具体,我利用闲暇时间照着敲了一些,权且当作翻

2015-01-16 21:39:21 21450 5

原创 【DeepLearning工具】Fedora下安装theano

【DeepLearning工具】Fedora下安装Theanoauthor:wepon@blog:http://blog.csdn.net/u012162613/article/details/426512331、Theano简介Theano是深度学习的一个python库,在deeplearning.net上有它的tutorial,它可以方便我们写深度学习模型,它提供了

2015-01-12 21:53:27 4486

转载 2014年人工智能领域的突破

2014 in Computing: Breakthroughs in Artificial Intelligence原文:http://www.technologyreview.com/news/533686/2014-in-computing-breakthroughs-in-artificial-intelligence/The most striking res

2014-12-30 14:30:05 2682

原创 【简化数据】奇异值分解(SVD)

【简化数据】奇异值分解(SVD)@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/422142051、简介奇异值分解(singular Value Decomposition),简称SVD,线性代数中矩阵分解的方法。假如有一个矩阵A,对它进行奇异值分解,可以得到三个矩阵:

2014-12-28 15:28:00 37202 3

原创 相似度计算

相似度计算@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42213883《Machine Learning in Action》笔记,相似度计算,基于python+numpy。在推荐系统中,我们需要计算两个物品的相似度,对于物品的描述,一般都可以量化为一个向量,于是两个物品之

2014-12-28 14:52:40 14959 1

原创 scikit-learn中PCA的使用方法

scikit-learn中PCA的使用方法@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束

2014-12-27 13:08:39 167434 18

原创 【机器学习算法实现】主成分分析(PCA)——基于python+numpy

【机器学习算法实现】主成分分析(PCA)——基于python+numpy@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/421773271、PCA算法介绍主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。一般我们获

2014-12-26 21:16:51 99697 28

原创 【leetcode 哈希表】Majority Element

leetcode新題,Majority Element ,难度easy。题意:给定一个长度为n的数组,找出majority element,所谓majority element就是出现次数大于n/2的那个数。很简单的题目,解法很多:Runtime: O(n2) — Brute force solution: Check each element if it is the majority element.Runtime: O(n), Space: O(n) — Hash table: Maintain

2014-12-22 15:31:08 4688

转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習、深度學習方面不錯的資料,轉載。原作:https://github.com/ty4z2008/Qix/blob/master/dl.md原作作者會不斷更新,本文更新至2014-12-21《Brief History of Machine Lea

2014-12-21 13:26:16 7618 1

原创 【leetcode 进制转换】Excel Sheet Column Title

leetcode新題,Excel Sheet Column Title,本質是進制轉化,難度easy。excel中的序是这样排的:A~Z,AA~ZZ,AAA~ZZZ.......本质是进制转换,将n转化为26进制,转化过程如下(括号里的是26进制数):1->(1)->A2->(2)->B...26->(10)->Z27->(11)->AA28->(12)->AB.....52->(20)->AZ53->(21)->BA因此可以将n转化为26进制表示的数,然后对每一位的数,根据『1->

2014-12-21 12:30:13 15437 3

CNN卷积神经网络应用于人脸识别(带详细流程+代码实现)

《DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现)》这篇文章的代码,将CNN用于人脸识别,整个实现流程请见:http://blog.csdn.net/u012162613/article/details/43277187

2015-01-30

DeepLearning tutorial(1)Softmax回归代码详解

DeepLearning tutorial(1)Softmax回归代码详解

2015-01-26

Kaggle入门——使用scikit-learn解决DigitRecognition问题

Kaggle入门——使用scikit-learn解决DigitRecognition的工程文件,详细解释请移步本人博客搜索该文章:http://blog.csdn.net/u012162613。如有错误请指正

2014-12-17

matlab图像处理函数

matlab图像处理函数,学习matlab的很好的工具,可以到百度去下载,哪里不用积分

2013-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除