wepon_-CSDN博客

原创数据预处理

常见的数据预处理方法，以下通过sklearn的preprocessing模块来介绍;1. 标准化（Standardization or Mean Removal and Variance Scaling）变换后各维特征有0均值，单位方差。也叫z-sco

2016-02-03 14:12:49 9603 3

朴素贝叶斯（Naive Bayes）是一种简单的分类算法，它的经典应用案例为人所熟知：文本分类（如垃圾邮件过滤）。很多教材都从这些案例出发，本文就不重复这些内容了，而把重点放在理论推导（其实很浅显，别被“理论”吓到），三种常用模型及其编码实现（Python）。如果你对理论推导过程不感兴趣，可以直接逃到三种常用模型及编码实现部分，但我建议你还是看看理论基础部分。另外，本文的所有代码都可以从我的gith

2015-09-09 21:41:03 79231 32

原创 KMeans聚类算法思想与可视化

1.聚类分析1.0 概念聚类分析简称聚类（clustering），是一个把数据集划分成子集的过程，每一个子集是一个簇（cluster），使得簇中的样本彼此相似，但与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别，甚至不用知道类别个数，因此它是一种无监督的学习算法，一般用于数据探索，比如群组发现和离群点检测，还可以作为其他算法的预处理步骤。下面的动图展示的是一个聚类过程，感受一下：1.1 基本

2015-08-20 18:52:00 53431 11

原创流形学习-高维数据的降维与可视化

1.流形学习的概念流形学习方法(Manifold Learning)，简称流形学习，自2000年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。

2015-05-22 19:55:12 46963 2

原创 SQL

终于有时间继续玩阿里的数据挖掘比赛，第二赛季限定工具，不得不先重拾一下数据库。以下笔记总结自网络教程。SQL简介SQL指结构化查询语言SQL是一种ANSI的标准计算机语言，存在不同的版本，但不同版本都支持一些共同的关键词。SQL 语法一个数据库通常包含一个或多个表。SQL 对大小写不敏感某些数据库系统要求在每条 SQL 命令的末端使用分号SQL DML 和 DDL把 SQL 分为两个部

2015-05-18 22:53:08 5537

原创 DeepLearning tutorial（7）深度学习框架Keras的使用-进阶

上一篇文章总结了Keras的基本使用方法，相信用过的同学都会觉得不可思议，太简洁了。十多天前，我在github上发现这个框架的时候，关注Keras的人还比较少，这两天无论是github还是微薄，都看到越来越多的人关注和使用Keras。所以这篇文章就简单地再介绍一下Keras的使用,方便各位入门。主要包括以下三个内容：训练CNN并保存训练好的模型。将CNN用于特征提取，用提取出来的特征训练SVM。

2015-05-08 16:01:40 25185 36

原创 DeepLearning tutorial（6）易用的深度学习框架Keras简介

之前我一直在使用Theano，前面五篇Deeplearning相关的文章也是学习Theano的一些笔记，当时已经觉得Theano用起来略显麻烦，有时想实现一个新的结构，就要花很多时间去编程，所以想过将代码模块化，方便重复使用，但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架，跟我的想法不谋而合，用起来特别简单，适合快速开发。（其实还有很多其他的深度学习框架都是比较容易用的。）1. Ke

2015-04-30 17:03:10 65681 78

原创 libsvm和liblinear的使用总结

0.安装方法unix系统下的安装方法：到官网下载源包（目前最新版本为libsvm-3.20、liblinear-1.96），解压后，打开终端进入makefile所在的目录,键入make即可。以下为一些基本的使用命令，ubuntu系统下。1.生成符合要求的数据格式，以图像数据为例从图像库得到csv文件（csv文件里每一行存储一张图：label,feat1,feat2,…..），在终端下键入：pyt

2015-04-22 23:50:06 6809 1

原创 2015阿里天池大数据竞赛-Solution

竞赛介绍：链接这篇文章记录2015阿里天池大数据竞赛中，我的一些代码，由于目前还在比赛中，仅分享一个naive solution，基于规则，代码主页在我的github上：链接，下面是代码说明。有兴趣的请看代码注释，恕不详述。本repo目录说明data 存放数据preprocess 数据预处理rule 根据规则生成提交文件model 训练机器学习模型（暂时不分享）代码使用说

2015-04-14 00:02:06 18634 5

原创 Kaggle比赛-Otto Group Product Classification-打败一半参赛队伍的简单解法

简介Otto Group Product Classification Challenge是Kaggle上目前正在进行的一个比赛，目前已1000+队伍参赛，由Otto公司赞助1W美刀，数据也是来自于该公司的产品，提供了train.csv、test.csv、samplesubmission.csv三份数据。train.csv里包含了6万多个样本，每个样本有一个id，93个特征值feat_1~feat_

2015-03-24 23:02:45 7170 2

原创《Python核心编程》数字类型

1、数字类型简介Python中数字类型包括：整型、长整型、布尔型、双精度浮点型、十进制浮点型、复数。这些数字类型都是不可变类型，也就是说，改变了数字的值会生成新的对象。在Python中删除数字对象，可以用语句：del aInt,aLong,aFloat,aComplex2、整型布尔型取值范围只有两个值，True和False。它们在数学运算中对应1和0.对于值为0的任何数字或空集（空列表、空元

2015-03-16 00:58:04 3602

原创机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size

本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习算法中，如何选取初始的超参数的值。（本文会不断补充）学习速率（learning rate，η）运用梯度下降算法进行优化时，权重的更新规则中，在梯度项前会乘以一个系数，这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小，则会使收敛过慢，如果学习速率太大，则

2015-03-14 23:49:23 70014 7

原创正则化方法：L1和L2 regularization、数据集扩增、dropout

本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习/深度学习算法中常用的正则化方法。（本文会不断补充）正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程，网络在training data上的error渐渐减小，但是在验证集上

2015-03-14 18:12:20 128814 43

原创交叉熵代价函数

本文是《Neural networks and deep learning》概览中第三章的一部分，讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+

2015-03-13 13:18:56 155818 19

原创《Neural networks and deep learning》概览

最近阅读了《Neural networks and deep learning》这本书（online book，还没出版），算是读得比较仔细，前面几章涉及的内容比较简单，我着重看了第三章《Improving the way neural networks learn》，涉及深度神经网络优化和训练的各种技术，对第三章做了详细的笔记（同时参考了其他资料，以后读到其他相关的论文资料也会补充或更改），欢迎有

2015-03-12 12:34:05 30075 5

原创 OpenCV人脸检测（C++代码）

OpenCV人脸检测（C++代码）—— By wepon这篇文章简单总结一下人脸检测的代码实现，基于OpenCV，C++版本。之所以强调C++版本是因为OpenCV有很多其他语言的接口，之前我也写过人脸检测的Python实现《Python-OpenCV人脸检测(代码)》，这篇文章则讲C++实现，其实大同小异，C++相比于Python实现代码写起来会繁琐一点，这也是语言本身决定的吧。为了保持代码风格一

2015-03-05 14:24:05 24427 4

原创《Python核心编程》笔记 Python对象

第4章 Python对象1、Python对象Python使用对象模型来存储数据，构造任何类型的值都是一个对象。所有的对象都有三个特性：身份，可通过内建函数id()查看，这个值即该对象的内存地址。类型，可通过内建函数type()查看。值，对象表示的数据项。>>> p = 12>>> id(p)31108092>>> type(p)<type 'int'>>>> p12>>> 2、标

2015-03-04 01:14:44 2498

转载图像语义分析--深度学习方法

本文转自：语义分析的一些方法(三)，主要论述了基于深度学习方法的图像语义分析，包括图片分类、图片搜索、图片标注（image2text、image2sentence），以及训练深度神经网络的一些tricks，最后还简要地提及语义分析方法在腾讯广点通上的实际应用。文中没有复杂的公式、原理，但总结了图像语义分析一些star-of-art的方法，值得一读。

2015-02-27 19:40:30 32415 5

原创卷积神经网络的一些细节

节选自语义分析的一些方法(二)，以后会不断补充。——by wepon结合文献『Deep Learning for Computer Vision』，以下讲讲卷积神经网络的一些注意点和问题。激励函数，要选择非线性函数，譬如tang，sigmoid，rectified liner。在CNN里，relu用得比较多，原因在于：(1)简化BP计算；(2)使学习更快。(3)避免饱和问题(sa

2015-02-27 19:35:11 5872

原创《Python核心编程》笔记基础

春节终于over了，回归充实的学习研究生活。打开久违的CSDN博客，看到官方推送的『博客Markdown编辑器上线啦』，让我顿时有了写作的欲望，真是程序员的福利。之前阅读各种文章书籍，都是用MarkDownPad做的笔记，喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果，将以前阅读《Python核心编程》的手记整理发上来，也当温习一遍。第三章 Python基础1、语句和语法注

2015-02-27 11:22:18 2731

原创《Python核心编程》笔记-快速入门

春节终于over了，回归充实的学习研究生活。打开久违的CSDN博客，看到官方推送的『博客Markdown编辑器上线啦』，让我顿时有了写作的欲望，真是程序员的福利。之前阅读各种文章书籍，都是用MarkDownPad做的笔记，喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果，将以前阅读《Python核心编程》的手记整理发上来，也当温习一遍。第二章快速入门print语句中使用字符

2015-02-27 11:17:23 2615

原创 Python-OpenCV人脸检测(代码)

做人脸识别，首先要检测出图片/视频中的人脸，今天就研究了一下OpenCV的Python接口，把常用的一些功能模块写成函数。基于Python-OpenCV以及PIL，实现图片中人脸的检测以及截取保存、眼睛检测、笑脸检测。下面简单总结一下。........总之，利用opencv里训练好的haar特征的xml文件，在图片上检测出人脸（眼睛、鼻子、笑脸…）的坐标，利用这个坐标，我们可以将人脸区域剪切保存，也可以在原图上将人脸框出。剪切保存人脸以及用矩形工具框出人脸，本程序使用的是PIL里的Image、ImageDr

2015-02-05 09:04:20 69463 3

原创 DeepLearning tutorial（5）CNN卷积神经网络应用于人脸识别（详细流程+代码实现）

本文主要讲解将CNN应用于人脸识别的流程，程序基于python+numpy+theano+PIL开发，采用类似LeNet5的CNN模型，应用于olivettifaces人脸数据库，实现人脸识别的功能，模型的误差降到了5%以下。本程序只是个人学习过程的一个toy implement，模型可能存在overfitting，因为样本小，这一点也无从验证。但是，本文意在理清程序开发CNN模型的具体步骤，特别是针对图像识别，从拿到图像数据库，到实现一个针对这个图像数据库的CNN模型，我觉得本文对这些流程的实现具有参考

2015-01-29 20:35:43 117295 104

原创利用Python PIL、cPickle读取和保存图像数据库

利用Python PIL、cPickle读取和保存图像数据库 @author：wepon@blog:http://blog.csdn.net/u012162613/article/details/43226127计算机视觉、机器学习任务中，经常跟图像打交道，在C++上有成熟的OpenCV可以使用，在Python中也有一个图像处理库PIL（Python Image L

2015-01-28 09:40:54 30508 11

原创 DeepLearning tutorial（4）CNN卷积神经网络原理简介+代码详解

DeepLearning tutorial（4）CNN卷积神经网络原理简介+代码详解@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/43225445本文介绍多层感知机算法，特别是详细解读其代码实现，基于python theano，代码来自：Convolutional Neural

2015-01-28 07:48:28 87969 25

原创 DeepLearning tutorial（3）MLP多层感知机原理简介+代码详解

DeepLearning tutorial（3）MLP多层感知机原理简介+代码详解@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/43221829本文介绍多层感知机算法，特别是详细解读其代码实现，基于python theano，代码来自：Multilayer Perceptron，如果你想

2015-01-28 03:18:22 69992 12

原创 DeepLearning tutorial（2）机器学习算法在训练过程中保存参数

DeepLearning tutorial（2）机器学习算法在训练过程中保存参数@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/43169019参考：pickle — Python object serialization、DeepLearning Getting starte

2015-01-26 23:45:09 12553 7

原创 DeepLearning tutorial（1）Softmax回归原理简介+代码详解

DeepLearning tutorial（1）Softmax回归原理简介+代码详解@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/43157801本文介绍Softmax回归算法，特别是详细解读其代码实现，基于python theano，代码来自：Classifying MNIST

2015-01-26 20:06:44 36870 5

原创【NumPy基础】100道numpy练习——进阶篇

选自numpy-100，当作熟悉NumPy的练习。NumPy只是一个数值计算的工具包，在实际的算法实现中来熟悉NumPy才是有效的，因此后面不打算继续写了，到此文为止，基本的语

2015-01-18 22:56:53 11850

原创【NumPy基础】100道numpy练习——Apprentice篇

【NumPy基础】100道numpy练习——Apprentice篇@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/42811297今天又用半小时扫了一下Apprentice篇里的10道exercise，不知道怎么翻译Apprentice（学徒～～）这个词，就直接以Apprentice篇作为

2015-01-17 21:37:48 10479 2

原创【NumPy基础】100道numpy练习——初学与入门篇

100道numpy练习@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/42784403今天在deeplearning.net上看theano tutorial，发现一个numpy-100-exercise，介绍numpy一些基本用法的，不过不是很具体，我利用闲暇时间照着敲了一些，权且当作翻

2015-01-16 21:39:21 21450 5

原创【DeepLearning工具】Fedora下安装theano

【DeepLearning工具】Fedora下安装Theanoauthor：wepon@blog：http://blog.csdn.net/u012162613/article/details/426512331、Theano简介Theano是深度学习的一个python库，在deeplearning.net上有它的tutorial，它可以方便我们写深度学习模型，它提供了

2015-01-12 21:53:27 4486

转载 2014年人工智能领域的突破

2014 in Computing: Breakthroughs in Artificial Intelligence原文：http://www.technologyreview.com/news/533686/2014-in-computing-breakthroughs-in-artificial-intelligence/The most striking res

2014-12-30 14:30:05 2682

原创【简化数据】奇异值分解(SVD)

【简化数据】奇异值分解(SVD)@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/422142051、简介奇异值分解（singular Value Decomposition），简称SVD，线性代数中矩阵分解的方法。假如有一个矩阵A，对它进行奇异值分解，可以得到三个矩阵：

2014-12-28 15:28:00 37202 3

原创相似度计算

相似度计算@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/42213883《Machine Learning in Action》笔记，相似度计算，基于python+numpy。在推荐系统中，我们需要计算两个物品的相似度，对于物品的描述，一般都可以量化为一个向量，于是两个物品之

2014-12-28 14:52:40 14959 1

原创 scikit-learn中PCA的使用方法

scikit-learn中PCA的使用方法@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章主成分分析(PCA) 中，我基于python和numpy实现了PCA算法，主要是为了加深对算法的理解，算法的实现很粗糙，实际应用中我们一般调用成熟的包，本文就结束

2014-12-27 13:08:39 167434 18

原创【机器学习算法实现】主成分分析(PCA)——基于python+numpy

【机器学习算法实现】主成分分析(PCA)——基于python+numpy@author：wepon@blog：http://blog.csdn.net/u012162613/article/details/421773271、PCA算法介绍主成分分析（Principal Components Analysis），简称PCA，是一种数据降维技术，用于数据预处理。一般我们获

2014-12-26 21:16:51 99697 28

原创【leetcode 哈希表】Majority Element

leetcode新題，Majority Element ，难度easy。题意：给定一个长度为n的数组，找出majority element，所谓majority element就是出现次数大于n/2的那个数。很简单的题目，解法很多：Runtime: O(n2) — Brute force solution: Check each element if it is the majority element.Runtime: O(n), Space: O(n) — Hash table: Maintain

2014-12-22 15:31:08 4688

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習、深度學習方面不錯的資料，轉載。原作：https://github.com/ty4z2008/Qix/blob/master/dl.md原作作者會不斷更新，本文更新至2014-12-21《Brief History of Machine Lea

2014-12-21 13:26:16 7618 1

原创【leetcode 进制转换】Excel Sheet Column Title

leetcode新題，Excel Sheet Column Title，本質是進制轉化，難度easy。excel中的序是这样排的：A~Z，AA~ZZ，AAA~ZZZ.......本质是进制转换，将n转化为26进制，转化过程如下（括号里的是26进制数）：1->(1)->A2->(2)->B...26->(10)->Z27->(11)->AA28->(12)->AB.....52->(20)->AZ53->(21)->BA因此可以将n转化为26进制表示的数，然后对每一位的数，根据『1->

2014-12-21 12:30:13 15437 3

CNN卷积神经网络应用于人脸识别（带详细流程+代码实现）

DeepLearning tutorial（1）Softmax回归代码详解

Kaggle入门——使用scikit-learn解决DigitRecognition问题

matlab图像处理函数

空空如也