6 wepon_

尚未进行身份认证

Machine learning、DM、computer vision。

等级
博文 75
排名 6k+

数据预处理

常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1.标准化(StandardizationorMeanRemovalandVarianceScaling)变换后各维特征有0均值,单位方差。也叫z-sco

2016-02-03 14:12:49

朴素贝叶斯理论推导与三种常见模型

朴素贝叶斯(NaiveBayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导(其实很浅显,别被“理论”吓到),三种常用模型及其编码实现(Python)。如果你对理论推导过程不感兴趣,可以直接逃到三种常用模型及编码实现部分,但我建议你还是看看理论基础部分。另外,本文的所有代码都可以从我的gith

2015-09-09 21:41:03

KMeans聚类算法思想与可视化

1.聚类分析1.0概念聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇(cluster),使得簇中的样本彼此相似,但与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此它是一种无监督的学习算法,一般用于数据探索,比如群组发现和离群点检测,还可以作为其他算法的预处理步骤。下面的动图展示的是一个聚类过程,感受一下:1.1基本

2015-08-20 18:52:00

流形学习-高维数据的降维与可视化

1.流形学习的概念流形学习方法(ManifoldLearning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。

2015-05-22 19:55:12

SQL

终于有时间继续玩阿里的数据挖掘比赛,第二赛季限定工具,不得不先重拾一下数据库。以下笔记总结自网络教程。SQL简介SQL指结构化查询语言SQL是一种ANSI的标准计算机语言,存在不同的版本,但不同版本都支持一些共同的关键词。SQL语法一个数据库通常包含一个或多个表。SQL对大小写不敏感某些数据库系统要求在每条SQL命令的末端使用分号SQLDML和DDL把SQL分为两个部

2015-05-18 22:53:08

DeepLearning tutorial(7)深度学习框架Keras的使用-进阶

上一篇文章总结了Keras的基本使用方法,相信用过的同学都会觉得不可思议,太简洁了。十多天前,我在github上发现这个框架的时候,关注Keras的人还比较少,这两天无论是github还是微薄,都看到越来越多的人关注和使用Keras。所以这篇文章就简单地再介绍一下Keras的使用,方便各位入门。主要包括以下三个内容:训练CNN并保存训练好的模型。将CNN用于特征提取,用提取出来的特征训练SVM。

2015-05-08 16:01:40

DeepLearning tutorial(6)易用的深度学习框架Keras简介

之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发。(其实还有很多其他的深度学习框架都是比较容易用的。)1.Ke

2015-04-30 17:03:10

libsvm和liblinear的使用总结

0.安装方法unix系统下的安装方法:到官网下载源包(目前最新版本为libsvm-3.20、liblinear-1.96),解压后,打开终端进入makefile所在的目录,键入make即可。以下为一些基本的使用命令,ubuntu系统下。1.生成符合要求的数据格式,以图像数据为例从图像库得到csv文件(csv文件里每一行存储一张图:label,feat1,feat2,…..),在终端下键入:pyt

2015-04-22 23:50:06

2015阿里天池大数据竞赛-Solution

竞赛介绍:链接这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naivesolution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。本repo目录说明data存放数据preprocess数据预处理rule根据规则生成提交文件model训练机器学习模型(暂时不分享)代码使用说

2015-04-14 00:02:06

Kaggle比赛-Otto Group Product Classification-打败一半参赛队伍的简单解法

简介OttoGroupProductClassificationChallenge是Kaggle上目前正在进行的一个比赛,目前已1000+队伍参赛,由Otto公司赞助1W美刀,数据也是来自于该公司的产品,提供了train.csv、test.csv、samplesubmission.csv三份数据。train.csv里包含了6万多个样本,每个样本有一个id,93个特征值feat_1~feat_

2015-03-24 23:02:45

《Python核心编程》数字类型

1、数字类型简介Python中数字类型包括:整型、长整型、布尔型、双精度浮点型、十进制浮点型、复数。这些数字类型都是不可变类型,也就是说,改变了数字的值会生成新的对象。在Python中删除数字对象,可以用语句:delaInt,aLong,aFloat,aComplex2、整型布尔型取值范围只有两个值,True和False。它们在数学运算中对应1和0.对于值为0的任何数字或空集(空列表、空元

2015-03-16 00:58:04

机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size

本文是《Neuralnetworksanddeeplearning》概览中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learningrate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会使收敛过慢,如果学习速率太大,则

2015-03-14 23:49:23

正则化方法:L1和L2 regularization、数据集扩增、dropout

本文是《Neuralnetworksanddeeplearning》概览中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程,网络在trainingdata上的error渐渐减小,但是在验证集上

2015-03-14 18:12:20

交叉熵代价函数

本文是《Neuralnetworksanddeeplearning》概览中第三章的一部分,讲machinelearning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【a=σ(z),wherez=wx+

2015-03-13 13:18:56

《Neural networks and deep learning》概览

最近阅读了《Neuralnetworksanddeeplearning》这本书(onlinebook,还没出版),算是读得比较仔细,前面几章涉及的内容比较简单,我着重看了第三章《Improvingthewayneuralnetworkslearn》,涉及深度神经网络优化和训练的各种技术,对第三章做了详细的笔记(同时参考了其他资料,以后读到其他相关的论文资料也会补充或更改),欢迎有

2015-03-12 12:34:05

OpenCV人脸检测(C++代码)

OpenCV人脸检测(C++代码)——Bywepon这篇文章简单总结一下人脸检测的代码实现,基于OpenCV,C++版本。之所以强调C++版本是因为OpenCV有很多其他语言的接口,之前我也写过人脸检测的Python实现《Python-OpenCV人脸检测(代码)》,这篇文章则讲C++实现,其实大同小异,C++相比于Python实现代码写起来会繁琐一点,这也是语言本身决定的吧。为了保持代码风格一

2015-03-05 14:24:05

《Python核心编程》笔记 Python对象

第4章Python对象1、Python对象Python使用对象模型来存储数据,构造任何类型的值都是一个对象。所有的对象都有三个特性:身份,可通过内建函数id()查看,这个值即该对象的内存地址。类型,可通过内建函数type()查看。值,对象表示的数据项。>>>p=12>>>id(p)31108092>>>type(p)<type'int'>>>>p12>>>2、标

2015-03-04 01:14:44

图像语义分析--深度学习方法

本文 转自:语义分析的一些方法(三),主要论述了基于深度学习方法的图像语义分析,包括图片分类、图片搜索、图片标注(image2text、image2sentence),以及训练深度神经网络的一些tricks,最后还简要地提及语义分析方法在腾讯广点通上的实际应用。文中没有复杂的公式、原理,但总结了图像语义分析一些star-of-art的方法,值得一读。

2015-02-27 19:40:30

卷积神经网络的一些细节

节选自语义分析的一些方法(二),以后会不断补充。——bywepon结合文献『DeepLearningforComputerVision』,以下讲讲卷积神经网络的一些注意点和问题。激励函数,要选择非线性函数,譬如tang,sigmoid,rectifiedliner。在CNN里,relu用得比较多,原因在于:(1)简化BP计算;(2)使学习更快。(3)避免饱和问题(sa

2015-02-27 19:35:11

《Python核心编程》笔记 基础

春节终于over了,回归充实的学习研究生活。打开久违的CSDN博客,看到官方推送的『博客Markdown编辑器上线啦』,让我顿时有了写作的欲望,真是程序员的福利。之前阅读各种文章书籍,都是用MarkDownPad做的笔记,喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果,将以前阅读《Python核心编程》的手记整理发上来,也当温习一遍。第三章Python基础1、语句和语法注

2015-02-27 11:22:18
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!