lzhalan2016-CSDN博客

原创利用gridsearchcv进行交叉验证参数调优实战

用sklearn包进行机器学习是一件很舒服的事情，以往写一页的代码，用sklearn的一个参数就搞定，多么酸爽。然而由于包是人家的，所以参数设置什么的咱们是被动的。只有好好读官方文档才能搞清楚每个参数的意义是什么，这是调参前的重要武装。大家都知道sklearn调参有一个核武器---gridsearchcv，它存在的意义就是自动调参，只要把参数输进去，人家乖乖地就把最优化的结果和参数跑了出来。然

2016-09-03 01:39:41 11411

原创 ImportError: DLL load failed:找不到指定的模块解决方案

之前在linux的matplotlib突然出现问题，重新安装也没有解决，于是转战windows把当前的项目写完再说。没想到windows的canopy里没有自带sklearn包。好吧，那去官方github下一个放文件里吧。兴冲冲地下过来放进去后，import sklearn没有问题，太好了，再来一句。from sklearn.ensemble.forest import RandomForestR

2016-09-02 18:00:13 93601 17

原创简单介绍树回归的算法原理

线性回归方法可以有效的拟合所有样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法一个是困难一个是笨拙。此外，实际中很多问题为非线性的，例如常见到的分段函数，不可能用全局线性模型来进行拟合。树回归将数据集切分成多份易建模的数据，然后利用线性回归进行建模和拟合。构建回归树算法伪代码：寻找当前最佳待切特征和特征值并

2016-09-01 16:22:09 6940 1

原创弱分类器的强势体：逻辑回归算法与推导

逻辑回归的函数表达式为用极大似然估计求解每个样本发生的后验概率为则所以样本发生总概率即似然函数为 L(θ)即为目标函数，

2016-08-30 01:35:31 857

原创朴素贝叶斯的推理学习算法

贝叶斯公式简易推导式：朴素贝叶斯的朴素在于假设B特征的每个值相互独立，所以朴素贝叶斯的公式是这样的学习与分类算法： (1)计算先验概率和条件概率拉普拉斯平滑：（2）代入被测样本向量，得到不同类别P，再根据后验概率最大化，取P最大的类别作为该标签类别。

2016-08-30 00:29:52 952

原创决策树算法基础：ID3与C4.5

设X是一个取有限个值得离散随机变量，其概率分布为P(X=xi)=pi, i=1,2,…,n。则随机变量X的信息熵为条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。H(Y|X)的计算公式为所以决策树分支后信

2016-08-29 23:10:19 849

原创 deep learning keras: 关于动物识别的vgg_16模型与调优

几个月前看到DataCastle的“猫狗大战”的竞赛的时候，想过要用CNN进行识别，毕竟这方面有很多参考的案例，然而当时正在研究其他算法，神经网络理解的也不是很精通，就没有去实现。一个月前，看到网站论坛里yinjh战队分享的源代码，并且取得了很高的成绩，就想着照着做做，当作学习。初步分析代码后，发现了一个很严重的问题，他们貌似没有用到训练集，这就有点吃惊了（这是神马黑科技？？？）。原来他们用了一种

2016-08-27 22:38:10 13159 1

原创基于深度学习框架Keras的CNN分类Mnist

在阅读了wepon博客的这篇博文 DeepLearning tutorial（6）易用的深度学习框架Keras简介后，对keras的认识帮助甚大，但是由于keras快速的更新后，有些代码已经不适合新的环境，就会出现运行错误，通过对keras官方文档的参考，修改了该代码，能得到原来的运行效果，供需要的博友学习，如有错误，恳求指出。一、读取图片#coding:utf-8import o

2016-08-27 11:04:14 6241 3

原创剖析手写数字识别器LeNet-5认识卷积网络

关于卷积神经网络（CNN）的博客网上非常多，也有很多大牛们讲得生动形象，令人十分佩服，也给我的学习带来了很大的帮助，但是关于LeNet-5的具体剖析感觉还没有一篇博文讲得很清楚，本着菜鸟服务菜鸟的精神，写一个通过详细介绍LeNet-5手写识别器的过程来认识卷积网络。CNN的核心思想无非三种：1、局部感受野：每个神经元感受局部图像区域；2、权值共享：同一个滤波器下，每个神经元权值参数是一

2016-08-27 01:49:13 3411

原创深入浅出BP神经网络算法的原理

相信每位刚接触神经网络的时候都会先碰到BP算法的问题，如何形象快速地理解BP神经网络就是我们学习的高级乐趣了（画外音：乐趣？你在跟我谈乐趣？）本篇博文就是要简单粗暴地帮助各位童鞋快速入门采取BP算法的神经网络。BP神经网络是怎样的一种定义？看下面这句话：一种按“误差逆传播算法训练”的多层前馈网络。 BP的思想就是：利用输出后的误差来估计输出层前一层的误差，再用这层误差来估

2016-08-26 23:45:30 72620 8

原创通过SVD对推荐系统的优化

我们平时逛淘宝的时候，是常常发现淘宝会推荐一些自己感兴趣的东西，这么神奇的事情是怎么实现的呢？淘宝现在的手机客户端都有一个叫“千人千面”的推荐系统，它根据每个人的浏览、购买记录来推荐可能感兴趣的物品，其中往往就有你真的感兴趣甚至极度想买的东西。那么推荐系统又是个啥，它是怎么实现的呢？本文参考《机器学习实战》一书来为咱们揭开简单推荐系统的面目。首先有两个关键词，第一是SVD特征值分解，第

2016-07-27 16:45:17 2267

原创 Apriori算法进行数据关联分析

从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis）或者关联规则学习（association rule learning）。这里的主要问题在于，寻找物品的不同组合是一项十分耗时的任务，所需的计算代价很高，蛮力搜索方法并不能解决这个问题，所以需要用更智能的方法在合理的时间范围内找到频繁项集。为了快速明确概念，从例子出发，现在面对一沓超市购

2016-07-16 21:38:17 5952

原创 KNN算法思想与应用例子

这篇文章是在学习KNN时写的笔记，所参考的书为《机器学习实战》，希望深入浅出地解释K近邻算法的思想，最后放一个用k近邻算法识别图像数字的例子。 KNN算法也称K近邻，是一种监督学习算法，即它需要训练集参与模型的构建。它适用于带标签集的行列式（可理解为二维数组）的数据集。需要准备的数据有：训练数据集，训练标签集（每个数据与每个标签都一一对应）用于参与模型构建；需要测试的数据集——通过

2016-07-03 16:29:50 3682

原创一小时领会SVM支持向量机

在机器学习领域，SVM支持向量机作为杀手级武器，对于分类问题是一招鲜——吃遍天！它强大的通用技能对于很多偷懒的工程师都是一大福音，所谓是兵来将挡，更有甚者，来了问题用SVM上，没有问题也要创造问题让SVM上，开玩笑啦。所以，童鞋们都知道了SVM的重要性，纷纷投向其大本营，于是看到了一大堆公式的推导，啊，懵X……写这篇文章的目的就是为了帮助找不到简单易理解的学习资料的童鞋，请你一致向这看齐。

2016-04-29 18:11:06 1199

lzhalan2016的博客