3 qilixuening

尚未进行身份认证

暂无相关描述

等级
TA的排名 6w+

Kaggle入侵物种检测VGG16示例——基于Keras

根据Kaggle:InvasiveSpeciesMonitoring问题的描述,我们需要对图像是否包含入侵物种进行判断,也就是对图片进行而分类(0:图像中不含入侵物种;1:图像中含有入侵物种),据给出的数据(训练集2295张图及类别,测试集1531张图),很显然,这种图像分类任务很适合用CNN来解决,Kera的应用模块Application提供了带有预训练权重的Keras模型,如Xceptio

2017-08-23 20:08:36

win10下配置GPU加速的Keras框架

不久之前,开始学习深度学习,这个时候发现用CPU计算的Keras框架性能明显不够用了,但当时随便弄了一下没能成功实现GPU加速。于是后来一次重装系统,从头详细地重现这个过程。Python环境搭建要搭建Python环境,个人觉得真的没有比Anaconda安装更省心的了,而且其内部已经包含了许多常用的包,不用一个一个的安装了。我选用的是python3.6的64位版本。注意,在引导安装过程中,强烈建议勾选

2017-08-23 11:15:06

PRML:多元变量分布

考虑有KK个状态的问题。我们用一个KK维的向量(x1,…,xK)(x_1,\dots,x_K)来表示这些状态,第kk个状态用xk=1,xj=0,∀j≠kx_k=1,x_j=0,\forallj\neqk表示。例如x=(0,0,1,0,0,0)T\mathbfx=(0,0,1,0,0,0)^\text{T}表示K=6K=6的第33个状态。这些向量

2017-07-31 21:15:06

PRML:二元变量分布

伯努利分布考虑二元随机变量x∈{0,1}x\in\{0,1\}(抛硬币,正面为1,反面为0),其概率分布由参数μ\mu决定:p(x=1)=μp(x=1)=\mu其中(0≤μ≤1)(0\leq\mu\leq1),并且有p(x=0)=1−μp(x=0)=1-\mu。这就是伯努利分布(Bernoullidistribution),其概率分布可以写成:Bern(x|μ)=μx(1

2017-07-31 21:09:46

Kaggle房价预测:数据预处理——练习

本篇主要借鉴了Kaggle基础问题——房价预测的两篇教程ComprehensivedataexplorationwithPython和HousePricesEDA并进行总结。基于上一篇数据探索,我们可以对整个数据集的基本特征进行大致了解,并同时学习到了Pandas和Seaborn的一些操作技巧。接下来,我们以此为基础,进行数据的预处理

2017-07-15 13:19:31

Kaggle房价预测:数据探索——练习

主要借鉴了Kaggle基础问题——房价预测的两篇教程ComprehensivedataexplorationwithPython和HousePricesEDA并进行总结。本篇,主要进行数据探索,对数据的基本特征有一个全局的大致了解。importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromskl

2017-07-15 12:48:33

机器学习-周志华-个人练习13.10

13.10试为图13.7算法第10行写出违约检测算法(用以检测是否有约束未被满足)根据题意可知,我们的目的是检测将xi\mathbfx_i划入聚类簇CrC_r是否会违背M与C\mathcalM与\mathcalC中的约束。在这里不能只简单考虑该样本是否满足与某些约束条件内样本的“必连”和“勿连”条件,而是需要分析到底是待聚类样本违约还是其约束集合中的样本存在违约,同时需要考虑必连样本的传

2017-06-12 14:51:36

半监督学习(转载)

本文转载自ice110956。什么是半监督学习?传统的机器学习技术分为两类,一类是无监督学习,一类是监督学习。无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。这就促使能同时

2017-06-10 11:12:35

图半监督学习——标记传播

从书上301~304页的介绍可知,图半监督学习具有两个明显的缺点:处理大规模数据时性能欠佳;难以直接对新样本进行分类。下面采用sklearn的半监督学习模块来验证上述特性。选用iris数据集的第1、3项属性开展测试,sklearn的半监督学习算法是利用标记传播进行学习,具体又分为标记传播(LabelPropagating)和标记扩散(LabelSpreading)

2017-06-09 23:30:43

机器学习-周志华-个人练习13.4

13.4从网上下载或自己编程实现TSVM算法,选择两个UCI数据集,将其中30%的样例用作测试样本,10%的样例用作有标记样本,60%的样例用作无标记样本,分别训练出利用无标记样本的TSVM以及仅利用有标记样本的SVM,并比较其性能。选择最常用的iris数据集,并以sciki-learn的SVM算法为基础建立TSVM,为了方便展示效果,选用iris数据集下的两个第二类和第三类,并将类标记记为-1,

2017-06-09 11:31:15

机器学习-周志华-个人练习13.3

13.3假设数据由混合专家(mixtureofexperts)模型生成,即数据是基于kk个成分混合而得的概率密度生成:半监督学习之混合专家模型的模型参数

2017-06-01 16:46:14

机器学习-周志华-个人练习13.2

13.2试基于朴素贝叶斯模型推导生成式半监督学习算法回顾一下,朴素贝叶斯的假设是xi=(xi1,…,xin)\mathbfx_{i}=(x_{i1},\ldots,x_{in})中的所有xijx_{ij}相互独立,结合贝叶斯公式可知,我们的目标是找到一个ck∈Cc_k\in\mathcalC,最大化下式:p(ck∣xi)=p(ck)p(xi∣ck)(1)p(c_k\mid\mat

2017-05-30 16:59:31

机器学习-周志华-个人练习13.1

13.1试推导出式(13.5)~(13.8).式13.5首先,我们知道高斯混合模型的混合成分均为高斯分布,且由如下公式定义:pM(x)p(x∣μi,Σi)=∑i=1Nαi⋅p(x∣μi,Σi)=1(2π)n2|Σi|12exp{−12(x−μi)⊤Σ−1i(x−μi)}(1)(2)\begin{align}p_{\mathcalM}(\mathbfx)&=\sum_{i=1}^{N}\a

2017-05-29 20:07:49

贝叶斯线性回归小练习

根据上一篇博客贝叶斯线性回归(单输出)对贝叶斯线性回归的理解,随便找了某地区在售房房价随时间和面积的信息(如下所示),利用贝叶斯线性回归分别针对单变量线性基函数模型、单变量多项式基函数模型、单变量和双变量高斯基函数模型进行线性回归。

2017-05-26 22:09:35

贝叶斯线性回归(单输出)

本文主要依据PatternRecognitionandMachineLearing第三章的内容展开。1线性模型假设有一个DD维的输入x\mathbfx,和一个连续的目标输出tt,我们可以利用一组固定的基函数ϕi(x),i=0,…,M\phi_i(\mathbfx),i=0,\ldots,M的线性组合(组合系数为w0,…,wMw_0,\ldots,w_M),得到一个线性回归模型:

2017-05-26 20:05:54

机器学习-周志华-个人练习12.4

12.4试证明,Rd\mathbbR^d空间中线性超平面构成的假设空间的VC维是d+1。本题参考了四去六进一的一些想法,用自己的想法更加详细地描述出来。首先,我们假设在Rd\mathbbR^d空间中存在一组正交单位向量,使得此空间内任意一点的坐标可以表示为(x1,x2,…,xd)T(x_1,x_2,\ldots,x_d)^\rmT,不失一般性地,选取坐标原点(0,…,0)(0,\ldots

2017-05-21 17:28:33

高斯基函数线性组合回归练习——sklearn库高斯过程回归

本题纯粹用作练习,无任何其他意义。采用高斯基函数作为线性回归模型,用sklearn.gaussian_process.GaussianProcessRegressor可以进行回归,顺便学习画3D图。代码如下:#-*-coding:utf-8-*-importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.ga

2017-05-17 22:20:40

机器学习-周志华-个人练习11.3

11.3Relief算法是分别考察每个属性的重要性。试设计一个能考虑每一对属性重要性的改进算法。首先,我们知道单属性对应的统计量计算公式如下:δj=∑i(−diff(xji,xji,nh)2+diff(xji,xji,nm)2)\displaystyle\delta^j=\sum_{i}\left(-\mathrm{diff}(x_{i}^{j},x_{i,nh}^{j})^2+\mathrm

2017-05-16 20:17:51

机器学习-周志华-个人练习11.1

11.1试编程实现Relief算法,并考察其在西瓜数据集3.0上的运行结果。本题采用Relief算法处理二分类任务,虽然书上只要求对连续属性归一化,但我将离散属性的值转化为了1,2,3,如果不对离散属性归一化,显然在查找近邻时连续属性不能有效发挥作用,因此需要将数据的离散属性和连续属性都进行归一化。另外,在计算连续属性的相关统计量时,本题是二元分类,因此可以对书上公式11.3进行化简,得到下

2017-05-15 21:52:03

机器学习-周志华-个人练习10.6

10.6试使用MATLAB中的PCA函数对Yale人脸数据集进行降维,并观察前20个特征向量所对应的图像。为了便于练习,未使用MATLAB,而是用了scikit-learn.decomposition模块下的PCA进行练习。书上给的Yale人脸数据集访问有点慢(貌似被墙了),我重新上传了一份到百度云(点此下载)。数据集共有样本166个,每张图像的分辨率为320*243(用numpy的sha

2017-05-14 15:57:39

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!