自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 win7 python2.7环境下安装pypcap

最近在尝试利用python+pypcap+dpkt抓取IP数据包做应用流量分类,dpkt利用pip install 命令安装还是比较顺利,但是pypcap的安装费了很长一段时间,这里做一个总结。1、直接用pip install pypcap会报 pcap.h not found, 参考这篇博客(https://blog.csdn.net/bestboyxie/article/details/...

2018-05-20 22:03:43 1642

原创 构建Mahout开发环境

Mahout推荐引擎概况Mahout框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开发流程。Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模型,相似度算法,近邻算法,推荐算法,算法评分器。Mahoutt推荐算法,从数据处理能力上,可以划分为2类:1). 小数据量的单机内存算法实现2). 基于Hadoop的分步式算法实现:就是把单机内存算法并行化,把任

2018-01-25 01:15:53 327

原创 聚类

聚类是一种无监督算法,针对大量未知标注的数据集,按数据的相似性将数据分为多个类别,使类别内的数据相似性较大而类别间的数据相似度较小。若数据集已知标注,则可以利用聚类对数据降维操作。聚类算法分类:基于位置的聚类(kmeans\kmedians),基于密度的聚类(DBSCAN\最大密度聚类),基于图论的聚类(AP聚类\谱聚类)

2017-12-19 00:44:14 1459

原创 [实践]房价预测

回归学习器房价预测实践

2017-12-01 00:33:22 2105

原创 回归决策树

决策树是处理分类的常用算法,但它也可以用来处理回归问题,其关键在于选择最佳分割点,基本思路是:遍历所有数据,尝试每个数据作为分割点,并计算此时左右两侧的数据的离差平方和,并从中找到最小值,然后找到离差平方和最小时对应的数据,它就是最佳分割点。sklearn.tree.DecisionTreeRegressor函数即利用决策树处理回归问题,树的深度越高拟合效果越好,也更容易发生过拟合。

2017-11-11 23:46:07 386

原创 集成学习

集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。给定一个训练样本集,一般来说较容易得到粗糙的学习器,所谓的弱学习器,从弱学习算法出发,反复学习得到多个弱学习器,然后通过一定结合策略组合这些弱学习器,便可以得到一个强学习器。

2017-10-24 21:56:38 368 1

原创 随机森林

bagging是bootstrap aggregation的缩写,表示依靠自身的资源实现系统性能的提升,有时候我们用所有的样本训练也只能得到一个弱分类器,这个时候,我们可以通过多次对样本重抽样的方式得到不完全相同的样本建立多个弱分类器,由多个弱分类器投票结果觉得弱分类器属于哪一类,这就是bagging的思想。随机森林是在bagging的基础上做了改进,特征的选择也是随机的。

2017-10-16 19:42:43 343

原创 决策树

决策树是一种树形结构,其中的每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。它是以实例为基础的归纳学习,采用自顶向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点的熵值为零,此时每个叶节点中的实例都属于同一类。在学习过程中,仅需对训练实例做较好的标注,算法就能进行自学习。

2017-09-17 17:03:40 243

原创 [实践]自行车租赁预测

Kaggle比赛:自行车租赁预测

2017-09-16 15:53:36 4041 3

原创 信息熵

熵的相关概念整理

2017-09-11 23:08:58 504

原创 Softmax回归

Softmax回归是Logistic回归的多分类推广

2017-09-10 11:27:00 254

原创 Logistic回归

线性回归的输出值是一串连续值,但有时候希望输出值可以是0~1的连续值,这样的输出在某种程度上可以看做是概率,可以用于分类问题,Logistic回归通过sigmoid函数将连续值映射到区间(0,1),并划定一个阈值,大于阈值属于一类,小于或等于阈值属于另一类。Logistic回归属于线性回归的一种推广,属于广义线性回归,本质是对数线性回归。

2017-09-04 23:43:14 260

原创 向量化编程

在机器学习中,尽量使用内置函数,尽量避免显示for循环,向量化编程可以程序运行速度显著加快。

2017-09-04 00:35:18 1680

原创 局部加权线性回归

在线性回归中,有时候样本点对待估计点的预测有一定影响,离待估计点越近的点对待估计点的预测影响更大,而距离远的点则影响小点,所以需要引入参数衡量样本点与待估计点的相似度,这个相似度可以作为一个权值,表示对待估计点估计的权有多大,这样就得到局部加权线性回归(Locally weighted linear regression)。

2017-08-31 21:02:03 285

原创 模型评估

当我们得到一个机器学习模型,我们需要确定几个指标用来评估模型的预测能力。对于回归分析,主要有mse和R方。对于分类算法,评价指标主要有AUC,accuracy,precision等。本文主要介绍相关术语。

2017-08-29 20:54:05 1026

原创 梯度下降法

线性回归中参数解析式的求解涉及到矩阵的求逆,当特征矩阵数据量过大,求逆是一个很耗时的过程,根据梯度反方向是函数值下降最快的方向,我们可以使用梯度下降法绕过求逆的过程。

2017-08-22 00:27:10 564

原创 过拟合

过拟合

2017-08-20 13:08:11 462

原创 线性回归

回归(regression)是监督学习①^①的一个重要问题,是从输入空间到输出空间②^②的映射函数,等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且能很好的预测未知数据。在监督学习中,模型即为所要学习的条件概率分布或决策函数,线性回归的假设空间(hypothesis space)③^③,是由一个参数向量决定的函数族。

2017-08-15 23:54:35 305

自行车租赁预测

根据一个城市自行车租赁系统,提供的数据为2年内华盛顿按小时记录的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成(需要我们自己去预测)。随机森林回归实现自行车租赁预测。

2017-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除