自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习算法

大数据、机器学习学习笔记

  • 博客(29)
  • 收藏
  • 关注

原创 DecisionTree决策树算法及参数详解+实例+graphviz生成决策树

DecisionTree决策树算法及参数详解+实例+graphviz生成决策树sklearn随机森林sklearn集合算法库sklearn-Bagging自助聚合算法sklearn-Boosting正向激励算法sklearn-ExtraTrees算法

2018-04-07 20:36:59 71228 16

原创 基于应用日志的扫描器检测实践

基于应用日志的扫描器检测实践在网络上搜索web扫描器时,各类扫描器工具、扫描攻略玲琅满目,但对扫描器检测方法的内容却少之又少。因此,本文对各类web扫描特特征进行了梳理和总结,并结合苏宁应用防火墙(SNWAF)日志数据,分别展示了规则模型、统计特征模型和基于文本情感分析的深度学习模型在Web扫描器识别上的实践效果,供大家参考。1. 扫描器概览Web扫描器通过构造特殊请求的方式,对Web系统可能存在的安全漏洞进行扫描,是渗透工作的必备工具。相关的网络资源有很多的漏扫工具研发和使用的工作,如Nessus、

2020-10-30 17:45:03 896 1

翻译 《Pyflink》Flink集群安装,Python+Flink调研

Flink集群安装,Python+Flink调研Flink集群部署下载对应版本安装包:https://flink.apache.org/downloads.html实验环境为hadoop2.7, scala2.11 所以下载flink-1.7.1-bin-hadoop27-scala_2.11.tgz配置conf/flink-conf.yamljobmanager.rpc.add...

2019-01-29 19:25:16 18216 9

原创 巧用Hive自带函数进行多字段分别去重计数统计

巧用Hive自带函数进行多字段分别去重计数统计1-group by 和 distinct大前提:大表统计能使用group by就不要使用distinct!!尤其是在数据量非常大的时候,distinct会将所有的统计信息加载到一个reducer里取执行,这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算,因此效率会提高很多。业务需要对一个分区内一百亿...

2018-11-12 14:58:52 10266 1

原创 Boosting集合算法详解(一)

本文是关于聚类算法的第二篇K-means,感兴趣的同学可以前往http://ihoge.cn/2018/clustering.html 阅读完整版。二、K-means1. 算法步骤 <1> 选择KKK个点作为初始质心 <2> Repeat: <3> 将每个点指派到最近的质心,形成KKK个簇 <4> 重新计...

2018-05-22 22:24:00 2398

原创 提升树算法总结(一)

本文是综合了之前的以往多个笔记汇总而成,内容较长。感兴趣的建议收藏用到时随时翻阅内容包含:若有遗漏错误之处请反馈修改,感激不尽一、Boosting基本概念二、前向分步加法模型 1. 加法模型 2. 前向分步算法三、AdaBoost 1. 算法解析 2. 模型构建 3. 算法缺点四、二叉分类树五、回归分类树 1. 算法解析 2....

2018-05-22 22:13:34 7411 4

原创 提升方法之AdaBoost算法

原文地址:http://ihoge.cn/2018/adaboost.html 转载注明出处。AdaBoost提升树学习笔记作为非数学专业出身看到密密麻麻的数学公式刚开始真的是非常头疼。算法的物理逻辑的时候尚能理解,但是涉及到具体的数学公式实现就开始懵逼了:为什么要用这个公式,这个公式是怎么推到的,这个公式达到什么样的效果? 这里结合自己的理解和画图,用最直白的语言对每个公式作用进行解...

2018-05-18 14:39:33 1019

原创 牛顿法、拟牛顿法、高斯-牛顿法、共轭梯度法推导总结

原文:http://ihoge.cn/2018/newton1.html前言:线性最小二乘问题,我们可以通过理论推导可以得到其解析解,但是对于非线性最小二乘问题,则需要依赖迭代优化的方法,牛顿算法是解决非线性最优的常见算法之一。 最近整理了几篇关于牛顿法及其优化算法都不甚满意,网上大多相关技术博客很多是拼凑起来的,多数不全面(某些推导中间过程被省略),或者数学公式的符号表达方式不...

2018-05-16 21:20:40 12672 3

原创 梯度下降法、随机梯度下降法、批量梯度下降法及牛顿法、拟牛顿法、共轭梯度法

http://ihoge.cn/2018/GradientDescent.html http://ihoge.cn/2018/Newton.html引言李航老师在《统计学习方法》中将机器学习的三要素总结为:模型、策略和算法。其大致含义如下:模型:其实就是机器学习训练的过程中所要学习的条件概率分布或者决策函数。策略:就是使用一种什么样的评价,度量模型训练过程中的学习好坏的方法,同时...

2018-05-14 14:57:03 4115

原创 逻辑回归算法原理

http://ihoge.cn/2018/LR.html逻辑回归模型逻辑回归也被称为对数几率回归,算法名虽然叫做逻辑回归,但是该算法是分类算法,个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。逻辑回归模型是一种分类模型,用条件概率分布的形式表示 P(Y|X)P(Y|X)P(Y|X),这里随机变量 X 取值为 n 维实数向量,例如x=(x(1),x(2),...,x(n))...

2018-05-13 21:26:25 30023 2

原创 Spark ML - 聚类算法

http://ihoge.cn/2018/ML2.htmlSpark ML - 聚类算法1.KMeans快速聚类首先到UR需要的包:import org.apache.spark.ml.clustering.{KMeans,KMeansModel}import org.apache.spark.ml.linalg.Vectors开启RDD的隐式转换:imp...

2018-05-06 01:28:33 4024

原创 Spark ML - 协同过滤

http://ihoge.cn/2018/ML1.html协同过滤算法​ 获取spark自带的MovieLens数据集,其中每行包含一个用户、一个电影、一个该用户对该电影的评分以及时间戳。我们使用默认的ALS.train() 方法,即显性反馈(默认implicitPrefs 为false)来构建推荐模型并根据模型对评分预测的均方根误差来对模型进行评估。导入需要的包:im...

2018-05-06 01:26:14 951 2

原创 Spark的基本架构

http://ihoge.cn/2018/IntroductionToSpark.htmlSpark的基本架构当单机没有足够的能力和资源来执行大量信息的计算(或者低延迟计算),这时就需要一个集群或一组机器将许多机器的资源集中在一起,使我们可以使用全部累积的在一起的计算和存储资源。现在只有一组机器不够强大,你需要一个框架来协调他们之间的工作。 Spark是一种工具,可以管理和协调跨计算机...

2018-04-18 11:06:58 1188

原创 免安装免配置 还免费的Spark 集群 --Databrickes Spark Clould

http://ihoge.cn/2018/Databrickes.html摘要:本文带你畅游Databrickes Spark Clould云服务。小白迅速上手大数据Spark开发环境,从此告别集群Bug的烦恼,彻底解放物理机负担让你随时随地想Run就Run��。目录:Databrickes是个啥?Databrickes注册Databrickes快速入门其他进阶神操作...

2018-04-16 09:45:10 5400

原创 弹性式分布数据集RDD——Pyspark基础 (二)

连载中:http://ihoge.cn/tags/pyspark/title: 弹性式分布数据集RDD——Pyspark基础 (二) date: 2018-04-15 17:59:21 comments: true categories: - Spark tags: - pysparkRDD的内部运行方式RDD不仅是一组不可变的JVM(Java虚拟机)对象的分布集,...

2018-04-15 18:24:47 1395

转载 Spark运行原理剖析

http://ihoge.cn/2018/Spark%20Scheduler.htmlApache Spark是一个开源的,强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高。 Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个...

2018-04-15 18:22:46 813

原创 SparkSQL DataFrame进阶篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇1.创建SparkSession【2.0】和 SQLContext实例【1.x】1.创建SparkSession【2.0】///spark2.0后,用sparksession代替sparkcontext和sqlcontext的创建val spark= SparkSession.builder...

2018-04-14 18:40:01 569

原创 SparkSQL DataFrame基础篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇SparkSQL DataFrame基础篇Spark 2.2及以后的SparkSession替换了Spark以前版本中的SparkContext和SQLContext,为Spark集群提供了唯一的入口点。val spark =SparkSession.builder(). ...

2018-04-14 18:36:19 294

原创 hive集成spark和mysql

参考:http://ihoge.cn/2018/HiveSpark.html一、Hive安装1.Hive简介​ Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。​ Hive是一个可以提供有效的、合理的且直观的组织和使用...

2018-04-14 00:58:27 1592

原创 使用aconda3-5.1.0(Python3.6.4) 搭建pyspark远程部署

参考:http://ihoge.cn/2018/anacondaPyspark.html前言首次安装的环境搭配是这样的: jdk8 hadoop2.6.5 spark2.1 scala2.12.4 Anaconda3-5.1.0 一连串的报错让人惊喜无限,尽管反复调整配置始终无法解决。 坑了一整天后最后最终发现是版本不兼容!!再次提醒自己一定要...

2018-04-14 00:56:27 3181 1

原创 数据挖掘的9大成熟技术和应用

http://ihoge.cn/2018/DataMining.html数据挖掘的9大成熟技术和应用基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用: 1、决策树 2、神经网络 3、回归 4、关联规则 5、聚类 6、贝叶斯分类 7、支持向量机 8、主成分分析 9、假设检验1 决策树决策树(Decision Tree)是一种非常成熟的、普遍采用的数据挖...

2018-04-11 01:40:43 27880 1

原创 PCA主成分分析+SVM实现人脸识别

原文地址: http://ihoge.cn/2018/PCA+SVM人脸识别.html加载数据这里使用的测试数据共包含40位人员照片,每个人10张照片。也可登陆http://www.cl.cam.ac.uk/research/dtg/attarchive/facesataglance.html 查看400张照片的缩略图。import time import loggingfr...

2018-04-10 01:07:11 6933 1

原创 朴素贝叶斯--文档分类

原文:http://ihoge.cn/2018/MultinomialNB.html把文档转换成向量TF-IDF是一种统计方法,用以评估一个词语对于一份文档的重要程度。TF表示词频, 即:词语在一片文档中出现的次数 ÷ 词语总数IDF表示一个词的逆向文档频率指数, 即:对(总文档数目÷包含该词语的文档的数目)的商取对数 log(m/mi−in−m)log(m/mi−in−m)lo...

2018-04-09 19:31:40 406

原创 SVM支持向量机绘图

原文: http://ihoge.cn/2018/SVM绘图.html%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npclass1 = np.array([[1, 1], [1, 3], [2, 1], [1, 2], [2, 2]])class2 = np.array([[4, 4], [5...

2018-04-08 23:33:47 5440

原创 sklearn集合算法预测泰坦尼克号幸存者

原文: http://ihoge.cn/2018/sklearn-ensemble.html随机森林分类预测泰坦尼尼克号幸存者import pandas as pdimport numpy as npdef read_dataset(fname): data = pd.read_csv(fname, index_col=0) data.drop(['Name',...

2018-04-08 23:33:00 2138

原创 支持向量机SVC

原文:http://ihoge.cn/2018/支持向量机SVC.html支持向量机(support vector machine)是一种分类算法,但是也可以做回归,根据输入的数据不同可做不同的模型(若输入标签为连续值则做回归,若输入标签为分类值则用SVC()做分类)。通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好...

2018-04-08 23:30:26 56821 6

原创 Scala编程指南

1.scala简介2004年,martin ordersky发明,javac的编译器,后来spark,kafka应用广泛,twitter应用推广。它具备面向对象和函数式编程的特点。官网:www.scala-lang.org,最近版本2.12.5,我们用的是2.10.42.环境安装1) windows a) 安装jdk-7u55-windows-x64.exe b...

2018-04-08 15:28:57 526

原创 sklearn线性回归详解

图片若未能正常显示,点击下面链接: http://ihoge.cn/2018/Logistic-regression.html在线性回归中,我们想要建立一个模型,来拟合一个因变量 y 与一个或多个独立自变量(预测变量) x 之间的关系。给定:数据集 {(x(1),y(1)),...,(x(m),y(m))}{(x(1),y(1)),...,(x(m),y(m))}\left\{ \...

2018-04-07 20:58:48 7233

原创 SVM支持向量机原理及核函数

SVM支持向量机原理详解及核函数核函数的选择分割超平面:支持向量:间距:SVM算法的原理就是找到一个分割超平面,它能把数据正确的分类,并且间距最大!

2018-04-07 20:21:18 31798 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除