5 sunbow0

尚未进行身份认证

专注分布式机器学习

等级
TA的排名 1w+

Spark ML 基础:DataFrame、Dataset、feature

Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实现计算逻辑,所以大家不用担心之前学会的RDD、DataFrame没有用处。博主一般喜欢从源码的角度来看

2016-05-25 14:02:36

Spark应用程序运行日志查看

比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = {   println("seq: " + a + "\t "+ b)   math.max(a, b) }  defcomb(a: Int, b: Int): Int = {   println("comb: " + a + "\t "+ b)   a + b  }    vardata11= sc.

2016-05-20 20:27:57

Spark 2.0 技术预览版: Easier, Faster, and Smarter

For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Spark 1.0 came out two years ago, we have heard prais

2016-05-12 11:49:48

Spark MLlib 机器学习算法与源码解析(网络课程—第一期)

《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。目前,Spark成为了现在大数据领域最火的开源软

2016-05-11 17:12:36

《Spark MLlib 机器学习》细节解释(持续更新)

1、        P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins:        // 当前的特征数量小于m值,则认为无序        if (numCate

2016-04-21 18:30:04

《Spark MLlib 机器学习》勘误(持续更新)

《Spark MLlib 机器学习》勘误(持续更新)

2016-04-18 14:53:43

《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十五章代码1、神经网络类package NNimport org.apache.spark._import org.apache.spark.SparkContext._import org.apache.spark.rdd.RDDimport org.apache.spark.Loggingimport org.apache.spark.mlli

2016-04-13 15:27:17

《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommendimport scala.math._import org.apache.spark.rdd.RDDimport org.apache.spark.SparkContext._/** * 用户评分. * @param userid 用户 * @param itemid 评分物品 *

2016-04-13 15:21:51

《Spark MLlib 机器学习》第四章至十三章代码

《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6

2016-04-13 15:17:19

《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_codeimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import breeze.linalg._import breeze.numerics._imp

2016-04-12 17:39:42

《Spark MLlib 机器学习》第二章代码

《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.SparkContext._object rdd_test01 { def

2016-04-12 16:11:23

《Spark MLlib机器学习》已正式上市发售

《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!!购书地址:http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%9

2016-04-11 11:22:23

Spark MLlib机器学习—封面

Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注!封面如下:

2016-03-18 11:59:55

Apache Arrow:一个跨平台的内存数据交换格式

1、Apache Arrow:一个跨平台的内存数据交换格式Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工

2016-03-11 11:25:44

基于Spark自动扩展scikit-learn (spark-sklearn)

1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集群上分布式的计算每个样本的梯度值,然后再对每个样本的梯度进行聚合操作等。在Spark Mllib中

2016-03-10 17:47:25

Spark Datasets介绍

1、Spark Datasets介绍1.1 背景从Spark1.3.0版本开始推出DataFrame,DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更快。发布DataFrame之后开发者收到了很多反馈,其中一个主要的是大家反映缺乏编译时类型安全。为了解决这个问题,Spark采用新的 Dataset API (DataFrame

2016-02-23 15:04:28

Spark1.5.1 编译与安装

1、下载下载地址:http://spark.apache.org/downloads.html选择下载源码2、源码编译1)解压tar -zxvf spark-1.5.1.tgz2、编译进入根目录下,采用make-distribution.sh进行编译。cd spark-1.5.1sudo ./make-distribution.sh --tgz-

2015-10-09 11:41:08

Spark MLlib LDA 源码解析

1、Spark MLlib LDA源码解析http://blog.csdn.net/sunbow0Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码解析前的基础知识:1)LDA主题模型的理论知识参照:LDA数学八卦2)SparkG

2015-08-14 15:37:08

Spark GraphX Programming Guide 编程指南

6、 Spark GraphX Programming Guide6.1 概述GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages

2015-08-13 14:38:09

Spark Graphx 构建graph和aggregateMessages聚合消息

Graphx:构建graph和聚合消息@玄畅2014.12.29About最近在优化kcore算法时,对Graphx代码看了几遍。1.2后Graphx性能有所提升,代码不太容易理解,现在用图表示出来会更直观。对数学上的图有点印象的是x轴、y轴坐标图,坐标中每个点用横坐标x和纵坐标y表示,即: (x1, y1), (x2, y2), 一个坐标点可以确定一个点的唯一

2015-08-13 12:03:21

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!