13 mmicky_wyy

尚未进行身份认证

近几年致力于开源和分布式系统,重点关注hadoop、spark。

等级
博文 99
排名 1w+

sparkSQL1.1入门之三:sparkSQL组件之解析

上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。概念:Logi

2014-10-27 10:58:09

spark1.1.0学习路线

经过一段时间授课,积累下不少的spark知识,想逐步汇总成资料,分享给小伙伴们。对于想视频学习的小伙伴,可以访问炼数成金网站的《spark大数据平台》课程,每周的课程是原理加实际操作。最新的课程是第3期,至于费用,越认真学习,学习成本越低。   从Spark1.1.0开始,重新规划了一下学习路线,由于涉及的内容比较多,会不断的完善其中的内容,争取在Spark1.2.0形成一个完整的体

2014-10-24 12:12:38

sparkSQL1.1入门之九:sparkSQL之调优

spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。    木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和

2014-10-23 11:28:21

sparkSQL1.1入门之十:总结

回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。基本概念:SchemaRDDRuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan运行架构:sqlContext运行架构hiveContext运行架构基本操作原生RDD的操作parquet文件的操作j

2014-10-23 11:19:47

sparkSQL1.1入门之四:深入了解sparkSQL运行计划

前面两章花了不少篇幅介绍了SparkSQL的运行过程,很多读者还是觉得其中的概念很抽象,比如UnresolvedLogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象,只知道名词,感觉很缥缈。本章就着重介绍一个工具hive/console,来加深读者对sparkSQL的运行计划的理解。1:hive/console安装   spa

2014-10-22 08:59:39

sparkSQL1.1入门之二:sparkSQL运行架构

在介绍sparkSQL之前,我们首先来看看,传统的关系型数据库是怎么运行的。当我们提交了一个很简单的查询:SELECTa1,a2,a3FROMtableAWherecondition可以看得出来,该语句是由Projection(a1,a2,a3)、DataSource(tableA)、Filter(condition)组成,分别对应sql查询过程中的Result

2014-10-10 09:15:04

sparkSQL1.1入门之一:为什么sparkSQL

2014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0源码编译和部署包生成 。   Spark1.1.0中变化较大是sparkSQL和MLlib,sparkSQL1.1.0主要的变动有:增加了JDBC/ODBCServer(ThriftServer),

2014-09-15 09:46:59

sparkSQL1.1入门之八:sparkSQL之综合应用

Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了Onestackrulethemall。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:店铺分类,根据销售额对店铺分类货品调拨,根据货品的销售数量和店铺之间的距离进行货品调拨   前者将使用sparkSQL+MLlib的聚类算法,后者将使用s

2014-09-11 09:18:28

sparkSQL1.1入门之六:sparkSQL之基础应用

sparkSQL1.1对数据的查询分成了2个分支:sqlContext和hiveContext。   在sqlContext中,sparkSQL可以使用SQL-92语法对定义的表进行查询,表的源数据可以来自:RDDparquet文件json文件    在hiveContext中,sparkSQL可以使用HQL语法,对hive数据进行查询,sparkSQ

2014-09-10 09:16:16

sparkSQL1.1入门之五:测试环境之搭建

前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:

2014-09-10 08:47:39

sparkSQL1.1入门之七:ThriftServer和CLI

spark1.1相较于spark1.0,最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL,在真正意义上进入了SQL时代。下面先简单介绍其使用,限于时间关系,以后再附上源码分析。1:ThriftServer和CLI的命令参数A:令人惊讶的CLI

2014-09-09 10:41:31

鸡肋的JdbcRDD

今天准备将mysql的数据倒腾到RDD,很早以前就知道有一个JdbcRDD,就想着使用一下,结果发现却是鸡肋一个。   首先,看看JdbcRDD的定义:*AnRDDthatexecutesanSQLqueryonaJDBCconnectionandreadsresults.*Forusageexample,seetestcase

2014-07-23 16:22:33

Spark1.0.0 编程模型

SparkApplication可以在集群中并行运行,其关键是抽象出RDD的概念(详见RDD细解),也使得SparkApplication的开发变得简单明了。下图浓缩了Spark的编程模型。    1:Spark应用程序的结构   Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序

2014-06-18 10:55:03

Spark1.0.0 history server 配置

在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Sparkhistoryserver就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Sparkhistoryserve

2014-06-17 22:45:49

Spark1.0.0 的监控方式

Spark1.0.0可以通过以下几种方式来对Spark应用程序进行监控:Spark应用程序的WebUI或者SparkStandalone的集群监控指标,然后通过支持指标收集的集群监控系统,如ganglia进行监控辅助监控工具1:WebUI   Spark应用程序提交后,driver和Executor之间不断的交换运行信息,可以通过driver的4

2014-06-15 13:43:20

Spark1.0.0 开发环境快速搭建

在本系列博客中,为了解析一些概念、解析一些架构、代码测试,搭建了一个实验平台,如下图所示:   本实验平台是在一台物理机上搭建的,物理机的配置是16G内存,4核8线程CPU。平台的环境配置如下:机器名配置角色软件安装hadoop12G内存,双核hadoop:NN/DNSpark:Master/worker /app/h

2014-06-12 15:19:17

Spark1.0.0 属性配置

1:Spark1.0.0属性配置方式   Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。   在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,

2014-06-09 01:34:58

Spark1.0.0 生态圈一览

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数

2014-06-08 13:45:42

Spark1.0.0 新特性

Spark1.0.0release于2014-05-30日正式发布,标志Spark正式进入1.X的时代。Spark1.0.0带来了各种新的特性,并提供了更好的API支持;Spark1.0.0增加了SparkSQL这一个新的重要组件,用于加载和操作Spark的结构化数据;Spark1.0.0增强了现有的标准库(ML,streaming,GraphX??),同时还增强了Java和Python语言的

2014-06-02 14:32:32

Spark1.0.0 学习路线

Spark1.0.0系列博客之引导篇,从预览篇、原理篇、运维篇、生态环境、源码篇、开发篇六个角度来介绍spark1.0.0。

2014-05-13 15:24:24
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!