自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 SparkSQL总结1概念

SparkSQL介绍 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spar...

2019-08-15 14:47:08 134

原创 Spark Core文本文件输入输出

Spark文本文件输入输出 1.文本文件输入输出 textFile 进行文本文件的读取 ps:如果传递目录,则将目录下的所有文件读取作为RDD saveAsTextFile 进行文本文件的输出 ps:将传入的路径作为目录对待,会在那个 目录下输出多个文件 2.JSON文件输入输出 JSON文件中每一行就是一个JSON记录,那么可以通过将JSON文件当做文本文件来读取,然后利用相关的JSON库对每一...

2019-08-15 14:39:21 234

原创 Spark Core 累加器、广播变量

Accumulator累加器(重要) 累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱 动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本, 更新这些副本的值也不会影响驱动器中的对应变量。 如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。 Spark提...

2019-08-15 14:36:45 171

原创 Spark Core 自定义排序、分区

自定义排序(重要) spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件以利用自定义排序来实现 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //自定义排序 object CustomSortTest { def main(args: Array[String]): U...

2019-08-15 14:34:29 293

原创 Spark集群启动流程和任务提交流程

2019-08-15 10:47:59 105

原创 Spark Core 总结1-RDD的缓存、checkpoint

RDD的缓存(持久化) Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。如果一个有持久化数据的节点发...

2019-08-15 10:47:02 120

原创 Spark Core 总结1-RDD的任务划分

DAG有向无环图 如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图 有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。 ps:通俗的来说就是有方向,没有回流的图可以称为有向无环图 相对复杂的DAG RDD任务的划分 原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成...

2019-08-15 10:44:16 135

原创 Spark Core总结2-RDD

RDD的函数传递 主要是序列化的问题,对象在JVM中表示的方式是字节 序列化的产生是为了分布式的程序,现在需要将这个对象从Driver传递给Executor,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化 那么说一个场景: spark是一个分布式的计算框架,当从Driver端将数据传递到Executor的时候就需要进行序列化 //定义了一个类这里的...

2019-08-15 10:39:10 111

原创 Spark总结1

spark框架体系 先通过flume采集数据,然后可以用MapReduce对数据进行清洗和分析,之后存储到HBase,也相当于存储到HDFS中。 hadoop优缺点 优点 : 1.高可靠性:Hadoop按位存储和处理数据的能力强大; 2. 高扩展性:Hadoop是在高可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中; 3.高效性:Hadoop能在节点中动态移动数...

2019-08-15 10:29:48 195

原创 Spark总结2-IDEA中的Spark工程

IDEA中的Spark工程 对工程中的pom.xml文件配置 <!-- 声明公有的属性 --> <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compi...

2019-08-15 10:29:33 170

原创 Spark Core 总结1-RDD

RDD概念 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 在之前学习MR的过程中对数据是没有进行...

2019-08-15 10:29:00 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除