weixin_43969505-CSDN博客

原创 SparkSQL总结1概念

SparkSQL介绍 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spar...

2019-08-15 14:47:08 134

原创 Spark Core文本文件输入输出

Spark文本文件输入输出 1.文本文件输入输出 textFile 进行文本文件的读取 ps:如果传递目录，则将目录下的所有文件读取作为RDD saveAsTextFile 进行文本文件的输出 ps:将传入的路径作为目录对待，会在那个目录下输出多个文件 2.JSON文件输入输出 JSON文件中每一行就是一个JSON记录，那么可以通过将JSON文件当做文本文件来读取，然后利用相关的JSON库对每一...

2019-08-15 14:39:21 234

原创 Spark Core 累加器、广播变量

Accumulator累加器（重要）累加器用来对信息进行聚合，通常在向 Spark 传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。 Spark提...

2019-08-15 14:36:45 171

原创 Spark Core 自定义排序、分区

自定义排序（重要） spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件以利用自定义排序来实现 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //自定义排序 object CustomSortTest { def main(args: Array[String]): U...

2019-08-15 14:34:29 293

原创 Spark集群启动流程和任务提交流程

2019-08-15 10:47:59 105

原创 Spark Core 总结1-RDD的缓存、checkpoint

RDD的缓存(持久化) Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。如果一个有持久化数据的节点发...

2019-08-15 10:47:02 120

原创 Spark Core 总结1-RDD的任务划分

DAG有向无环图如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图有向图中一个点经过两种路线到达另一个点未必形成环，因此有向无环图未必能转化成树，但任何有向树均为有向无环图。 ps:通俗的来说就是有方向,没有回流的图可以称为有向无环图相对复杂的DAG RDD任务的划分原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成...

2019-08-15 10:44:16 135

原创 Spark Core总结2-RDD

RDD的函数传递主要是序列化的问题,对象在JVM中表示的方式是字节序列化的产生是为了分布式的程序,现在需要将这个对象从Driver传递给Executor,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化那么说一个场景: spark是一个分布式的计算框架,当从Driver端将数据传递到Executor的时候就需要进行序列化 //定义了一个类这里的...

2019-08-15 10:39:10 111

原创 Spark总结1

spark框架体系先通过flume采集数据，然后可以用MapReduce对数据进行清洗和分析，之后存储到HBase，也相当于存储到HDFS中。 hadoop优缺点优点： 1.高可靠性：Hadoop按位存储和处理数据的能力强大； 2. 高扩展性：Hadoop是在高可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中； 3.高效性：Hadoop能在节点中动态移动数...

2019-08-15 10:29:48 195

原创 Spark总结2-IDEA中的Spark工程

IDEA中的Spark工程对工程中的pom.xml文件配置  <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compi...

2019-08-15 10:29:33 170

原创 Spark Core 总结1-RDD

RDD概念 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。在之前学习MR的过程中对数据是没有进行...

2019-08-15 10:29:00 131

weixin_43969505的博客