王先生的一亩三分地-CSDN博客

原创 Scala思维导图--scala知识体系总结

Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上，并兼容现有的Java程序。Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。官网中详细的说明了scala的六大特性：该思维导图总结了Scala基础及进阶的大部分知识，并提

2018-01-31 20:28:22 1783 1

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。在“戏”说Spark---Spark架构一文中，我们知道在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务

2017-12-05 21:18:44 1044

原创 “戏”说spark---资源调度和任务调度

在“戏”说Spark-spark运行模式简解一文中不管是以client或者是以cluster的方式提交到Standalone上还是提交到yarn上，我们就概括性的描述了提交运行的流程，大概就是创建Driver，申请资源，分发任务，执行任务，返回结果这么一个过程。在“戏”说Spark-Spark核心-Stage划分及Pipline的计算模式一文中，我们详细的了解了RDD宽窄依赖的划分是为了Stage的划分，Stage的划分是为了实现再依赖组成的stage里面的Pipline的计算模型，那Spark是怎么实现资

2017-12-05 21:03:33 927

原创 “戏”说spark---spark Shuffle详解（二）

Spark中两种ShuffleManager，HashShuffleManager和SortShuffleManager，那么在Shuffle中，Reduce节点是怎么知道map端溢写文件的位置的呢？Reduce端是怎么拉取数据的呢？

2017-12-05 20:52:24 693

原创 “戏”说spark---spark Shuffle详解（一）

Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。shuffle作为处理连接map端和reduce端的枢纽，其shuffle的性能高低直接影响了整个程序的性能和吞吐量。map端的shuffle一般为shuffle的Write阶段，reduce端的shuffle一般为shuffle的read阶段。Hadoop和spark的shuffle在实现上面存在很大的不同，spark的shuffle分为两种实现，分别为HashShuffle和Sort

2017-12-05 20:36:54 3412 2

原创 “戏”说Spark-spark运行模式简解

目前Apache Spark支持一种本地运行模式local，三种分布式运行方式（常用），分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一个集群资源，最大的好处是降低运维成本和提高资源利用率（资源按需分配）

2017-12-05 20:22:16 628

原创 “戏”说Spark-Spark核心-Stage划分及Pipline的计算模式

在spark中，会根据RDD之间的依赖关系将DAG图划分为不同的阶段，对于窄依赖，由于partition依赖关系的确定性，partition的转换处理就可以在同一个线程里完成，窄依赖就被spark划分到同一个stage中，而对于宽依赖，只能等父RDD shuffle处理完成后，下一个stage才能开始接下来的计算。因此spark划分stage的整体思路是：从后往前推，遇到宽依赖就断开，划分为一个stage；遇到窄依赖就将这个RDD加入该stage中。因此在图2中RDD C,RDD D,RDD E,RDDF

2017-12-05 20:07:24 1484 1

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解（二）

对于RDD可以有两种计算方式：转换（返回值还是一个RDD）---懒执行操作（返回值不是一个RDD）---立即执行转换(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录需要这样的操作，并不会去执行，需要等到有Actions操作的时候才会真正启动计算过程进行计算

2017-12-04 22:51:00 491

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解（一）

对于RDD可以有两种计算方式：转换（返回值还是一个RDD）---懒执行操作（返回值不是一个RDD）---立即执行转换(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录需要这样的操作，并不会去执行，需要等到有Actions操作的时候才会真正启动计算过程进行计算。操作(Actions) (

2017-12-04 00:01:52 1069

原创机器学习基础思维导图

机器学习基础思维导图，小小的总结，分享给大家。希望对大家有所帮助。如有错误请批评指出，谢谢

2017-11-29 17:54:50 1558 1

原创 SparkSQL思维导图

SparkSQL思维导图，小小的总结，分享给大家。希望对大家有所帮助。如有错误，请批评指正，谢谢。

2017-11-29 17:47:43 606

原创 SparkStreaming思维导图

SparkStreaming思维导图，小小的总结，分享给大家，希望对大家有所帮助。如有错误，请批评指正，谢谢。

2017-11-29 17:45:43 640

原创设计模式思维导图

设计模式（Design pattern）代表了最佳的实践，通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器模式、装饰器模式、代理

2017-11-29 17:27:37 1108

原创 “戏”说Spark-Spark核心-RDD 持久化机制详解

RDD有一个叫持久化的机制，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后，将计算结果保存到内存、本地文件系统或者Tachyon(分布式内存文件系统)中。通过缓存，Spark避免了RDD上的重复计算，能够极大地提升计算速度。在Spark应用程

2017-11-29 17:06:11 875

weixin_35602748的博客

原创 Scala思维导图--scala知识体系总结

原创 “戏”说spark---spark 内存管理详解

原创 “戏”说spark---资源调度和任务调度

原创 “戏”说spark---spark Shuffle详解（二）

原创 “戏”说spark---spark Shuffle详解（一）

原创 “戏”说Spark-spark运行模式简解

原创 “戏”说Spark-Spark核心-Stage划分及Pipline的计算模式

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解（二）

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解（一）

原创机器学习基础思维导图

原创 SparkSQL思维导图

原创 SparkStreaming思维导图

原创设计模式思维导图

原创 “戏”说Spark-Spark核心-RDD 持久化机制详解

原创 “戏”说Spark---Spark架构

原创 “戏”说Spark---Spark初认识

原创 ”戏“说java--细说Java异常类体系结构

原创 ”戏“说java—异常及异常处理概述

hbase-apache离线官方文档

空空如也