RY076-CSDN博客

原创 DT大数据梦工厂Spark定制班笔记(013)

Spark Streaming源码解读之Driver容错安全性概述Driver容错三个层面:1. 数据层面: ReceivedBlockTracker负责管理Spark Streaming应用的元数据。2. 逻辑层面： DStream3. 作业调度层面，JobGenerator是Job调度层面的，负责监控具体调度到什么程度了。源码分析先进入ReceivedB

2016-05-24 22:47:32 328

原创 DT大数据梦工厂Spark定制班笔记(012)

Spark Streaming源码解读之Executor容错安全性Executor的容错性主要有两种方式1） WAL日志2）借助Spark RDD自身的容错机制分别体现在receivedBlockHandler的两种实现上（ReceiverSupervisorImpl.scala 55-68）private val receivedBlockHandler: Re

2016-05-24 20:40:04 364

原创 DT大数据梦工厂Spark定制班笔记(011)

ReceiverTracker主要的功能：1. 在Executor上启动Receivers。2. 停止Receivers 。3. 更新Receiver接收数据的速率(可以实现限流)4. 接收Receivers的运行状态，只要Receiver停止运行，就重新启动Receiver。也就是Receiver的容错功能。5. 接受Receiver的注册。6. 借助Rece

2016-05-24 20:27:20 416

原创 DT大数据梦工厂Spark定制班笔记（010）

Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考接第9讲的内容Receiver是通过ReceiverSupervisor的start方法启动的（ReceiverSupervisor.scala 129-132行）：

2016-05-22 17:02:29 348

原创 DT大数据梦工厂Spark定制班笔记(009)

Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考在经过了一系列的有关Spark Streaming Job的考察之后，我们把目光转向Receiver。Spark Streaming中ReceiverInputDStream都是现实一个Receiver，用来接收数据。而Receiver可以有很多个，并且运行在不同的worker节点上。这

2016-05-22 15:43:05 287

原创 DT大数据梦工厂Spark定制班笔记(008)

Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考DStream是RDD的模板，每隔一个batchInterval会根据DStream模板生成一个对应的RDD。然后将RDD存储到DStream中的generatedRDDs数据结构中。DStream.scala(86行)private[streaming]vargeneratedRDDs =new

2016-05-22 15:19:24 379

原创 DT大数据梦工厂Spark定制班笔记（004）

Spark Streaming的Exactly-One的事务处理“Exactly-One的事务处理”的含义： 1）不丢失数据 2）不重复处理数据Spark Streaming + Kafka是实现只一次性事务处理的最优解决方案！我们下面详细分析一下过程Spark Streaming应用的运行架构大致如下：解读:Spark Streaming应用程序启动，

2016-05-22 14:08:45 340

原创 DT大数据梦工厂Spark定制班笔记(007)

Spark Streaming源码解读之JobScheduler内幕实现和深度思考接前文Spark Streaming JobSet的提交JobGenerator.scala (253行)jobScheduler.submitJobSet(JobSet(time, jobs, streamIdToInputInfos))我们下面看一下JobScheduler中s

2016-05-22 08:43:57 424

原创 DT大数据梦工厂Spark定制班笔记(006)

Spark Streaming源码解读之Job动态生成和深度思考

2016-05-22 00:38:55 353

原创 DT大数据梦工厂Spark定制班笔记（005）

所有代码分析均基于Apache Spark1.6.1Spark Streaming初始化Spark Streaming初始化的时候，会初始化一系列对下如SparkContext, DStreamGraph和JobScheduler等。具体代码可以参照StreamingContext.scala (136-183行)。JobScheduler在初始化过程中，会初始化Job

2016-05-21 23:10:01 391

原创 DT大数据梦工厂Spark 定制班笔记(003)

一 Spark Streaming Job的启动编写SparkStreaming程序的时候，设置了BatchDuration，Job每隔BatchDuration时间会自动触发，这个功能肯定是SparkStreaming框架提供了一个定时器，时间一到就将编写的程序提交给Spark，并以Spark job的方式运行。注意：这里的Job不是Spark Core中所指的Job，它只是基于DStr

2016-05-21 15:37:19 449

原创 DT大数据梦工厂Spark 定制班笔记(002)

概述Spark Streaming是Spark的一个子框架，但我们也可以把它看作是一个在Spark Core应用程序。SparkStreaming在启动时运行了几个的job，并且job之间相互配合。Spark core上面有4个流行的框架：SparkSQL、SparkSreaming、MLlib、GraphX；SparkSreaming是第一个出现的框架。除了流计算，其他的框架

2016-05-21 14:46:22 464

转载第1课：SparkStreaming 三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析

原博链接如下http://lqding.blog.51cto.com/9123978/1769346重点一个SparkStreaming应用程序会生成的若干个Spark Job。这意味者几个不同的Spark Job可以互相配合，这是我们编写复杂应用的基础。

2016-05-21 14:34:38 254

RY076的博客