5 二府村

尚未进行身份认证

Spark本命

等级
TA的排名 4w+

数据库学习进阶一

一:问题的产生:在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据,劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍,可见对于一个系统不是简单地能

2016-12-21 20:17:44

Spark数据倾斜解决原理和方法总论

本博文主要包含以下内容:1、Spark数据倾斜解决的原理方法总论 2、Spark数据倾斜解决方法总论一:均衡数据是我们的目标,或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因,为什么shuffle产生数据倾斜主要是因为网络通信,如果计算之前通过ETL(ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Busine

2016-09-10 12:41:05

Spark系列之数据倾斜:数据倾斜之痛

本博文的主要内容包括:Spark性能真正的杀手数据倾斜多么痛1、关于性能调优首先谈数据倾斜,为什么? (1)因为如果数据倾斜,其他所有的调优都是笑话,因为数据倾斜主要导致程序跑步起来或者运行状态不可用。 (2)数据倾斜最能代表spark水平的地方,spark是分布式的,如果理解数据倾斜说明你对spark运行机制了如指掌。2、数据倾斜两大直接致命性的后果: (1)、OOM,

2016-09-10 08:30:27

Spark Streaming生成RDD并执行Spark Job源码内幕解密

本博文主要包含以下内容:DStream产生RDD的案例实战演示DStream作为RDD模板的原理机制常见DStream生产RDD源码解密这种常见的DStream包含三种类型,一种是输入的级别的InputDStream,第二种transformationDStream,第三种输出级别的ForeachDStream。博文主要代码如下:object NetworkWordCount { def

2016-09-08 08:10:09

Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本博文内容主要是 :DStream与RDD关系彻底研究Streaming中RDD的生成彻底研究 问题的提出 :   1、RDD是依靠谁产生的? 如何产生RDD?  2、执行时是否与Spark Core上的RDD执行有什么不同的  3、 运行之后对RDD要怎么处理    为什么有第三点 : 是因为Spark Streaming 中会随着相关触发条件,窗口Window滑动的时候都会不断的产生RDD

2016-09-03 10:06:29

Spark Streaming源码解读之JobScheduler内幕实现和深度思考

本博文内容主要包括:1、JobScheduler内幕实现 2、JobScheduler深度思考一:JobScheduler内幕实现:JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们要花重点在JobScheduler上面。我们在进行sparkstreaming开发的时候,会对Dstre

2016-09-01 11:06:31

动手实战联合使用Spark Streaming、Broadcast、Accumulator计数器实现在线黑名单过滤和计数

本博文主要包括: 1、Spark Streaming与Broadcast、Accumulator联合 2、在线黑名单过滤和计数实战一、Spark Streaming与Broadcast、Accumulator联合:在企业实战中,广播本身广播到集群的时候,联合上计数器的话就有很大杀伤力,这时候你可以自定义,例如自定义广播中的内容,可以实现非常复杂的内容。之所以广播和计数器特别重要,一方面鉴于广播和

2016-08-31 17:10:45

Spark Streaming源码解读之Job动态生成和深度思考

本博文主要包含以下内容:1、 Spark Streaming Job 生成深度思考 2 、Spark Streaming Job 生成源码解析一 :Spark Streaming Job 生成深度思考输入的DStream有很多来源Kafka、Socket、Flume,输出的DStream其实是逻辑级别的Action,是Spark Streaming框架提出的,其底层翻译成为物理级别的Action,

2016-08-30 10:20:06

基于案例贯通 Spark Streaming 流计算框架的运行源码

本博文主要内容包括:1 在线动态计算分类分类最热门商品案例回顾与演示 2 基于案例贯穿Spark Streaming的运行源码一:在线动态计算分类最热门商品案例代码:import com.robinspark.utils.ConnectionPool import org.apache.spark.SparkConf import org.apache.spark.sql.Row impor

2016-08-28 10:15:09

使用Spark Streaming实战对网站动态行为的多维度分析

本博文主要包括以下内容: 1、技术分析 2、实现实战/** * * 论坛数据自动生成代码,该生成数据回座位Producer的方式发送给Kafka,然后通过SparkStreaming程序会从 * Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析 * data: 日期,格式为yyyy-MM-dd * timestamp:时间戳 * userID:用户I

2016-08-27 09:48:25

Spark Streaming的Exactly-One的事务处理

本博文主要内容:Exactly once容错数据输出不重复一、Exactly once:1、 什么是事务处理: a) 能够处理且只被处理一次。例如,银行转账,A转给B,A有且仅转一次。 b) 能够输出,且只能够输出一次。而B接收转账,且直接收一次。Spark Streaming的事务处理和关系型数据库的事务的概念有所不同,关系型数据库事务关注的是语句级别的一致性,例如银行转账。而Spark

2016-08-26 19:54:30

Spark Streaming 结合Spark SQL 案例

本博文主要包含以下内容:String+SQL技术实现解析Streaming+SQL实现实战一:SparkString+SparkSQL技术实现解析:使用Spark Streaming + Spark SQL 来在线计算电商中不同类别中最热门的商品排名,例如手机这个类别下面最热门的三种手机、电视 这个类别下最热门的三种电视,该实例在实际生产环境下具有非常重大的意义; 实现技术:Spark

2016-08-26 15:58:31

解密SparkStreaming运行机制和架构进阶之Job和容错

本博文主要包括以下内容:解密Spark Streaming Job架构和运行机制解密Spark Streaming容错架构和运行机制一、解密SparkStreaming Job架构和运行机制:理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说,是RDD的action操作触发了Job的运行。那对于

2016-08-25 18:57:42

通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中

本博文主要内容包括:技术实现foreachRDD与foreachPartition解析foreachRDD与foreachPartition实现实战一:技术实现foreach解析:1、首先我们看一下Output Operations on DStreams提供的API: SparkStreaming的DStream提供了一个dstream.foreachRDD方法,该方法是一个功能强大的

2016-08-25 16:03:04

通过案例对SparkStreaming透彻理解(2)

本博文主要内容包括:  1. Spark Streaming架构  2. Spark Streaming运行机制一、Spark Streaming的架构分析:1、SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval、windowByKey的job、框架运行启动的job。例如,Receiver启动时也启

2016-08-25 08:14:14

通过Spark Streaming的window操作实战模拟热点搜索词案例实战

本博文主要内容包括:1、在线热点搜索词实现解析 2、SparkStreaming 利用reduceByKeyAndWindow实现在线热点搜索词实战一:在线热点搜索词实现解析背景描述:在社交网络(例如微博),电子商务(例如京东),热搜词(例如百度)等人们核心关注的内容之一就是我所关注的内容中,大家正在最关注什么或者说当前的热点是什么,这在市级企业级应用中是非常有价值,例如我们关心过去30分钟大家正

2016-08-24 08:05:29

通过案例对SparkStreaming透彻理解(1)

本博文主要包含内容为:1、spark streaming另类在线实验 2、瞬间理解spark streaming本质一,对SparkStreaming的深入理解:1、 首先为何从Spark Streaming切入Spark定制?Spark的子框架已有若干,为何选择Spark Streaming?Spark最开始只有Spark Core,没有目前的这些子框架。这些子框架是构建于Spark Core

2016-08-23 16:00:58

SparkStreaming 实现广告计费系统中在线黑名单过滤实战

本博文内容主要包括以下内容:1、在线黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤 一、在线黑名单过滤实现解析:流式处理是现代数据处理的主流,各种电子商务网站,搜索引擎等网站等,都需要做流式比如,通过用户的点击和购买来推断出用户的兴趣爱好,后台能实时计算,这是比较重要的,给用户推荐最好的商品等,推荐更新的信息,给用户更好的服务。Spark Streaming就是Spark

2016-08-23 09:23:30

Spark Streaming updateStateByKey案例实战和内幕源码解密

本博文内容主要包括以下两个方面:1、Spark Streaming updateStateByKey案例实战 2、Spark Streaming updateStateByKey源码解密一、Spark Streaming updateStateByKey简介:updateStateByKey的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个可以通过CheckPoint来维护

2016-08-22 17:30:23

SparkStreming中的Transformations和状态管理

本博文内容主要包括:1、SparkStreaming 中的Transformations 2、SparkStreaming 中的状态管理一:SparkStreaming中的Transformation: 1、DStream就是一个RDD之上的一个抽象,DStream和时间结合起来就不断的触发产生RDD的实例,可以说我们对Dstream的操作就初步定义了对RDD的操作,只不过需要时间的间隔也就是i

2016-08-22 15:48:18

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!