cclucc-CSDN博客

原创 spark常见问题分析

分析spark常见的问题不外乎oom：我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。execution内存是执行内存，文档中说join，aggregate都在这部分内存中执行，shuffle的数据也会先缓存在这个内存中，满了再写入磁盘，能够减少IO。其实map...

2018-09-21 18:48:57 1300

原创 kafka监控

编辑文章监控策略1、Kafka总体监控leader 选举频率：kafka.controller:type=ControllerStats,name=LeaderElectionRateAndTimeMs2、Kafka Broker监控kafka集群中Broker列表,broker运行状况,包括node下线，活跃数量Broker是否提供服务失败的生产消息请求数量：阈值？失败...

2018-09-21 18:34:04 435

原创 kafka学习笔记2

1、kafka分布式的情况下如何保证消息的顺序性kafka并不适用对数据时序性要求严格的场景Kafka的做法是提供消息队列，让生产者单往队列的末尾添加数据，让多个消费者从队列里面依次读取数据然后自行处理【生产】kafka的分布式单位是partition。同一个partition内的数据可以保证时序。不同partition之间无法保证消息的顺序性。可以设置producer生产messag...

2018-09-21 18:29:32 547

原创 kafka学习笔记1

下面以一个Kafka集群中4个Broker举例，创建1个topic包含4个Partition，2 Replication；数据Producer流动如图所示：clipboard (2).png当集群中新增2节点，Partition增加到6个时分布情况如下：clipboard (3).pngProducer在发布消息到某个Partition时，先通过ZooKeeper找到该Pa...

2018-09-21 18:28:22 133

原创为什么 Kafka 那么快

一 .生产者生产数据1、顺序写入2、Memory Mapped Files（Kafka的数据并不是实时的写入硬盘，它充分利用了现代操作系统分页存储来利用内存提高I/O效率）它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上（操作系统在适当的时候）。写到mmap中的数据并没有被真正的写到硬盘，操作系统会在程序主动调用fl...

2018-09-21 18:18:20 295

Spark 的五大核心要素包括：partitionpartitionercompute funcdependencypreferredLocationRDD每次通过Transformation（map、flatMap、reduceByKey等等）进行转换后都会得到一个新的RDD，本篇文章以ShuffledRDD和JdbcRDD、HadoopRDD为例子，下面来介绍一下：1、partition（1）...

2018-04-25 18:16:25 206

原创 spark源码分析之ExternalSorter

在SortShuffleWriter中调用ExternalSorter的两个方法insertAll和writePartitionedFile1】、blockManager2】、diskBlockManager3】、serializerManager4】、fileBufferSizespark.shuffle.file.buffer=32k5】、serializerBatchSize spark.s...

2018-04-12 11:27:11 587

原创 spark源码分析之shufflemanager

1、shufflemanager的实现类：sortshufflemanagerSpark 0.8及以前 Hash Based Shuffle在Shuffle Write过程按照Hash的方式重组Partition的数据，不进行排序。每个map端的任务为每个reduce端的Task生成一个文件，通常会产生大量的文件（即对应为M*R个中间文件，其中M表示map端的Task个数，R表示reduce端的T...

2018-04-12 11:20:17 216

cclucc的博客