自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 spark常见问题分析

分析spark常见的问题不外乎oom:我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。execution内存是执行内存,文档中说join,aggregate都在这部分内存中执行,shuffle的数据也会先缓存在这个内存中,满了再写入磁盘,能够减少IO。其实map...

2018-09-21 18:48:57 1300

原创 kafka监控

编辑文章监控策略1、Kafka总体监控leader 选举频率:kafka.controller:type=ControllerStats,name=LeaderElectionRateAndTimeMs2、Kafka Broker监控kafka集群中Broker列表,broker运行状况,包括node下线,活跃数量Broker是否提供服务失败的生产消息请求数量:阈值?失败...

2018-09-21 18:34:04 435

原创 kafka学习笔记2

1、kafka分布式的情况下如何保证消息的顺序性kafka并不适用对数据时序性要求严格的场景Kafka的做法是提供消息队列,让生产者单往队列的末尾添加数据,让多个消费者从队列里面依次读取数据然后自行处理【生产】kafka的分布式单位是partition。同一个partition内的数据可以保证时序。不同partition之间无法保证消息的顺序性。可以设置producer生产messag...

2018-09-21 18:29:32 547

原创 kafka学习笔记1

下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示:clipboard (2).png当集群中新增2节点,Partition增加到6个时分布情况如下:clipboard (3).pngProducer在发布消息到某个Partition时,先通过ZooKeeper找到该Pa...

2018-09-21 18:28:22 133

原创 为什么 Kafka 那么快

一 .生产者生产数据1、顺序写入2、Memory Mapped Files(Kafka的数据并不是实时的写入硬盘,它充分利用了现代操作系统分页存储来利用内存提高I/O效率)它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。写到mmap中的数据并没有被真正的写到硬盘,操作系统会在程序主动调用fl...

2018-09-21 18:18:20 295

原创 spark源码分析之RDD

Spark 的五大核心要素包括:partitionpartitionercompute funcdependencypreferredLocationRDD每次通过Transformation(map、flatMap、reduceByKey等等)进行转换后都会得到一个新的RDD,本篇文章以ShuffledRDD和JdbcRDD、HadoopRDD为例子,下面来介绍一下:1、partition(1)...

2018-04-25 18:16:25 206

原创 spark源码分析之ExternalSorter

在SortShuffleWriter中调用ExternalSorter的两个方法insertAll和writePartitionedFile1】、blockManager2】、diskBlockManager3】、serializerManager4】、fileBufferSizespark.shuffle.file.buffer=32k5】、serializerBatchSize spark.s...

2018-04-12 11:27:11 587

原创 spark源码分析之shufflemanager

1、shufflemanager的实现类:sortshufflemanagerSpark 0.8及以前 Hash Based Shuffle在Shuffle Write过程按照Hash的方式重组Partition的数据,不进行排序。每个map端的任务为每个reduce端的Task生成一个文件,通常会产生大量的文件(即对应为M*R个中间文件,其中M表示map端的Task个数,R表示reduce端的T...

2018-04-12 11:20:17 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除