6 SunnyYoona

尚未进行身份认证

Stay Hungry, Stay Foolish

等级
博文 823
排名 412

Hadoop Yarn上的调度器

1.引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,负责集群上的资源管理,包括内存、CPU以及集群上的其他资;ApplicationMaster负责在生命周期内的应用程序调度;NodeManager负责本节点上资源的供给和隔离;Con...

2018-05-10 09:47:29

Spark内部原理之运行原理一

原文来源于:Spark内部原理之运行原理一在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machin...

2018-03-15 14:10:54

Flink1.4 用于外部数据访问的异步IO

原文来源:Flink1.4用于外部数据访问的异步IO1.异步IO操作的必要性当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据(例如在 MapFunction 中)通常意味着同步交互:将请求发送到数据库,MapFunction 会等待直到收到响应。在许多情况下,这个等待时间占了该函数绝大部分时间。与外部...

2018-03-07 09:49:38

Stream 分布式数据流的轻量级异步快照

原文来源:Stream分布式数据流的轻量级异步快照1.概述分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。因...

2018-03-07 09:46:21

Flink1.4 窗口触发器与Evictors

原文来源于:Flink1.4窗口触发器与Evictors1.窗口触发器触发器(Trigger)决定了窗口(请参阅窗口概述)博文)什么时候准备好被窗口函数处理。每个窗口分配器都带有一个默认的 Trigger。如果默认触发器不能满足你的要求,可以使用 trigger(...) 指定自定义的触发器。触发器接口有五个方法来对不同的事件做出响应:publicabstractTriggerResult...

2018-03-05 09:47:18

Flink1.4 HDFS Connector

原文来源于:Flink1.4HDFSConnector此连接器提供一个 Sink,将分区文件写入 HadoopFileSystem 支持的任何文件系统。要使用此连接器,添加以下依赖项:<dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-...

2018-03-05 09:42:45

Hadoop Trash回收站使用指南

我们在删除一个文件时,遇到如下问题,提示我们不能删除文件放回回收站:sudo-uxiaosihadoopfs-rm-rtmp/data_group/test/employee/employee_salary.txt17/12/0616:34:48INFOfs.TrashPolicyDefault:Namenodetrashconfiguration:Deletionin

2017-12-22 09:37:49

[算法系列]算法一 地理空间距离计算优化

1.地理空间距离计算面临的挑战打开美团app,不管是筛选团购还是筛选商家,默认的排序项都是“离我最近”或者“智能排序”(如下图所示):不管是“离我最近”还是“智能排序”,都涉及到计算用户位置与各个团购单子或者商家的距离(注:在智能排序中距离作为一个重要的参数参与排序打分)。以筛选商家为例,北京地区有5~6w个POI(本文将商家称之为POI),当用户进入商家页,请求北京全城+所有品类+离我最近/智

2017-11-15 09:52:55

[Flink]Flink1.3 Stream指南八 图解事件时间与Watermarks

如果你正在构建实时流处理应用程序,那么事件时间处理是你迟早必须使用的功能之一。因为在现实世界的大多数用例中,消息到达都是无序的,应该有一些方法,通过你建立的系统知道消息可能延迟到达,并且有相应的处理方案。在这篇博文中,我们将看到为什么我们需要事件时间处理,以及我们如何在ApacheFlink中使用它。EventTime是事件在现实世界中发生的时间,ProcessingTime是Flink系统处理该

2017-10-29 18:54:20

[Flink]Flink1.3 Stream指南七 理解事件时间与Watermarks

Flink实现了数据流模型(DataflowModel)中许多技术。如果想对事件时间(eventtime)和水位线(watermarks)更详细的了解,请参阅下面的文章:Theworldbeyondbatch:Streaming101TheDataflowModel支持事件时间的流处理器需要一种方法来衡量事件时间的进度。例如,一个构建按小时处理窗口的窗口算子,当事件时间超过一小时

2017-10-29 18:52:23

[Flink]Flink1.3 Stream指南六 事件时间与处理时间

Flink在数据流中支持几种不同概念的时间。1.处理时间ProcessingTimeProcessingTime(处理时间)是指执行相应操作机器的系统时间(Processingtimereferstothesystemtimeofthemachinethatisexecutingtherespectiveoperation.)。当一个流程序以处理时间来运行时,

2017-10-27 12:04:31

[Flink]Flink1.3 Stream指南五 窗口触发器与驱逐器

1.窗口触发器触发器(Trigger)确定窗口(由窗口分配器形成)何时准备好被窗口函数处理。每个窗口分配器都带有默认触发器。如果默认触发器不满足你的要求,可以使用trigger(...)指定自定义触发器。触发器接口有五种方法允许触发器对不同的事件做出反应:publicabstractTriggerResultonElement(Telement,longtimestamp,Wwi

2017-10-25 18:50:21

[Flink]Flink1.3 Stream指南四 窗口函数

1.4版本:Flink1.4窗口函数在定义窗口分配器之后,我们需要在每个窗口上指定我们要执行的计算。这是窗口函数的责任,一旦系统确定窗口准备好处理数据,窗口函数就处理每个窗口中的元素。窗口函数可以是ReduceFunction,FoldFunction或WindowFunction其中之一。前两个函数执行更有效率,因为Flink可以在每个窗口中元素到达时增量地聚合。WindowFunction将...

2017-10-24 14:22:02

[Flink]Flink1.3 Batch指南二 集群运行

Flink程序可以分布在许多机器的群集上。有两种方式可以将程序发送到集群上运行:(1)命令行接口(2)远程环境1.命令行接口命令行接口允许你将打包程序(JAR)提交到集群(或单机配置)。详细请参阅[Flink]Flink1.3指南四命令行接口。2.远程环境远程环境允许你直接在集群上运行FlinkJava程序。远程环境指的是你要在上面运行程序的集群。2.1Maven依赖使用下面依

2017-10-24 11:54:56

[Flink]Flink1.3 Stream指南三 窗口分配器

1.4版本:Flink1.4窗口概述Windows(窗口)是处理无限数据流的核心。Windows将流分解成有限大小的"桶",在上面我们可以进行计算。本文档重点介绍如何在Flink中处理窗口,以及如何从它提供的功能中获得最大的收益。窗口Flink程序的一般结构如下。第一个片段指的是指定key的数据流,而第二个到未指定key的数据流。可以看出,唯一的区别是指定key的数据流调用keyBy()以及wi...

2017-10-24 11:11:36

[Flink]Flink1.3 指南五 指定keys

一些转换(例如,join,coGroup,keyBy,groupBy)要求在一组元素上定义一个key。其他转换(Reduce,GroupReduce,Aggregate,Windows)允许在使用这些函数之前对数据进行分组。一个DataSet进行分组如下:DataSetinput=//[...]DataSetreduced=input.groupBy(/*definekeyhe

2017-10-23 19:21:31

[Flink]Flink1.3 指南四 命令行接口

Flink提供了一个命令行接口(CLI)用来运行打成JAR包的程序,并且可以控制程序的运行。命令行接口在Flink安装完之后即可拥有,本地单节点或是分布式的部署安装都会有命令行接口。命令行接口启动脚本是$FLINK_HOME/bin目录下的flink脚本,默认情况下会连接运行中的Flinkmaster(JobManager),JobManager的启动脚本与CLI在同一安装目录下。使用命...

2017-10-23 10:43:59

[Flink]Flink1.3 Batch指南一 本地运行

Flink可以在单台机器上运行,甚至可以在单个Java虚拟机中运行。这运行机制可以方便用户在本地测试和调试Flink程序。本节概述了Flink的本地执行机制。本地环境和执行器(executors)允许你可以在本地Java虚拟机上运行Flink程序,或者是在正在运行程序的Java虚拟机上(withwithinanyJVMaspartofexistingprograms)。对于大部分

2017-10-23 09:35:47

[Flink]Flink1.3 指南二 安装与启动

1.下载Flink可以运行在Linux,MacOSX和Windows上。为了运行Flink,唯一的要求是必须在Java7.x(或者更高版本)上安装。Windows用户,请查看Flink在Windows上的安装指南。你可以使用以下命令检查Java当前运行的版本:java-version如果你安装的是Java8,输出结果类似于如下:javaversion"1.8.0_

2017-10-18 19:22:55

[Hive]Hive使用指南七 空值与NULL

1.NULL(null)值创建一个临时表tmp_null_empty_test,并插入一些NULL数据:CREATETABLEIFNOTEXISTStmp_null_empty_test(uidstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDAST

2017-10-18 19:19:11
CSDN身份
  • 博客专家
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!