大数据徐葳-CSDN博客

原创一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系，包含Hadoop、Spark、Flink、Kafka、Elasticsearch、数据仓库等内容。

2022-08-03 11:07:38 5443 1

原创 flink中文文档-目录v1.4

Flink入门及实战-上：http://edu.51cto.com/sd/07245Flink入门及实战-下：http://edu.51cto.com/sd/5845eflink1.4中文文档第一次翻译文档，如果有错误之处，还望谅解，有问题可以私信或者在对应的翻译内容下面进行回复，多谢！相关文档快速链接目录概念介绍(Concepts)flink原理介绍-数据流编...

2018-03-09 00:07:01 3439

原创 6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon，首先需要在Hive中配置Paimon的依赖，此时我们需要用到一个jar包：paimon-hive-connector。

2023-11-10 12:01:29 1295

原创 5 Paimon数据湖之表数据查询详解

主要涉及Paimon中系统表的查询、批量读取、流式读取，以及时间旅行特性的使用。

2023-11-10 11:54:16 1625

原创 4 Paimon数据湖之Hive Catalog的使用

Paimon提供了两种类型的Catalog：Filesystem Catalog和Hive Catalog。

2023-11-10 11:46:41 1199

原创 3 Paimon数据湖中的表类型详解

Paimon中支持多种表类型，从全局维度来看，Paimon中的表类型可以大致划分为4种：内部表、外部表、分区表和临时表。从存储维度来看，Paimon中的表可以分为两种：Primary Key表，也可以称之为主键表。Append Only表，也可以称之为仅追加表。

2023-11-08 10:35:12 4892

原创 2 快速上手使用Paimon数据湖

想要使用Paimon是非常简单的，不需要复杂的安装部署，只需要使用一个jar包即可对它进行操作。目前Paimon主要提供的是SQL层面的API，所以我们在使用Flink操作Paimon的时候需要用到Flink SQL。

2023-11-08 10:16:31 857

原创 1 快速了解Paimon数据湖核心原理及架构

Apache Paimon的前身属于Flink的子项目：Flink Table Store。目前业内主流的数据湖存储项目都是面向批处理场景设计的，在数据更新处理时效上无法满足流式数据湖的需求，因此Flink社区在2022年的时候内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向流以及实时的数据湖存储项目。

2023-11-08 10:02:23 1210

Flink针对标准的流处理和批处理提供了两种相关的API，Table API和sql。TableAPI允许用户以一种很直观的方式进行select 、filter和join操作。Flink SQL支持基于Apache Calcite实现的标准SQL。针对批处理和流处理可以提供相同的处理语义和结果。Flink Table API、SQL接口和Flink的DataStream API、DataSe...

2018-11-23 15:05:34 3085

原创 Flink EventTime和Watermarks案例分析

目录解释：1：实现watermark相关代码1.1：程序说明1.2：代码如下1.3：程序详解2：通过数据跟踪watermark的时间3：watermark+window处理乱序数据4：late element(延迟数据)的处理4.1：丢弃(默认)4.2：allowedLateness 指定允许数据延迟的时间4.3：sideOutputLateData 收...

2018-10-22 12:51:32 11190 10

原创如何停止flink job

两种方式,在standalone和on yarn集群中都是适用的1：在ui界面停止2：在命令行停止在ui界面停止假设已经成功提交到集群一个任务，查看集群webui界面在命令行停止：先查询目前在运行的job任务列表执行bin/flink list命令，发现有一个正在运行的job使用cancel命令进行停止，指定刚才查询到的job id。...

2018-04-01 17:24:07 18311 2

原创 Flink 状态与容错 ( state 和 Fault Tolerance)

Flink 状态与容错状态性的函数和操作通过处理单个(元素/事件)存储数据，使任何类型的state构建更复杂的操作。例如：当应用程序针对特定事件模式进行搜索的时候，state将会存储到目前为止的一些列事件。当每分钟/小时/天聚合事件的时候，state会持有所有等待聚合的数据。当在一连串的数据流上训练机器学习模型时，state持有当前版本的模型参数。当历史数据需要管理的时候，state允许高效的...

2018-03-31 20:40:46 1779

原创 Flink Distributed Cache 分布式缓存

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件。此功能可用于共享文件，包含静态的外部数据，例如字典或者machine-learned回归模型。此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目...

2018-03-31 00:06:22 4788 6

原创 Flink accumulator Counter 累加器和计数器

Accumulators(累加器)是非常简单的，通过一个add操作累加最终的结果，在job执行后可以获取最终结果最简单的累加器是counter(计数器)：你可以通过Accumulator.add(V value)这个方法进行递增。在任务的最后，flink会吧所有的结果进行合并，然后把最终结果发送到client端。累加器在调试或者你想更快了解你的数据的时候是非常有用的。Flink现在有一下内置...

2018-03-30 23:32:37 8187

原创 Flink Broadcast 广播变量

Broadcast 广播变量：一句话解释，可以理解为是一个公共的共享变量，我们可以把一个dataset 数据集广播出去，然后不同的任务在节点上都能够获取到，这个数据在每个节点上只会存在一份。如果不使用broadcast，则在每个节点中的每个任务中都需要拷贝一份dataset数据集，比较浪费内存(也就是一个节点中可能会存在多份dataset数据)。Broadcast variables允许...

2018-03-30 09:18:17 10599 1

原创 Flink HA安装配置实战

Flink HA配置文档详细HA原因及原理介绍说明请查看此博客链接，https://blog.csdn.net/xu470438000/article/details/79633824本文档只涉及HA具体安装步骤Flink Standalone集群HA配置1.HA集群环境规划使用三台节点实现两主两从集群(由于笔记本性能限制，不能开启太多虚拟机，其实使用三台和四台机...

2018-03-25 08:57:55 3307 1

原创 Flink HA配置

JobManager 高可用(HA)jobManager协调每个flink任务部署。它负责调度和资源管理。默认情况下，每个flink集群只有一个JobManager，这将导致一个单点故障(SPOF)：如果JobManager挂了，则不能提交新的任务，并且运行中的程序也会失败。使用JobManager HA，集群可以从JobManager故障中恢复，从而避免SPOF 。用户在stand...

2018-03-22 09:07:55 6442

原创 flink yarn-session的两种使用方式

flink on yarn模式中，flink yarn-session的两种使用方式分析第一种：在yarn中初始化一个flink集群，开辟指定的资源，以后提交任务都向这里提交。这个flink集群会常驻在yarn集群中，除非手工停止。第二种(推荐)：每次提交都会创建一个新的flink集群，任务之间互相独立，互不影响，方便管理。任务执行完成之后创建的集群也会消失。获取...

2018-03-20 22:39:16 17685 5

原创 flink on yarn 集群模式启动报错及解决方案汇总

注意：想要使用flink on yarn 模式，需要确保hadoop集群启动成功，并且需要在yarn的某一个节点上面执行flink on yarn的脚本没有启动hadoop集群，执行flink的bin/yarn-session.sh脚本会报下面错误脚本会一直卡在这里，一直输出重试日志，连不上resoucemanager，说明hadoop集群每启动 2018-03-17 12:30:...

2018-03-17 21:58:07 19105

原创 flink部署操作-flink on yarn集群安装部署

flink集群安装部署yarn集群模式Flink入门及实战-上：http://edu.51cto.com/sd/07245Flink入门及实战-下：http://edu.51cto.com/sd/5845e快速开始在yarn上启动一个一直运行的flink集群在yarn上运行一个flink jobflink yarn session启动flink ses...

2018-03-16 09:32:05 49820 4

原创 flink部署操作-flink standalone集群安装部署

flink集群安装部署standalone集群模式必须依赖必须的软件 JAVA_HOME配置flink安装配置flink 启动flink 添加Jobmanager/taskmanager 实例到集群个人真实环境实践安装步骤必须依赖必须的软件flink运行在所有类unix环境中，例如：linux、mac、或者cygwin，并且集群由一个master节...

2018-03-16 09:28:29 15801 1

原创 flink项目开发-flink的scala shell命令行交互模式开发

flink的 scala shell命令行交互模式开发flink带有一个集成的scala shell命令行。它可以以本地方式启动来模拟集群集群。执行下面的命令就可以通过shell命令行和flink集群交互(这种方式方便于代码调试)：bin/start-scala-shell.sh local如果想在集群上面运行scala shell，请查看本节后面的内容。flink ...

2018-03-12 09:37:36 4296 2

原创 flink基本原理及应用场景分析

Apache Flink 是一个开源的分布式，高性能，高可用，准确的流处理框架。支持实时流处理和批处理flink特性支持批处理和数据流程序处理优雅流畅的支持java和scala api 同时支持高吞吐量和低延迟支持事件处理和无序处理通过SataStream API，基于DataFlow数据流模型在不同的时间语义(时间时间，处理时间)下支持灵活的窗口(时间，技术，会话...

2018-03-11 11:14:26 19676

原创 flink项目开发-配置jar依赖，连接器，类库

Flink 免费视频直播课程地址：https://ke.qq.com/course/283798配置依赖，连接器，类库每个Flink应用程序依赖于一组Flink库。在最低限度,应用程序只依赖Flink api。许多应用程序依赖特定的连接器库(如kafka,cassandra,等等)。Flink运行应用程序时(在分布式部署,或在IDE中测试),Flink运行时库必须是可用的。Fli...

2018-03-11 00:06:12 9502 1

原创 flink实例开发-batch批处理实例

batch批处理实例下面的示例程序将展示flink的不同应用程序从简单的单词计数到图计算。示例代码演示使用Flink的DataSet API。以下的全部源代码和更多的例子可以在flink源码仓库的flink-examples-batch或者flink-examples-streaming模块中看到。运行一个示例 Word Count 单词计数 Page Rank 网页排名 ...

2018-03-10 22:56:00 13747

原创 flink实例开发-详细使用指南

Flink入门及实战-上：http://edu.51cto.com/sd/07245Flink入门及实战-下：http://edu.51cto.com/sd/5845eflink实例开发-详细使用指南配置一个maven项目编写一个flink程序编程实战：编写一个向kafka写数据的程序在集群运行 flink整合kafka在本指南中，我们将从头开始，从flink项...

2018-03-10 17:50:00 50513 3

原创 flink项目开发-scala代码模板开发flink指南

scala代码开发flink指南构建工具 sbt【建议参考使用下面的maven，sbt模块暂时不做翻译】 maven必须的依赖创建项目检查项目构建/编译项目下一步构建工具Flink项目可以使用不同的工具进行管理和编译。sbt和maven建议使用maven,因为目前大数据开发，工作中使用maven的比较多。================mave...

2018-03-10 16:13:49 2802

原创 flink项目开发-java代码模板开发flink指南

java代码开发flink指南必须的依赖创建项目检查项目构建/编译项目下一步通过几个简单的步骤就可以使用java程序开发flink必须的依赖1：maven3.0.4(或者更高版本)2：java8.x创建项目使用下面的命令创建项目使用maven命令$ mvn archetype:generate ...

2018-03-10 15:52:04 10197

原创 flink原理介绍-数据流编程模型

数据流编程模型抽象级别程序和数据流并行数据流窗口时间有状态操作检查点(checkpoint)容错批量流处理下一步抽象级别flink针对流式/批处理应用提供了不同的抽象级别。这个最低级别的抽象提供了有状态的流式操作。它是通过处理函数嵌入到DataStream API。它允许用户自由的处理一个或者多个数据流中的事件，并且使用一致，容错的状态。...

2018-03-09 23:04:39 4411 1

原创 flink中文文档-快速开始安装部署

Flink入门及实战-上：http://edu.51cto.com/sd/07245Flink入门及实战-下：http://edu.51cto.com/sd/5845e下载启动flink 查看代码运行例子下一步下载启动flinkflink可以在Linux, Mac OS X, 和Windows平台上运行。为了运行flink，只需要安装JAVA7.x(或者更高版...

2018-03-09 00:01:10 16683

原创 storm1.0.2版本集群搭建完整步骤

storm1.0.2版本集群搭建完整步骤storm集群搭建 storm集群也是由主节点和从节点组成的。 storm版本的变更： storm0.9.x storm0.10.x storm1.x 前面这些版本里面storm的核心源码是由java+clojule组成的。 storm2.x 后期这个版本就是全部用java重写了。（阿里在很早的时候就对storm进程了重写，提供了js...

2017-01-05 10:37:46 6935

原创 elasticsearch之shield插件安装文档

elasticsearch之shield插件安装文档默认情况下elasticsearch可以不受限制访问，如果在外网的情况下就不安全了，所以，elastic官方提供了shield插件，可以实现权限控制，但是不好的地方就是这个插件是收费的，可以免费试用一个月。那我们就来试试吧！ The Shield plugin must be installed on every node in the c...

2017-01-05 10:36:11 4189 1

原创 elasticsearch之watcher插件安装文档

elasticsearch之watcher插件安装文档watcher插件可以提供elasticsearch集群的监控提醒功能。 You need to install the License and Watcher plugins on each node in your cluster. 你需要在你的集群中所有节点安装license和watcher插件安装watcher插件 1：安...

2017-01-05 10:34:47 4903

原创 elasticsearch之marvel插件安装文档

Marvel consists of two components: a Marvel agent that you install on on each node in your cluster, and a Marvel application you install in Kibana. marvel包含两个组件：一个是marvel agent插件，你需要在集群的所有节点都安装一...

2017-01-05 10:30:12 9839 1

原创使用docker搭建hadoop分布式集群

使用docker搭建部署hadoop分布式集群在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档，没办法，只能自己写一个了。一：环境准备： 1：首先要有一个Centos7操作系统，可以在虚拟机中安装。 2：在centos7中安装docker，docker的版本为1.8.2 安装步骤如下： &lt;1&gt;安装制定版本的dockeryum install ...

2016-01-13 18:16:26 66610 34

原创 Docker启动报错

time="2015-02-10T15:26:08+08:00" level="info" msg="+job serveapi(unix:///var/run/docker.sock)"time="2015-02-10T15:26:08+08:00" level="info" msg="WARNING: You are running linux kernel version 2.6.32-.

2015-02-10 16:16:35 17676 1

原创 redis集群动态增加或者删除节点

Redis集群添加节点1：首先把需要添加的节点启动 cd/usr/local/cluster/ mkdir7006 cp/usr/local/cluster/redis.conf/usr/local/cluster/7006/ cd/usr/local/cluster/7006/ viredis.conf ##修改redis.co...

2015-01-21 18:49:08 42511 1

原创 redis3.0.0 集群安装详细步骤

Redis集群部署文档(centos6系统)（要让集群正常工作至少需要3个主节点，在这里我们要创建6个redis节点，其中三个为主节点，三个为从节点，对应的redis节点的ip和端口对应关系如下）127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002127.0.0.1:7003127.0.0.1:7004127.0.0.1:7005 ...

2015-01-21 17:30:16 124529 83

原创 java爬虫抓取天猫商品的价格数据

天猫商品的价格是ajax动态加载的，用F12分析页面的请求路径找到价格请求的url，分析如图直接访问这个url是会报错的，如图需要在代码中访问，在head中加上Refererc参数，自己写了一个demo，获取到的商品的价格，（仅供测试）public static void main(String[] args) throws Exception { String url = "http://m...

2015-01-04 14:50:23 25079 9

流式数据湖Paimon课程完整课件内容

适合人群： 1、大数据开发岗位 2、大数据分析岗位 3、数据仓库岗位 4、需要构建湖仓一体架构的开发人员你将会学到： Paimon核心原理及架构快速上手使用Paimon Paimon中的表类型详解 Paimon的核心操作 Paimon中的CDC数据摄取功能 Hive引擎集成Paimon Paimon底层存储文件深入剖析 Paimon性能优化和管理维护

2023-11-08