自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(407)
  • 资源 (3)
  • 收藏
  • 关注

原创 大数据专题

Flink目录链接Flink安装mac版

2020-06-04 19:58:29 808

原创 Docker容器化 & Kubernetes容器集群

目录博客链接centos安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87877283mac下安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87876928第一个docker化的java应用https://blog.csd...

2019-07-08 14:04:24 538

原创 消息中间件专题

消息中间件专题汇总目录博客链接Mac下ActiveMQ的下载与安装https://blog.csdn.net/qq_24095055/article/details/88974051

2019-04-02 15:59:24 3173

原创 Java知识体系总结

Java面试总结分类总结博客快速导航Java面试之基础篇Java面试之集合篇Java面试之多线程篇Java面试之JVM篇Java面试之数据结构篇Java面试之算法篇Java面试之框架篇Java面试之数据库篇Java面试之计算机网络篇Java面试之操作系统篇Java面试之真实面试经历篇...

2019-03-13 11:30:37 24331 2

原创 2023大数据面试总结

略。

2023-09-08 01:01:31 782

转载 flink sql 知其所以然(一)| source\sink 原理(转)

在 flink sql 中,source 有两种表,一种是数据源表,一种是数据维表。数据源表就是有源源不断的数据的表。比如 mq。数据维表就是用来给某些数据扩充维度使用的。比如 redis,mysql,一般都是做扩容维度的维表 join 使用。本节主要介绍数据源表,数据维表的整个流程和数据源表几乎一样。下文中的 source 默认都为数据源表。首先在介绍 sql 之前,我们先来看看 datastream 中定义一个 source 需要的最基本的内容。

2023-09-03 21:28:34 315

转载 Flink on K8s 原理剖析及实践(转)

本文依据flink官方社区文章整理:https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTgKubernetes 是 Google 开源的容器集群管理系统,其提供应用部署、维护、扩展机制等功能,利用 Kubernetes 能方便地管理跨机器运行容器化的应用。Kubernetes 和 Yarn 相比,相当于下一代的资源管理系统,但是它的能力远远不止这些。

2023-09-03 15:05:06 272

原创 2023MySQL+MyBatis知识点整理

一系列设计数据库模型的规范。第一范式:原子性约束,不可再分解第二范式:唯一性约束第三范式:字段没有冗余性能优化策略,通过在表中增加冗余数据提高数据库读取性能。一系列操作要不全部成功,要不全部失败(只要其中一个环节失败就会触发回滚恢复到执行前状态)ACID(原子性、一致性、隔离性、持久性)脏读:一个事务读取到了其他事务还未提交的数据不可重复读:相同SQL查到同一条数据值不一样幻读:条数不一样。

2023-08-26 00:01:31 674

转载 进程、线程和协程有什么区别

进程就是应用程序的启动实例。比如我们运行一个游戏,打开一个软件,就是开启了一个进程。进程拥有代码和打开的文件资源、数据资源、独立的内存空间。有人会认为,要提升CPU的利用率,可以开多个进程,但是开多个进程的话,进程间通讯是个比较麻烦的事情(进程之间地址空间是独立的,需要通过其他方式,例如:管道来解决)相反,线程之间是可以实现数据共享的,因为线程之间使用的是同一个地址空间。线程又叫做轻量级进程,是CPU调度的最小单位,线程从属于进程,是程序的实际执行者。一个进程至少包含一个主线程,也可以有更多的子线程。多个线

2022-12-04 23:29:09 646 1

转载 java springboot使用ssh连接数据库

然后再创建数据库连接,连接本地3307端口,连接请求就会通过ssh服务器被转发到远程3306端口。原理:项目启动时先创建ssh连接,监听本地3307端口。

2022-10-30 15:00:07 1409

原创 Linux shell常用命令总结2022

一般看信息都用查看man文档,而help只是一个简单的描述,方便,但man文档中都包含了。:删除目录(注意rmdir只能删除空的目录),-p 表示连同上层空目录级联删除。:显示目前所在的目录 -P 显示出确实的路径,而非使用链接(link)路径。:为某一个文件在另一个目录建立一个同步的链接,不会重复占用磁盘空间。:代表account这个用户的家目录(account是账号名称):系统在今天的20:25关机,如果当前时间大于20:25隔天关机。:再过30分钟系统会重新启动,并显示后面的讯息给所有在线的使用者。

2022-10-16 23:40:26 1026

转载 数据建模的基本流程

数据建模

2022-09-05 12:20:26 2396

原创 flink故障恢复的流程(从检查点恢复状态)

找到最近一次保存的检查点,从中读出每个算子任务状态的快照,分别填充到对应的状态中。这样,Flink 内部所有任务的状态,就恢复到了保存检查点的那一时刻,也就是刚好处理完第三个数据的时候,如图 10-5 所示。从检查点恢复状态后还有一个问题:如果直接继续处理数据,那么保存检查点之后、到发生故障这段时间内的数据,也就是第 4、5 个数据(“flink”“hello”)就相当于丢掉了;之后继续运行,又正常处理了一个数据“flink”,在处理第五个数据“hello”时发生了故障,如图 10-3所示。

2022-08-20 11:36:12 2890

原创 jvm调优思路

jhat(JVM Heap Analysis Tool)命令是与 jmap 搭配使用,用来分析 jmap 生成的 dump,jhat 内置了一个微型的 HTTP/HTML 服务器,生成 dump 的分析结果后,可以在浏览器中查看。线程快照是当前 java 虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等。JDK监控和故障处理命令有。

2022-08-20 11:29:53 506

原创 算法题汇总

算法

2022-08-09 11:37:40 1564

原创 07Flink实时数仓(尚硅谷)- 实时项目优化

实时数仓

2022-07-23 12:26:48 1524

原创 06Flink实时数仓(尚硅谷)- 数据可视化接口实现

06Flink实时数仓(尚硅谷)- 数据可视化接口实现

2022-07-23 00:35:10 891

原创 05Flink实时数仓(尚硅谷)- ClickHouse

05Flink实时数仓(尚硅谷)- ClickHouse

2022-07-22 18:33:33 2533

原创 04Flink实时数仓(尚硅谷)- DWS 层业务实现

04Flink实时数仓(尚硅谷)- DWS 层业务实现

2022-07-22 17:14:45 841

原创 03Flink实时数仓(尚硅谷)- DWM 层业务实现

03Flink实时数仓(尚硅谷)- DWM 层业务实现

2022-07-22 16:32:23 809 1

原创 02Flink实时数仓(尚硅谷)- DWD层数据准备

实时数仓

2022-07-22 00:02:08 875

原创 尚硅谷大数据技术之 Flink-CDC(转)

CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:

2022-07-10 23:54:14 1120

原创 Flink实时数仓(尚硅谷)- 数据采集

普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu

2022-07-10 23:28:46 2547 1

转载 Linux查看磁盘空间占用

linux 磁盘

2022-07-08 15:44:56 10314

转载 kafka系列七、kafka核心配置(转)

111

2022-06-30 20:33:59 994

原创 Flink物理分区(Physical Partitioning)(出自b站尚硅谷)

文章目录前言1. 随机分区(shuffle)2. 轮询分区(Round-Robin)3. 重缩放分区(rescale)4. 广播(broadcast)5. 全局分区(global)6. 自定义分区(Custom)前言顾名思义,“分区”(partitioning)操作就是要将数据进行重新分布,传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生,前面介绍聚合算子时,已经提到了 keyBy,它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”,至于分得均不

2022-05-26 00:09:06 1557 1

转载 zookeeper(尚硅谷b站课程笔记2021)

文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理1)节点的值变化监听2)节点的子节点变化监听(路径变化)3.

2022-05-22 21:57:11 750

转载 macOS解压时“错误22 - 无效的参数”(转)

如果Zip文件是在Windows系统创建而且编码存在问题时,用MacBook的macOS自带的解压程序“归档使用工具”是解压不了的,这里提供两种方法。软件The Unarchiver解压有一种方法是改后缀名为rar后用The Unarchiver解压,但这种方法不一定能成功。通过终端输入命令另外一种方法是打开电脑终端,用macOS自带的输入命令ditto解压:ditto -x -k /要解压的文件.zip /要保存的路径注意,文件一定要是带路径的,最好的方法是输入ditto -x -k后拖拽文

2022-05-13 15:01:13 1789

原创 Flink内核源码解析(出自B站尚硅谷)

文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的,可以从提交脚本中看到启动类即程序的入口是:org.apache.flink.client.cli.CliFrontend查看其中的main方法,执行的逻辑简单总结如下:获取flink的c

2022-05-06 00:04:46 5880

转载 Flink 非对齐 Checkpoint 执行流程详解(转)

文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpoint 与反压的耦合,反压反过来也会作用于

2022-05-04 00:42:02 1425 3

转载 1w 字详解 Flink 双流 join 的 3 种解决及优化方案(转)

文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、

2022-05-03 21:37:06 2336

转载 万字详解 Hive 查询的 18 种方式(转)

文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B

2022-05-03 11:42:13 1197

转载 Hive 核心知识点灵魂 16 问(转)

文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理?3. Hive 的 HSQL 转换为 MapReduce 的过程?4. Hive 的两张表关联,使用 MapReduce 怎么实现?5. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思?6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)?7. Hive 有哪些方式保存元数据,各有哪些特点?8. 内部表和外

2022-05-03 00:49:04 305

转载 1w 字详述 Flink CDC 打通数据实时入湖(转)

文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Fli

2022-05-01 14:20:40 871

原创 2022大数据面试总结

flinkkafka大数据实时计算flink sqlflink cdcjavahadoopclickhouse

2022-05-01 13:28:14 666 3

转载 Flink 对线面试官(五):2w 字详述双流 Join 3 种解决方案 + 2 种优化方案

文章目录1.前言2.Join 的应用场景3.为什么流式计算中提到 Join 小伙伴萌就怕呢?4.带大家看一遍本文思路5.Flink Join 解决方案:Flink Window Join5.1.解决方案说明5.2.解决方案 Flink APISQL API(Flink 1.14 版本 Window TVF 中支持):5.3.解决方案的特点5.4.解决方案的适用场景6.Flink Join 解决方案:Flink Interval Join6.1.解决方案说明6.2.解决方案 Flink API6.3.解决方案

2022-04-30 23:46:30 488

转载 详解 Flink 状态管理

文章目录1.前言2.状态是什么东西?有了状态能做什么?3.为什么离线计算中不提状态,实时计算老是提到状态这个概念?状态到底在实时计算中解决了什么问题?3.1 离线任务真的是没有状态、状态管理这些个概念这个概念嘛?3.2 实时任务真的只能依赖状态、状态管理嘛?4.有了状态、为什么又出现了状态管理的概念?5.怎么学习 Flink 中的状态、状态管理相关的概念呢?6.Flink 中状态的分类?7.Flink 中状态的使用方式?8.Flink 状态后端的分类及使用建议?9.Flink 中状态的能力扩展 - TTL?

2022-04-29 00:24:21 1220

原创 如何监控和诊断JVM堆内和堆外内存使用?

文章目录典型回答了解 JVM 内存的方法有很多,具体能力范围也有区别,简单总结如下:可以使用综合性的图形化工具,如 JConsole、VisualVM(注意,从 Oracle JDK 9 开始,VisualVM 已经不再包含在 JDK 安装包中)等。这些工具具体使用起来相对比较直观,直接连接到 Java 进程,然后就可以在图形化界面里掌握内存使用情况。以 JConsole 为例,其内存页面可以显示常见的堆内存和各种堆外部分使用状态。也可以使用命令行工具进行运行时查询,如 jstat 和 jm

2022-03-27 20:13:50 1154

转载 Java锁Monitor-通过openjdk源码分析ObjectMonitor底层实现

文章目录在我们分析synchronized关键字底层信息时,其中谈到了Monitor对象,它是由C++来实现的,那,到底它长啥样呢?我们在编写同步代码时完全木有看到该对象的存在,所以这次打算真正来瞅一下它的真正面目,而对于这个Hospot代码JDK是并没有开源的,但是社区版本的JDK是开源了,在openjdk上可以阅读得到,所以下面先到openjdk上瞅一下:所以点击一下它:点击一下:然后点击左侧的browser方便我们浏览代码:然后定位到这个路径:然后点击runtime/,其中

2022-03-27 19:47:48 534

转载 一文搞懂 Hadoop 生态系统的组件(转)

文章目录01Hadoop概述02Hadoop生态圈03Hadoop的优缺点导读:Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台,在它之上可以更容易地开发和运行处理大规模数据的软件。01Hadoop概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理

2022-03-13 21:45:59 4851

datasync 数据同步 大数据 python

datasync

2022-07-18

jd-gui-osx-1.6.6.zip

反编译工具

2021-12-16

大数据入门指南v1.0

大数据入门指南,来自github博主bigdata,只是全面,适合新手阅读,非常好,特别好,很实用,很适用于入门和刚接触大数据的行业人员及老师学生等等等等等等

2020-10-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除