大数据老司机-CSDN博客

原创通过 docker-compose 快速部署 Flink 保姆级教程

Apache Flink 是一个开源的流处理框架，用于处理和分析实时数据流。它支持事件驱动的应用和复杂的事件处理（CEP），并且可以处理批处理任务。Flink 提供了高吞吐量、低延迟以及强大的状态管理和容错能力。它可以在各种环境中运行，包括本地集群、云环境和容器化环境（如 Docker 和 Kubernetes）。文末有Flink高吞吐量和低延迟：Flink 能够处理大规模的数据流，同时保持毫秒级的处理延迟。状态管理和容错：Flink 提供了强大的状态管理功能，允许在发生故障时从检查点或保存点恢复作业。

2024-04-14 00:09:58 721 2

原创 Raft Kafka on k8s 部署实战操作

部署 Raft Kafka（Kafka 3.3.1 及以上版本引入的 KRaft 模式）在 Kubernetes (k8s) 上，可以简化 Kafka 集群的管理，因为它不再依赖于 Zookeeper。

2024-03-24 20:16:05 993 1

原创 Prometheus 基于 Consul 实现服务自动发现注册

Prometheus与Consul集成可以实现服务的自动发现和注册。Consul 是一个服务发现和配置的工具，它可以管理服务的注册、发现和健康检查。Prometheus可以通过Consul的服务发现功能来动态地发现监控目标（Targets）。

2024-03-17 16:14:12 949

原创深度解析 Raft 协议与KRaft实战演示

Raft 协议是一种分布式一致性算法，它用于在分布式系统中的多个节点之间达成一致性。Raft 协议的目标是提供一种相对简单、易于理解和实现的方法，以确保在网络分区、节点故障等情况下，系统仍然能够保持一致性和可用性。

2024-03-10 22:00:00 595

原创为何Kafka在2.8版本开始会“抛弃”Zookeeper？

Kafka被官方定义为分布式流式处理平台，因为具备高吞吐、可持久化、可水平扩展等特性而被广泛使用。

2024-03-03 18:30:00 1175

原创 OpenResty 介绍与实战讲解（nginx&lua）

OpenResty是一个基于 Nginx与Lua的高性能Web平台，其内部集成了大量精良的Lua库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态Web应用、Web服务和动态网关。简单地说OpenResty的目标是让你的Web服务直接跑在 Nginx 服务内部，充分利用 Nginx 的非阻塞 I/O 模型，不仅仅对 HTTP 客户端请求,甚至于对远程后端诸如 MySQL、PostgreSQL、Memcached 以及 Redis 等都进行一致的高性能响应。Nginx。

2024-02-18 22:00:00 1096

原创 lua 语法介绍与 NGINX lua 高级用法实战操作

lua是一种轻量小巧的脚本语言，用标准C语言编写并以源代码形式开放，其设计目的是为了嵌入应用程序中，从而为应用程序提供灵活的扩展和定制功能。

2024-02-03 18:09:21 1269

原创 NGINX 实战操作（yarn-proxy）

NGINX 代理是非常常见的，内网生成环境一般不让在本机直接访问，这时候就得利用代理，但是一般代理就得脱敏或去掉页面上的高危操作。这里就拿 YARN 代理来讲解。这里也会涉及到 subs_filter 讲解。

2024-01-28 17:35:09 1240

原创 NGINX sub_filter和subs_filter 指令讲解

在 NGINX 中，sub_filter 和 subs_filter 是两个用于替换响应内容中字符串的指令，它们主要用于反向代理和修改响应内容。

2024-01-21 17:52:17 1168

原创 NGINX 路由配置与参数详解（https配置、跨域配置、socket配置）

Nginx 是一个高性能的开源Web服务器，也可以用作反向代理服务器、负载均衡器和HTTP缓存。它的设计目标是提供高并发、低内存消耗和高度可伸缩性，使其成为处理大量并发连接的理想选择。

2024-01-14 21:00:00 1925

原创 NGINX - 高级负载均衡器、Web服务器、反向代理

Nginx 是一个高性能的开源Web服务器，也可以用作反向代理服务器、负载均衡器和HTTP缓存。它的设计目标是提供高并发、低内存消耗和高度可伸缩性，使其成为处理大量并发连接的理想选择。

2024-01-07 18:00:00 564

原创 Hadoop YARN Cgroups 资源隔离讲解

Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CPU、内存、磁盘 I/O 等）

2023-12-24 17:45:09 1210

原创 Apache Kyuubi 讲解与实战操作

Apache Kyuubi，一个分布式多租户网关，用于在 Lakehouse 上提供无服务器 SQL。Kyuubi 是一个基于 Apache Spark 的开源分布式 SQL 引擎，为用户提供了一个统一的 SQL 查询接口，使其能够以标准 SQL 语法查询和分析各种数据源。

2023-12-20 22:43:25 1298

原创通过 docker-compose 快速部署 EFAK 保姆级教程

EFAK（Eagle For Apache Kafka，以前称为 Kafka Eagle）是一款由国内公司开源的Kafka集群监控系统，可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息，并进行可视化图表展示。独特的KQL还可以通过SQL在线查询kafka中的数据。

2023-12-10 20:30:00 655

原创 Java 内存分析工具 Arthas 介绍与示例讲解

Arthas（阿尔萨斯）是阿里巴巴开源的一款Java诊断工具，用于实时检测、诊断Java应用程序的性能问题。它是一个命令行工具，提供了丰富的功能，包括查看类加载信息、方法执行耗时、线程堆栈、内存分析等。Arthas的设计目标是在生产环境中实时诊断和解决Java应用程序的问题。以下是Arthas实时性Arthas可以在运行中的Java进程中实时进行诊断，无需重新启动应用。丰富的命令：提供了众多的命令，涵盖了类加载、方法执行、线程、内存、GC等多个方面。动态追踪。

2023-12-04 21:43:35 1957

原创 dump 日志收集与分析（jmap 和 jstack 工具）讲解与实战操作

dump通常指的是从一个系统或应用程序中生成一份详细的信息快照，以便进行调试、分析或故障排除。在不同的上下文中，dump可能指的是不同类型的信息。内存转储）：内存转储是将程序的内存内容以二进制形式保存到文件中的过程。这对于在程序崩溃或发生问题时进行调试和分析非常有用。常见的工具有 gcore（用于 GDB）、jmap（用于 Java 应用程序）等。核心转储（Core Dump）：核心转储是在程序崩溃时生成的一个包含程序当前内存状态的文件。它通常包括内存、寄存器和堆栈信息。

2023-12-03 17:25:52 2970

原创通过 docker-compose 快速部署 Rancher 保姆级教程

Rancher是一个开源的容器管理平台，它为企业提供了一个简化容器化应用部署、管理和扩展的工具。Rancher提供了一套完整的容器服务堆栈，支持Docker和Kubernetes，并且可以在任何基础设施上运行，包括物理服务器、虚拟机、公有云和私有云。以下是Rancher多集群管理Rancher允许您集中管理多个Kubernetes集群、集群和独立的Docker容器。这使得在多云、混合云和多地理位置的环境中管理和部署容器化应用变得更加简便。用户和权限管理Rancher。

2023-11-26 18:18:03 1337

原创开源数据收集引擎 Logstash 讲解和示例讲解

Logstash 是一个开源的数据收集和日志处理工具，它是 Elastic Stack（ELK Stack）的一部分，用于从各种数据源中采集、转换和传输数据，以帮助分析和可视化大规模数据。Logstash 通常与 Elasticsearch 和 Kibana 一起使用，以实现实时日志分析和监控。

2023-11-20 21:00:00 402

原创 kafka 磁盘扩容与数据均衡实在操作讲解

Kafka 的磁盘扩容和数据均衡是与保证Kafka集群可用性和性能相关的两个重要方面。在 Kafka 中，分区数据的存储和平衡对集群的运行至关重要。

2023-11-19 18:30:00 466

原创容器日志采集的三种方式实战操作讲解（Filebeat）

Filebeat 是一个轻量级的开源数据采集器，通常用于从不同来源收集和发送日志和事件数据。在 Kubernetes 或 Docker 环境中，Filebeat 常用于采集容器的日志。

2023-11-12 18:30:00 894

原创 Filebeat on k8s 日志采集实战操作

Filebeat 是一个轻量级的开源日志文件和数据收集器，由 Elastic 公司开发，用于采集、解析和发送日志数据。在 Kubernetes 中，Filebeat通常用于采集容器日志，并将其发送到中央日志存储、分析或搜索工具，如 Elasticsearch、Logstash 或 Fluentd。

2023-11-05 18:30:00 1131

原创 MinIO 高性能分布式存储最新版单机与分布式部署

MinIO 是一个开源的对象存储服务器，用于存储和管理大规模的非结构化数据，例如图像、视频、日志文件、备份和容器镜像。MinIO 旨在提供高性能、高可用性、可扩展性和易用性的对象存储解决方案，适用于私有云、公共云和混合云环境。

2023-10-29 18:51:14 505

原创通过 docker-compose 快速部署 Elasticsearch-Cerebro 保姆级教程

Elasticsearch-Cerebro（也称为 Cerebro）是一个针对 Elasticsearch 集群的开源管理和监控工具。它提供了一个直观的Web界面，允许您轻松地查看、管理和监控 Elasticsearch 集群。

2023-10-23 00:02:26 368

原创通过 docker-compose 快速部署 Elasticsearch 和 Kibana 保姆级教程

使用 Docker Compose 快速部署 Elasticsearch 和 Kibana 可以帮助您在本地或开发环境中轻松设置和管理这两个重要的工具，用于存储和可视化日志数据、监控和搜索。

2023-10-22 10:28:31 648

原创 Filebeat 采集 k8s Pod 和 Events 日志实战操作

要使用Filebeat采集Kubernetes中的Pod和Events日志，您需要配置Filebeat以适应这两种类型的数据。Pod日志是容器内产生的日志数据。Filebeat可以监控这些日志并将它们发送到中央存储或分析系统。下面是如何配置Filebeat来采集Pod使用Filebeat的输入模块配置，选择。这告诉Filebeat应该监控容器的标准输出和日志文件。paths:这个配置指定Filebeat监控容器的日志文件，同时使用处理器添加Kubernetes元数据，以便在日志中包含有关Pod。

2023-10-15 15:02:12 1573 1

原创轻量级的日志采集组件 Filebeat 讲解与实战操作

Filebeat是一个轻量级的日志数据收集工具，属于Elastic公司的Elastic Stack（ELK Stack）生态系统的一部分。它的主要功能是从各种来源收集日志数据，将数据发送到Elasticsearch、Logstash或其他目标，以便进行搜索、分析和可视化。轻量级：Filebeat是一个轻量级的代理，对系统资源的消耗非常低。它设计用于高性能和低延迟，可以在各种环境中运行，包括服务器、容器和虚拟机。多源收集。

2023-09-24 15:11:44 1637

原创 Trino 权限控制讲解与实战操作（资源分组）

Trino支持两种主要类型的权限控制：系统权限控制和文件权限控制。这两种类型的权限控制可以用于管理哪些用户或角色可以执行特定操作和访问特定资源。

2023-09-18 00:04:21 443

原创 Trino HTTPS 与密码认证介绍与实战操作

Trino（以前称为Presto SQL或PrestoDB）支持TLS（传输层安全性）认证以确保在数据传输过程中的安全性。TLS认证是一种用于加密和保护数据传输的协议，它在客户端和服务器之间建立安全的通信通道，以防止中间人攻击和数据泄露。

2023-09-17 13:10:26 299

原创 Elasticsearch 可视化集群工具 Cerebro

Cerebro（又称Elasticsearch Cerebro）是一个用于可视化和管理 Elasticsearch 集群的开源工具。它提供了一个直观的用户界面，让您能够轻松地监控、管理和诊断您的Elasticsearch集群。

2023-09-11 21:30:00 403

原创 ElasticSearch+Kibana on K8s 讲解与实战操作（版本7.17.3）

在 Kubernetes（K8s）上运行 Elasticsearch 是一种在容器化环境中部署和管理 Elasticsearch 集群的常见方法。Elasticsearch 是一款流行的分布式搜索和分析引擎，而 Kubernetes 则提供了一个出色的平台，用于编排容器并管理 Elasticsearch 的可伸缩性和容错性。

2023-09-10 18:48:47 464

原创 JMX Exporter 介绍与实战操作（Trino）

JMX Exporter 是一个用于将 Java 应用程序的 JMX（Java Management Extensions）指标导出为 Prometheus 格式的度量数据的开源工具。Prometheus 是一种流行的开源监控和告警工具，它使用 Pull 模型来收集和存储度量数据，而JMX Exporter允许你将 Java 应用程序的内部性能指标导出到Prometheus 中，从而实现对 Java 应用程序的监控和警报。

2023-09-04 22:00:00 492

原创什么是 JMX？（Trino JMX 实战讲解）

JMX是Java管理扩展）的缩写，它是 Java 平台上用于管理和监控应用程序、系统和网络资源的一种标准化的管理和监控框架。JMX提供了一种标准的方式，通过这种方式，开发人员可以暴露应用程序中的各种管理和监控信息，然后可以使用JMX客户端工具或应用程序来访问和操作这些信息。JMX允许开发人员定义称为的管理组件，这些组件充当被管理资源的代理，并通过JMX接口公开资源的操作和属性。通过MBeans，您可以监控和管理各种 Java 应用程序和服务器的性能、状态和配置。JMX监控：可以使用JMX。

2023-09-03 18:30:00 456

原创 Prometheus on k8s 部署与实战操作进阶篇

Prometheus是一种开源的监控和警报工具，用于收集和记录应用程序和系统的度量数据。它特别适用于在Kubernetes集群中监控容器化应用程序。Kubernetes集群中通常与Prometheus一起使用的组件是Prometheus Operator和Grafana。安装Prometheus Operator： Prometheus Operator是一种Kubernetes控制器，用于简化Prometheus的部署和管理。

2023-08-27 23:45:10 1127

原创 JVM 与 GC 讲解

JVM（Java Virtual Machine）是一种在计算机上运行Java字节码的虚拟机。它允许Java程序在不同的操作系统上具有跨平台的能力，因为它提供了一个统一的运行环境。JVM 负责将Java源代码编译成字节码，然后在运行时解释执行或者编译执行这些字节码。

2023-08-27 10:15:13 579

原创超实用的两款截图工具（FastStone Capture 和 Snipaste）

"FastStone Capture" 和 "Snipaste" 都是计算机上常用的截图工具，用于捕捉屏幕截图、编辑图像以及进行屏幕注释等操作。

2023-08-20 20:42:27 474

原创超实用的 linux atop 与 htop 监控工具讲解与实战操作

atop和htop都是 Linux 系统上用于监控系统资源和进程活动的命令行工具，但它们有不同的特点和用途。atop 实时监控示例图：htop是一个交互式的进程监控工具，主要用于查看和管理运行中的进程。它以用户友好的方式显示进程列表，包括进程的CPU、内存和交换空间使用情况，以及进程树结构。htop允许你通过键盘快捷键来进行排序、搜索、终止进程等操作。htop提供了颜色和动态更新的界面，更直观地显示资源使用情况。atop适合更全面地监控系统资源的使用情况，并记录历史数据，适合分析系统性能问题。

2023-08-20 18:00:00 302

原创超实用的批量管理工具 pssh 和 window 文件传输工具 pscp

pssh 和 pscp 都是用于在计算机网络中进行批量操作的工具，但它们分别用于执行命令和传输文件。

2023-08-19 16:53:04 402

原创 Linux jq 命令讲解与实战操作（json字符串解析工具）

jq是一个强大的命令行工具，用于处理JSON格式的数据。它可以帮助你查询、过滤、修改和处理JSON数据，使得在命令行环境下处理JSON变得非常方便。jq 官方网站：87这些是一些常见的 jq 命令参数和选项，可以帮助你进行 JSON 数据的查询、过滤、修改和转换。你可以通过查阅 jq 的官方文档和教程，深入学习和掌握更多功能和用法。大数据与云原生技术分享，进行技术交流，如本篇文章对您有所帮助，麻烦帮忙一键三连（）~

2023-08-07 23:03:22 514

原创数仓 Hive HA 介绍与实战操作

在数据仓库中，是指为这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案，用于处理大规模数据的查询和分析。为了确保Hive服务的连续性和可用性，特别是在出现硬件故障、软件问题或其他中断情况时，实施Hive的高可用性解决方案非常重要。Hive HA通常涉及以下几个方面：元数据存储的高可用性：元数据存储在Hive Metastore中，其中包括表的结构、分区信息、表的位置等。为了确保元数据的高可用性，可以使用数据库复制、备份和恢复策略。

2023-08-06 18:41:56 358

原创 Trino on k8s 编排部署进阶篇

Trino on Kubernetes（Trino在Kubernetes上的部署）是将Trino查询引擎与Kubernetes容器编排平台相结合，以实现在Kubernetes集群上部署、管理和运行Trino的解决方案。

2023-07-16 20:30:00 840

空空如也

空空如也