BigDataToAI-CSDN博客

原创 ubuntu 18.04安装hdp 3.1.0最新完整版（含安装包）

节点准备hostnameip角色ubuntu-1804-1172.21.73.53从节点ubuntu-1804-2172.21.73.54主节点ubuntu-1804-3172.21.73.55从节点关闭防火墙sudo ufw disable配置时钟同步NTP所有节点安装ntpsudo apt install ntp以ubuntu-1804-2为server，在ubuntu-1804-2进行如下修改修改配置文件vim /etc/ntp.c

2021-12-02 21:30:58 1278 2

原创基于MediaPipe 和 TensorFlow.js的3D手势检测

最近看到Google发布了Tensorflow.js关于手势姿态检测模型的新版本，该模型改进了2D精度，支持3D，并具有同时预测双手关键点的新能力。晚上下班回来，把源码下载下来跑了一下demo，被这个精度惊艳到了。瞬间萌生了了一个想法，有了这个3D手势检测算法，那我是不是可以把佛山无影手的招式记录下来，然后把它教给机器人，然后让机器人给我当保镖！先来看一下测试效果。哈哈哈，废话少说，还是来看看，今晚是怎么跑这个demo的吧。这个TF是基于js写的，所以当然你需要安装node和yarn啦！那么安装完这

2021-11-17 19:24:37 5342 1

原创 k8s日志收集组件 Grafana loki --- 理论篇

agent（也称为客户端）用于获取日志，将日志转换为流，并通过 HTTP API 将流推送到 Loki。Promtail agent专为 Loki 安装而设计，但许多其他agent也可以与 Loki 无缝集成。Loki 索引流。每个流标识一组与一组唯一标签相关联的日志。一组高质量的标签是创建既紧凑又允许高效查询执行的索引的关键。LogQL是 Loki 的查询语言。

2023-06-21 00:26:57 1850

原创 Opensearch基本介绍

OpenSearch 是一个社区驱动的开源搜索和分析套件，开发人员使用该套件来摄取、搜索、可视化和分析数据。OpenSearch 由数据存储和搜索引擎 (OpenSearch)、可视化和用户界面 (OpenSearch Dashboards) 以及服务器端数据收集器 (Data Prepper) 组成。用户可以使用一系列增强搜索、分析、可观察性、安全性、机器学习等的插件来扩展 OpenSearch 的功能。OpenSearch 项目于。

2023-06-18 02:42:09 1972

原创 kubernetes operator解析

简而言之，控制器循环是控制器动作的基础。想象一下，有一个非终止过程（在 Kubernetes 中称为协调循环）一遍又一遍地发生，如下图所示：此过程至少观察一个 Kubernetes 对象，其中包含有关所需状态的信息。对象如…ServicesSecretsIngress…由配置文件定义，配置文件由 JSON 或 YAML 中的清单组成。然后控制器根据内置逻辑通过 Kubernetes API 进行持续调整以模仿所需状态，直到当前状态变为所需状态。

2023-06-16 22:56:02 2229 6

原创深入探究kubernetes resources - Part 2

我们了解到 CPU 请求不仅用于调度，而且在整个容器生命周期中占据很大一部分！我们了解了设置正确请求以便为每个容器配置正确数量的 CPU 份额的重要性，以及为什么 QoS 等配置不会真正影响我们的工作负载。记住！CPU 请求配置在容器的整个生命周期内保证有多少 CPU 可用！

2023-06-16 10:09:58 770

原创深入探究kubernetes resources - Part 1

所以要了解的信息很多，而这第一部分只是探究resources的基础知识。

2023-06-16 09:36:24 1176

原创 ubuntu 22.04安装mysql 8.0与避坑指南

MySQL 是一个开源数据库管理系统，可作为流行的 LAMP（Linux、Apache、MySQL、PHP/Python/Perl）堆栈的一部分安装。它实现了关系模型并使用结构化查询语言（ SQL）来管理其数据。本教程将介绍如何在 Ubuntu 22.04 服务器上安装 MySQL 8.0 版。通过完成它，你将拥有一个可用的关系数据库，并且可以使用它来构建您的下一个网站或应用程序。

2023-06-15 19:36:47 10703 2

原创 ubuntu 22.04安装PostgreSQL

关系数据库管理系统是许多网站和应用程序的关键组件。它们提供了一种结构化的方式来存储、组织和访问信息。PostgreSQL 或 Postgres 是一种关系数据库管理系统，它提供 SQL 查询语言的实现。它符合标准并具有许多高级功能，例如可靠的事务处理和没有读锁的并发性。本文档说明了如何在 Ubuntu 22.04 服务器上安装 Postgres。它还为一般数据库管理提供了一些说明。

2023-06-12 20:03:57 4050

原创 Apache Hudi 0.12.2发布

我们的目标是维护 0.12 更长时间，并通过最新的 0.12.x 版本提供稳定版本供用户迁移。此版本 (0.12.2) 是最新的 0.12 版本。

2023-01-11 22:14:54 379 1

原创 k8s hudi表快速测试指南

如果任务名称为basic-example，那么还需要基于上述core-site.xml创建hadoop-config-basic-example configmap。重启rpcbind服务与nfs服务，nfs是一个RPC程序，使用它前，需要映射好端口，通过rpcbind设定。在default namespace使用core-site.xml创建configmap，core-site。/data1/nfs/rootfs——NFS服务器端的目录，用于与nfs客户端共享。sync——资料同步写入内存和硬盘。

2022-12-16 15:03:19 859

原创 Spark SQL操作HUDI表实践

从 0.9.0 开始 hudi 已经支持 hudi 内置的 FileIndex：HoodieFileIndex 来查询 hudi 表，支持分区剪枝和 metatable 查询。这将有助于提高查询性能。它还支持非全局查询路径，这意味着用户可以通过基本路径查询表，而无需在查询路径中指定“*”。有关支持的所有表类型和查询类型的更多信息，请参阅表类型和查询。如果使用location语句指定一个位置，或者使用create external table显式地创建表，那么它就是一个外部表，否则它被认为是一个内部表。

2022-12-16 15:01:58 5213 1

原创深入理解Kafka Producer内部机制

总的来说，Kafka Producer是将数据发送到kafka集群的客户端。

2022-12-09 15:35:03 1025

原创 Kafka基础与核心概念

本文，我们将试图回答什么是apache kafka。kafka是一个分布式流平台或者分布式消息提交日志。

2022-11-28 20:26:54 674

原创解决spark sql读取hudi表出现偶然读不出来问题分析

用beeline连接spark thriftserver或者kyuubi（spark 3.3.0）查询hudi mor表，发现对于同一个spark SQL在同一个beeline session里面不同时间查到的东西都是一样的。除此之外还有个问题就是，在同一个beeline session里面再过一段时间后，由于有些文件被合并了，再查会报以前的log文件找不到的问题。或者设置如下参数，也就是metadata的过期时间，将其设置为hudi clean清理周期以内。

2022-10-28 11:05:09 1398

原创解决hudi hms catalog中flink建表，spark无法写入问题

在hudi 0.12.0版本，flink和spark都可以基于hive metastore进行元数据管理，更多信息可参考：hudi HMS Catalog指南。也就是说基于hudi hms catalog，flink建表之后，flink或者spark都可以写，或者spark建表之后，spark或者flink都可以写。但是目前 hudi 0.12.0版本中存在一个问题，当使用flink hms catalog建hudi表之后，spark sql结合spark hms catalog将hive数据进行批量导入时

2022-10-17 20:39:22 1594

原创如何使用TPC-DS生成测试数据并导入MySQL

测试环境centos7mysql搭建指南可参考：https://lrting.top/backend/2111/安装依赖：yum install gcc make flex bison byacc git下载TPC-DS tools下载地址：https://www.tpc.org/tpc_documents_current_versions/download_programs/tools-download-request5.asp?bm_type=TPC-DS&bm_vers=3.2.

2022-05-20 14:13:34 1089

原创依托于亚马逊云科技的开发者学习体验

前言截止今年（2022年），亚马逊云已经走过了16个年头，并连续十一年被Gartner认可为云计算领导者。在EC2方面从最原始的单一实例到今天支持475+实例类型，而在服务类型方面更是发展并延伸到了各行各业。说起我与亚马逊云科技的渊源，还得从上大学的时候说起，从当年免费体验亚马逊云上的服务资源，到今天在亚马逊云上的持续学习。接下来我将从产品使用、参与创新大会、深入阅读技术资源等方面聊一聊在亚马逊云上的学习历程。从免费试用亚马逊云开始我的上云服务对于一个云上开发者来说，免费套餐是AWS相对于很多其他云厂

2022-05-16 12:25:42 3128

原创 Kyuubi基本安装与使用指南

Apache Kyuubi (Incubating)，一个分布式和多租户网关，用于在 Lakehouse 上提供无服务器 SQL。本文为kyuubi入门文章，介绍了Kyuubi基本安装与使用，并以Spark引擎为例讲述如何提交第一个Spark SQL任务。您还可以阅读文章《Kyuubi 与 Spark ThriftServer 的全面对比分析》了解Kyuubi与Spark ThriftServer的异同点。安装包下载进入如下页面下载kyuubi安装包：https://kyuubi.apa.

2022-05-13 17:10:16 5977

原创 Apache Pinot基本介绍

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。它可以直接从流数据源（例如 Apache Kafka 和 Amazon Kinesis）中摄取，并使事件可用于即时查询。它还可以从 Hadoop HDFS、Amazon S3、Azure ADLS 和 Google Cloud Storage 等批处理数据源中摄取。系统的核心是列式存储，具有多种智能索引和预聚合技术以实现低延迟。这使得 Pinot 最适合面向用户的实时分析。同时，Pinot 也

2022-05-13 17:08:39 1567

原创在Docker中快速测试Apache Pinot批数据导入与查询

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。如果你还不了解Pinot，那么可以先阅读这篇文章《Apache Pinot基本介绍》，本文介绍如何以Docker方式运行Pinot，在Docker中运行Pinot对于了解Docker的新手来说是最简单不过的了。拉取镜像docker pull apachepinot/pinot:latest或者你也可以指定pinot版本docker pull apachepinot/pinot:0.9.3

2022-05-13 17:07:59 466

原创 Apache Thrift基本使用介绍

基本介绍Thrift 是用于点对点 RPC 实现的轻量级、独立于语言的软件堆栈。 Thrift 为数据传输、数据序列化和应用程序级处理提供了清晰的抽象和实现。代码生成系统将简单的定义语言作为输入，并生成跨编程语言的代码，这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使以不同编程语言编写的程序可以轻松共享数据和调用远程过程。 Thrift 支持 28 种编程语言，很有可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。这使

2022-05-13 17:05:01 1020

原创 windows 11系统调试hive metastore 3.1.2源码新姿势

由于工作原因，需要深入了解一下hive metastore相关源码，这几天尝试了在windows中运行hive metastore代码，这边记录一下踩坑的过程以及解决方法。window中编译遇到的问题hive在3.0之后，独立提供hive metastore服务，我们可以直接下载hive standalone metastore相关源码即可，这边以3.1.2版本为例：源码下载：wget https://repo1.maven.org/maven2/org/apache/hive/hive-stand

2022-03-17 12:30:57 3785

原创云原生时代的到来，Hive会被替代吗

Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现，当时 Hadoop 是进行大数据分析的新颖且创新的方式。Hive 所做的是为 Hadoop 实现了一个 SQL 接口。它的架构包括两个主要服务：查询引擎——负责 SQL 语句的执行。一个 Metastore——负责将 HDFS 中的数据集合虚拟化为表。Hadoop 背后的概念是革命性的。庞大的数据集存储在商品硬件集群上的分布式文件系统 (HDFS) 中。计算作业使用 MapReduce 与数据并行

2022-03-15 01:04:12 4094 2

原创 Flink Standalone HA搭建指南

基本环境集群主机IPhost14710.1.0.147host14810.1.0.148host14910.1.0.149配置域名映射vim /etc/hosts10.1.0.147 host14710.1.0.148 host14810.1.0.149 host149下载Flink安装包，将其放到/data目录下，并解压mkdir /data && cd /datawget http://192.168.1.3:11180/d

2022-03-09 01:14:29 2307

原创 ScreenToGif 快速制作gif图的轻量工具

平常在写一些演示文稿的时候会有把某些操作制作成gif图，以加深阅读者的印象。今天和大家介绍一下一个开源gif图制作软件：ScreenToGif。安装ScreenToGif可用于屏幕、摄像头以及画板的录制，并且内置编辑器，可以直接对录制的图像进行编辑。目前，ScreenToGif支持arm64以及x86_64架构的windows操作系统，具体安装方式可见：https://www.screentogif.com/downloads使用在安装完成之后便可以双击使用，以下为默认启动窗口：点击录像机.

2022-03-08 00:08:14 445

原创 rpm快速打包工具 --- rpm-package

rpm包作为redhat、centos系列操作系统的包管理工具，让我们可以轻松通过yum install xxx.rpm命令安装某些软件包。本项目介绍文件打包方法，用于将任意文件按照描述文件的组织方式打包成rpm包。项目地址https://github.com/xiaozhch5/rpm-package如何使用您可以从源码编译该项目或者从release包中下载！源码编译安装编译依赖：jdk8maven3git clone https://github.com/xiaozhch5/rpm

2022-03-03 14:49:12 1872 1

原创快速安装k3s kubernetes集群

K3s 是 Rancher 发布的经过完全认证的 Kubernetes 发行版。K3s 易于使用且更轻量，全部组件都打包在了一个二进制文件里。并且这个二进制文件小于 100 MB。下面介绍在三台centos7服务器上快速搭建k3s kubernetes集群。基础环境主机操作系统IPrancher01centos710.0.2.9rancher02centos710.0.2.78rancher03centos710…2.211安装MySQL 5.7数据

2022-02-26 13:42:14 923 3

原创基于Java实现Avro文件读写功能

Apache Avro是一个数据序列化系统。具有如下基本特性：丰富的数据结构。一种紧凑、快速的二进制数据格式。一个容器文件，用于存储持久数据。远程过程调用 (RPC)。与动态语言的简单集成。代码生成不需要读取或写入数据文件，也不需要使用或实现 RPC 协议。代码生成作为一种可选的优化，只值得为静态类型语言实现。模式（schema）Avro 依赖于模式。读取 Avro 数据时，写入时使用的模式始终存在。这允许在没有每个值开销的情况下写入每个数据，从而使序列化既快速又小。这也便于使用

2022-02-17 23:42:51 1387

原创 2022 1月Github热门项目

新年伊始，有些人慢慢回到工作岗位，而另一些人决定继续在家编码。无论是在您舒适的家中开发 - 还是在随便一家咖啡馆 - 它都没有阻止Github社区发布很棒的开源项目和更新。接下来让我们来看看一月份发布的GitHub精选顶级项目nut.js 2.0项目地址：https://github.com/nut-tree/nut.js我们在 Release Radar 上谈论了很多关于 Node.js 项目的内容，这里有另一个给你。 nut.js 是 Node.js 的桌面自动化框架。它适用于 Windows

2022-02-15 02:10:45 1180

转载字节跳动基于Hudi的数据湖集成实践

本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲，着重分享了字节跳动数据湖技术上的选型思考和探索实践。本文重点分享字节的探索实践，对话框回复数字9可以阅读关于技术选型的思考。文 | Gary Li 字节跳动数据平台开发套件团队高级研发工程师，数据湖开源项目Apache Hudi PMC Member在选择了基于Hudi的数据湖框架后，我们基于字节跳动内部的场景，打造定制化落地方案。我们的目标是通过Hudi来支持所有带U

2022-02-14 23:55:28 1197

转载 Linux 性能全方位调优经验总结

性能优化性能指标高并发和响应快对应着性能优化的两个核心指标：吞吐和延时应用负载角度：直接影响了产品终端的用户体验系统资源角度：资源使用率、饱和度等性能问题的本质就是系统资源已经到达瓶颈，但请求的处理还不够快，无法支撑更多的请求。性能分析实际上就是找出应用或系统的瓶颈，设法去避免或缓解它们。选择指标评估应用程序和系统性能为应用程序和系统设置性能目标进行性能基准测试性能分析定位瓶颈性能监控和告警对于不同的性能问题要选取不同的性能分析工具。下面是常用的L

2022-02-12 14:56:44 1191

原创 docker运行oracle数据库指南

docker启动oracle数据库拉取镜像docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g容器中运行镜像docker run -itd -p 1521:1521 --name oracle11g registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g进入容器，进行基本设置docker exec -it oracle11g bash切换到root用户，新增环境变

2022-02-11 02:15:09 3587 1

原创 Java中实现线程安全的几种方法

我们知道Java有一个特性，多线程，它是一个同时运行多个线程的过程。当多个线程处理相同的数据，并且我们的数据值发生变化时，这种情况不是线程安全的，我们会得到不一致的结果。当一个线程已经在一个对象上工作并阻止另一个线程在同一个对象上工作时，这个过程称为线程安全。在Java中，通过如下方法实现线程安全：使用线程同步使用Volatile关键字使用Atomic变量使用final关键字使用线程同步同步是一次只允许一个线程完成特定任务的过程。意思是当多个线程同时执行，想要同时访问同一个资源时，就

2022-02-10 00:09:20 6973

原创 Java中的多线程基本介绍

在 Java 中，多线程是指同时执行两个或多个线程以最大限度地利用 CPU 的过程。 Java 中的线程是一个轻量级进程，只需要较少的资源即可创建和共享进程资源。多线程和多进程用于 Java 中的多任务处理，但我们更喜欢多线程而不是多进程。这是因为线程使用共享内存区域有助于节省内存，而且线程之间的内容切换比进程快一点。线程的生命周期线程在其生命周期中必须经历五种状态。此生命周期由 JVM（Java 虚拟机）控制。这些状态是：NewRunnableRunningNon-Runnable

2022-02-08 02:15:00 1811 1

原创 Flink与Spark读写parquet文件全解析

Parquet介绍Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件（如 CSV 或 TSV 文件）相比，Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算法，该算法优于嵌套命名空间的简单展平。 Parquet 经过优化，可以批量处理复杂数据，并具有不同的方式来实现高效的

2022-01-26 09:46:37 3218 6

翻译使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖

总览在接下来的文章中，我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖，包括 Red Hat 的 Debezium、Apache Kafka、Kafka Connect、Apache Hive、Apache Spark、Apache Hudi 和 Hudi DeltaStreamer。我们将使用完全托管的 AWS 服务来托管数据源、数据湖和开源工具。这些服务包括 Amazon RDS、MKS、EKS、EMR 和 S3。工作流程如上面的架构图所示，这些是演示工作流.

2022-01-26 01:43:52 1056

原创 Hudi源码分析之使用Flink Table/SQL实现Hudi Sources

在文章Flink Table/SQL自定义Sources和Sinks全解析（附代码）中我们说到在Flink Table/SQL中如何自定义Sources和Sinks，有了上述文章的基础，我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心，通过查阅源码我们可以知道在flink-hudi子模块中，org.apache.hudi.table.HoodieTableFactory类同时实现了DynamicTableSource

2022-01-23 23:31:17 2676

原创 Flink Table/SQL自定义Sources和Sinks全解析（附代码）

动态表是Flink Table和SQL API处理有界和无界数据的核心概念。在Flink中，动态表只是逻辑概念，其本身并不存储数据，而是将表的具体数据存储在外部系统（比如说数据库、键值对存储系统、消息队列）或者文件中。动态源和动态写可以从外部系统读写数据。在下面的描述中，动态源和动态写可以归结为connector。接下来我们来看看如何自定义connector。代码地址：https://git.lrting.top/xiaozhch5/flink-table-sql-connectors.git总览

2022-01-20 16:54:39 4309 8

原创行为设计模式及其在JVM中的应用

在上篇文章中我们说到创建者设计模式。现在我们来看看行为设计模式。这些模式关注我们的对象如何相互交互或者我们如何与它们交互。责任链模式责任链模式允许对象实现一个公共接口，并且每个实现都可以在适当的情况下委托给下一个实现。然后，这允许我们构建一个实现链，其中每个实现在调用链中的下一个元素之前或之后执行一些操作：例如：interface ChainOfResponsibility { void perform();}class LoggingChain { private Ch

2022-01-20 00:34:08 683

空空如也

空空如也