自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

itxiaoshen博客

虽然不能成为技术大神,但也要与时俱进保持对于IT新技术的学习追求,一点点积累和自我总结,即使再小的帆也能远航

  • 博客(132)
  • 收藏
  • 关注

原创 新一代开源流数据湖平台Apache Paimon入门实操-下

上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。

2023-08-07 18:22:39 834

原创 新一代开源流数据湖平台Apache Paimon入门实操-上

本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用

2023-08-03 18:18:24 1748

原创 国产开源流批统一的数据同步工具Chunjun入门实战

前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。

2023-07-04 23:35:27 1547

原创 一文解开主流开源变更数据捕获技术之Flink CDC的入门使用

相比前面介绍maxwell,实时数据采集中最主流技术非Flink CDC莫属,其直接省去中间的消息中间件如kafka,且支持增量采集也支持全量采集;本篇先介绍CDC的技术和分类,进一步了解其特性和支持丰富数据源,最后通过FLink DataStream和SQL两种编程示例解开入门。

2023-06-27 23:39:51 1049

原创 云原生时代崛起的编程语言Go远程调用gRPC实战

云原生时代分布式和微服务RPC是一项常见技术,本篇先了解grpc基本定义和特点,搭建gRPC Go开发环境,并了解proto文件基本使用和gRPC go语言代码生成,然后通过Go语言代码示例从使用场景演示一元RPC、服务器流式RPC(文件上传)、客户端流式RPC(文件下载)、双向流式RPC(聊天),从而具备gRPC 开发的入门理解。

2023-06-14 23:04:23 1304

原创 云原生时代Go最受欢迎Web开源框架Gin原理与实战

在Go的Web开发世界中,Gin以其简单、高性能一举成为使用最广泛的框架;本篇先了解定位和特性,然后在进行常见使用功能如参数获取和绑定、路由组、中间件、静态资源使用、内容渲染、Cookie和Session等多个代码示例演示,最后通过分析源码中的核心流程和数据结构加深对其整体理解。

2023-06-08 22:47:42 1152

原创 数据治理核心保障数据质量监控开源项目Apache Griffin分享

数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其提供UI管理页面实操一个批处理的数据质量监控示例。

2023-06-01 22:57:46 2305 8

原创 盘点数据仓库建设需要知道的那些事

数据管理知识体系之数据仓库为企业数据中台的关键部分,本篇先从数据建设规范入手,接着介绍数仓分层、主题域划分原则,表处理规范和命名规范,最后分析指标定义、指标构成和指标分类

2023-05-17 23:31:24 576

原创 Go开源世界主流成熟ORM框架gorm实践分享

在GoLang世界中有很多优秀的ORM库,今天就介绍主流之一的GORM三方库,了解其核心功能,然后从其支撑数据类型模型和约定开始巩固其基础,接着以安装gorm库及其mysql驱动为基础编写常见CRUD代码示例,进入了解其事务、转换、分片等知识,最后演示其Json序列化示例。

2023-05-13 00:54:26 533

原创 数据治理之关键环节元数据管理开源项目datahub探索

元数据管理在数据治理中非常关键的部分,本篇分享一个现代化元数据管理开源项目datahub,了解其核心功能和概念,进一步理解器其架构和组件,然后从0到1的搭建和使用官方的数据样例演示,最后通过摄取MySQL和ClickHouse的示例打开其探索之门。

2023-05-11 23:42:18 2802 1

原创 云原生时代崛起的编程语言Go常用标准库实战

通过前两篇文章对Go编程的理解,本篇从重点实战使用角度介绍Go常见基础标准库的使用,较大部分业务场景直接使用标准库提供的丰富功能就可实现快速开发,结合精简代码示例演示了字符串、IO、编码、网络、数据库、单元测试等十几个标准包的使用。

2023-05-05 22:28:16 885 2

原创 云原生时代崛起的编程语言Go并发编程实战

Go语言是天然并发利器,通过通信来实现内存共享而不是通过共享内存来通信,本篇从了解Go的并发哲学、理论及并发原语开始,之后用一个个Go代码示例认识Go的协程、通道、定时器、互斥锁、池化、原生操作等十几个并发编程示例,进一步加深对其并发编程使用场景理解和原理的初步认识。

2023-05-04 23:36:48 656

原创 云原生时代崛起的编程语言Go基础实战

Go语言由于来自全球技术大厂谷歌创造及推动,其生态发展极其迅速,有可能成为未来十年内最有统治力的开发语言。本篇主要介绍Go目前发力的使用场景、开发环境、基础命令、命名规范,进一步了解其原生标准库的强大,最后通过多个Go代码示例演示了基础语法的使用,从而具备初级编程能力。

2023-04-29 01:10:06 981 3

原创 下一代大数据分布式存储技术Apache Ozone初步研究

如果还在为HDFS上存储海量的小文件而烦恼,不烦多留意号称下一代分布式存储技术Apache Ozone,其诞生初衷就是解决HDFS面临棘手问题,本篇从了解其特性和总体架构,基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群,最后通过命令行接口和兼容hadoop命令Ofs操作卷、桶、键、存储读写文件数据。

2023-04-25 21:38:50 1815 1

原创 一个基于Java线程池管理的开源框架Hippo4j实践

如果还在为线程池而烦恼,不烦试试这个开源的线程池管理框架Hippo4j;先了解其功能和总体架构,然后分别使用docker和二进制安装hippo4j-server,接着对其支持两种运行模式hippo4j-server和以Nacos为示例hippo4j-config进行代码示例和实践,并以RocketMQ为示例体验了三方框架的线程池适配功能。

2023-04-17 21:35:39 1026

原创 实时分布式低延迟OLAP数据库Apache Pinot探索实操

一个适合工业物联网实时采集传感器数据实时分析工业设备的数据实现更好的预测性感知的分布式NoSQL数据库Apache Pinot,先了解其特性和使用场景,然后通过Local和Docker两种方式部署Apache Pinot和验证环境,最后通过实操其批和流式导入数据和利用其控制台端点查询数据。

2023-04-15 00:52:37 413

原创 基于列存储的开源分布式NoSQL数据库Apache Cassandra入门分享

通过Hbase与Cassandra对比,层次展开了解Apache Cassandra特性和使用场景,通过部署但实力和多实例集群进一步理解其运作,最后通过CQL及其客户端命令工具理解其数据模型和数据类型,通过对键空间、表、索引、数据操作熟悉常见CQL语法和使用。

2023-03-29 23:27:31 763

原创 云原生K8S精选的分布式可靠的键值存储etcd原理和实践

今天再下一个Go语言编写分布式键值存储的云原生组件ectd,了解其定义理、应用场景和特性,熟悉其整体架构和常用术语,进一步研究其读写和日志复制的原理,最后完整部署单示例和多实例集群和介绍一些常见命令。

2023-03-22 23:33:42 247

原创 云原生API网关全生命周期管理Apache APISIX探究实操

了解传统Nginx网关和基于Open Resty的Kong网关的痛点,抛出本篇主角一个云原生网关Apache APISIX,先了解其定义、特性、架构,并进一步理解其使用场景,再通过三种安装方式一步步部署和验证,也涉及到对部分Admin API的使用,最后通过apisix-dashboard可视化页面配置路由示例、整合Nacos服务发现示例和开启skywalking插件实现链路追踪示例。

2023-03-16 22:35:56 1627

原创 云原生时代顶流消息中间件Apache Pulsar部署实操之Pulsar IO与Pulsar SQL

本篇重点了解Pulsar IO的基础,通过两个示例演示如何一步步实操安装Cassandra和JDBC PostgreSQL的年连接器,进而配置和创建Pulsar Sink 并验证结果,也进一步熟悉一些常见pulsar-admin命令,最后还演示Pulsar SQL简单使用。

2023-03-08 18:08:43 1098 5

原创 云原生时代顶流消息中间件Apache Pulsar部署实操之轻量级计算框架

本篇逐层递进了解Pulsar Functions的基本概念和理论,如工作原理、处理保证模式、窗口函数;进一步搭建Pulsar函数运行环境,一步步操作演示函数也包括窗口函数的示例使用,最后通过Java语言实现原生语言接口和Pulsar函数SDK两种方式的代码示例、打包、部署和结果验证

2023-03-07 18:09:05 779

原创 云原生时代顶流消息中间件Apache Pulsar部署实操-上

本篇先部署Apache Pulsar 最新版本2.11.0的 Locally Standalone,并通过创建Topic、生产消息和消费消息验证基础环境;接着通过二进制也即是所谓裸机部署方式一步步演示如何部署Pulsar的分布式集群,并通过Admin客户端验证基于租户、命名空间一些消息管理和使用简单功能。最后介绍Pulsar 层级存储的工作原理和使用场景,如何使用待续...

2023-02-14 12:30:36 975

原创 开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下

先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。

2023-02-11 00:10:20 1285 2

原创 开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上

再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、创建Cube、Cube的构建,全面认识kylin预计算查询的性能。

2023-02-09 23:40:34 1532

原创 大数据实时多维OLAP分析数据库Apache Druid入门分享-下

了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式

2023-02-01 23:38:17 659

原创 大数据实时多维OLAP分析数据库Apache Druid入门分享-上

Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式。

2023-01-31 23:13:57 668

原创 比Sqoop功能更加强大开源数据同步工具DataX实战

前面两篇连续介绍两个数据同步组件后,好事应有三,大满贯收场,本篇介绍主流的异构数据源离线同步工具DataX的框架设计和执行流程,将其与大名鼎鼎大数据同步组件Sqoop做对比,部署安装并通过配置基于MySQL和HDFS互为读写的实例场景和关键配置说明。

2022-12-23 21:49:30 2002

原创 实时采集MySQL数据之轻量工具Maxwell实操

一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell,功能强于Canal,比Flink CDC更易用。本篇先了解其定义和原理,然后通过安装和环境准备,了解其启动的两种方式,最后实操演示几个maxwell在企业中常用的场景示例。

2022-12-19 23:14:09 1796

原创 可视化编排的数据集成和分发开源框架Nifi轻松入门-上

如何你正在为数据采集做技术选型,今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴,是数仓开发的强大工具之一,只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构,也支持分布式集群,了解常见处理器分类,最后通过源码安装并使用两个简单的处理器演示一个基础入门示例

2022-12-14 00:00:36 1563

原创 秒级查询之开源分布式SQL查询引擎Presto实操-上

大数据交互式查询是每个数据分析人员不可或缺的需求,本篇以业界交互式查询的经典之作Presto为研究对象,了解其架构和优缺点及丰富连接器。并通过安装一个协调节点和3个worker节点的分布式集群,使用命令行界面演示hive连接器的查询数据表的示例,最后了解其使用的要点。

2022-12-08 22:45:26 1252

原创 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续

Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。

2022-12-03 00:27:56 1037

原创 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节贡献的Bucket索引和Hudi Catalog。

2022-11-28 23:28:45 716

原创 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠定基础。

2022-11-23 22:35:09 1261

原创 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上

湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。

2022-11-15 18:56:00 818

原创 成熟企业级开源监控解决方案Zabbix6.2关键功能实战-下

通过上一篇对Zabbix基础和原理有一定理解,本篇则着重从多个实战示例一步步演示如何使用,可直接用于生产环境使用,内容覆盖源码安装、Zabbix Agent2部署、分布式架构Zabbix Proxy的使用、自定义监控、触发器、图形、模板、snmp监控、自动发现、主动注册、JMX监控等完整示例。

2022-11-10 22:57:00 745

原创 成熟企业级开源监控解决方案Zabbix6.2关键功能实战-上

前面研究过最主流的容器化监控Prometheus,今天再来聊聊善于监控网络、物理机、虚拟机等的老牌成熟开源监控方案Zabbix(6.2)及其总体架构,并与小米开源Open-falcon做对比分析;企业如何正确选择其版本,最后快速部署Zabbix并实现一个Agent主机的入门示例。

2022-11-05 22:08:27 983

原创 鹅厂微服务发现与治理巨作PolarisMesh实践-上

Java技术栈伙伴已深知SpringCloud Alibaba微服务一站式解决方案,今天力推腾讯强势开源微服务治理框架PolarisMesh,与前者Alibaba一样也支持SpringCloud Tencent框架整合,开篇先从亮点和性能上对比其他微服务治理框架,初步了解架构原理概况,并通过二进制安装Polaris集群,最后通过一个SpringCloud Tencent整合demo演示了服务的注册和发现、配置中心动态配置。

2022-10-28 23:36:00 1034 2

原创 即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

如果你还在头疼数据分析多组件、多集群跨域等问题,推荐研究下华为开源的openlookeng,能够解决企业在面向大数据应用面临的用数难、找数难、取数难的痛点,本篇从openlookeng背景和架构开始,理解其关键技术和应用场景,最后通过安装openlookeng的集群,利用命令行接口验证MySQL和ClickHouse两种连接器的配置。

2022-10-26 00:43:07 800

原创 不妨试试更快更小更灵活Java开发框架Solon

SpringBoot启动速度慢、打包体积大、内存要求高等不适合某些轻量级高并发的业务场景,在云原生百家争鸣的时代,解决上述问题国人开源Solon框架为Java轻量开发框架,官网全中文文档学习成本低。本篇从Solon简介开始,对比官网提供各项性能数据,通过官网提供文档和诸多开发示例代码动手实操演示的Solon Web、Solon Myabtis-Plus、Solon WebSocket、Solon Remoting RPC、Solon Cloud Nacos代码使用和效果展示。

2022-10-21 23:15:16 3373 1

原创 Java云原生崛起微服务框架Quarkus入门实践

不用再担心SpringBoot启动慢和内存占用大的困惑了,为K8S云原生Quarkus轻松实现快、省、灵活的特性,本篇了解Quarkus优势和性能,并从quarkus工程创建开始,实现简单编码、普通jar打包、打包二进制文件和可跨平台直接运行二进制文件,并制作成docker镜像运行验证。

2022-10-18 23:31:07 1004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除