自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 资源 (6)
  • 收藏
  • 关注

翻译 湖仓存储系统的分析和比较

在该论文中,我们分析了三种最受欢迎的湖仓存储系统的设计——Delta Lake、Hudi、Iceberg,并基于这些设计比较了它们在不同维度之间的性能和特点

2023-10-09 09:50:09 331

原创 Kafka安全(以SASL+ACL为例)

Kafka 引入的新认证机制,主要是为了实现与 OAuth2 框架的集成,Kafka 不提倡单纯使用 OAUTHBEARER,因为它生成的不安全 Json Web Token,必须配以 SSL 加密才能在生产环境中使用。主要是为 Kerberos 使用,如果当前已有 Kerberos 认证,只需要为集群中每个 Broker 和访问用户申请 Principle ,然后在 Kafka 配置文件中开启 Kerberos 的支持即可。ZK服务地址可以使用Kafka自带的,也可以使用已部署在的ZK。

2023-03-15 14:59:50 1379 1

原创 Apache Kudu 从源码开始构建并部署 Kudu 集群

主要介绍了Apache Kudu 最新版 1.15.0 版本的编译及部署。为了对整个部署有一个更加明确的过程,前面又对 Kudu 进行了简要的介绍。编译中需要注意的事项,部署中的配置等,以及部署完成后,对集群的读写进行测试校验。最后是整理的一个常用命令。

2022-04-10 23:03:29 3114

原创 HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例,包含 升级及HBCK2 介绍和使用)

HBase 作为 HBase 生态圈重要的组建,在海量数据分析中占有重要的位置。随着 HBase 版本迭代,生产环境的 HBase 难免会面对升级的需求,升级的原因,要么是需要用到新版本的特性,要么是当前的版本存在不得不升级的缺陷,等。本文以 HDP 环境为例,详细介绍了 HBase 的编译及 rpm 包的生产过程,来对生产环境中的 HBase 进行升级。其中介绍 RPM 的基础知识,同时也介绍了两种生成 RPM 包的方式

2022-04-10 23:00:06 3265 1

原创 手动安装Hive 3(以 hdp 为例,适用于 CentOS 8)

本文详细讲述了 Hive 3 的安装过程(包括 Hadoop、ZooKeeper、Tez、Hive),使用 Tez 引擎,基于 HDP 版展开,使用于 CentOS7 和 CentOS8 系统,同时 针对于生产环境重点介绍了重要配置项的推荐值。最后有给出了方便使用的测试,以及 Hive SQL 的小实例。

2021-10-07 06:40:46 1787

翻译 In Search of an Understandable Consensus Algorithm(寻找可理解的共识算法)

Raft 是一种用于管理复制日志的共识算法,它产生的结果等价于(multi-)Paxos,与 Paxos 一样高效但它的结构与Paxos不同; 这使得 Raft 比 Paxos 更易于理解,也为构建实际系统提供了更好的基础。为了增强可理解性,Raft 将共识的关键要素(例如 leader 选举、日志复制和安全性)分离,并强制执行更强的一致性以减少必须考虑的状态数量。用户研究的结果表明 Raft 比 Paxos 更容易让学生学习。Raft 还包括一种用于更改集群成员的新机制,该机制使用重叠多数票(overla

2021-09-21 20:13:56 2057

原创 一个大数据环境下表结构统一导出的工具

本文介绍了一个可以统一导出大数据环境中的多种数据库的表,详细介绍了打包和使用,包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。

2021-09-21 20:10:10 924

原创 Apache Doris 的一场编译之旅

本文主要针对 Apache Doris 的编译进行了详细介绍,包括了通过 Docker 开发环境和直接编译两种方式,其中直接编译部分包括编译前对环境的要求,及重要编译环境的安装设置,以及编译过程中出现的问题给出了解决方法供参考,最后为了方便大家编译,又提供了下载连接

2021-02-05 17:24:18 2018 5

翻译 HDP 之 Timeline Service 2.0

本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容

2021-01-17 06:06:15 3542 2

原创 Windows/Mac系统Docker方式安装Mysql(包含对中文字符集 utf8 的支持)

主要介绍了Docker在常用的桌面操作系统下的安装,主要是Mac系统和Window10系统,并且介绍了安装中的注意事项,以及出现的问题的解决方法。Docker安装完毕后,为了加速镜像的下载,又介绍了Docker如何配置阿里云镜像。最后我们又在安装好的Docker快速启动MySQL,并针对使用存在的 编码乱码问题进行解决,重新编写 Dockerfile,生成支持 utf8 的 mysql 镜像,并成功解决问题。

2020-12-25 17:02:38 3846

翻译 The Pathologies of Big Data(大数据病理)

本文详细描述了大数据的产生原因,为了找到大数据产生的原因,论文前部分通过一份伪数据分析了传统情况下处理数据出现的问题,接着有分析了计算机的硬件,通过磁盘、SSD、内存的顺序读写和随机读写的对比,找到了处理解决大数据问题的规则,接着这个规则对面对的问题给出了解决方法,最终为大数据下定了一个定义。

2020-10-31 10:04:38 1742

翻译 Flink Streaming (DataStream API) Event Time

本文主要介绍了Flink DataStream 事件时间(Event Time),其中包含水印(Watermarks)生成、水印策略、水印使用与编写、Kafka 连接器与水印、内置水印生成器等知识点。

2020-10-20 22:25:36 349

原创 R + RStudio(Server) + Spark/Hive 处理数据集

本文重点介绍了R环境的配置、RStudio Server 的安装,及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能,快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。

2020-08-20 18:34:00 1053

原创 Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成

本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive,其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程,本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例,因此也介绍了在 Windows 系统下如何安装 和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本,从而成功访问带有 Kerberos 认证的 Hive

2020-07-07 19:10:05 5696 13

原创 基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载

2020-07-07 19:01:17 23617 5

原创 DataX HdfsReader 源码分析,及空文件 Bug修复和路径正则功能增强

本文主要在源码层面介绍了 DataX hdfsreader 模块,针对实际生产环境中出现的两个问题,一个是当用普通方式在 json 中指定 path 时,改文件夹下存在 空文件时异常;以及当使用正则方式指定 path 时当前仅支持 单字符和多字符,而直接使用字符集或者范围时会报错。针对这两个 Bug 在源码层面上进行了修复。

2020-05-22 21:33:23 2839 3

原创 DataX Transformer从入口到加载的源码分析及UDF扩展与使用

本文重点介绍了阿里的开源异构数据离线同步工具 DataX中的 Transformer 组件的源码分析,及自定义扩展和使用,其中为了更好的使用 Transformer UDF 又对这部分的源码从入口到加载的整个过程进行分析。本文以解密为示例,详细介绍了 DataX Transformer 中的 UDF 的使用和自定义扩展。

2020-05-20 22:00:04 3006 1

原创 aarch64架构(ARMv8)系统环境下编译 Ambari

本文主要介绍了在 aarch64架构系统(ARM v8)下的 Ambari和 HDP的移植,重点对 Ambari 的编译及中间出现的问题的解决方法,并提供了最终的华为官方的镜像资源包的下载连接。

2020-05-20 19:02:28 7813 22

原创 LDAP及CDH中服务的权限认证

主要对 LDAP 进行了介绍,重点选择 OpenLDAP进行了说明,重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成(主要以 Hive、Impala、Hue为例)。开启了LDAP 后对服务访问就需要加上用户认证,之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用,重点关注 Impala-shell 如何脚本化执行 sql 文件,最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。

2020-04-19 11:22:58 4051

原创 Kerberos简介、安装及与其它服务的集成和使用

本文主要介绍了 Kerberos 在大数据环境中的搭建和使用,主要以 CDH 平台环境为例。同时又介绍了如何使用 Beeline 将本地SQL 脚本远程提交的Kerberos认证的 Hive中执行,包括批量脚本执行。最后有介绍了 DataX 离线同步数据到 Kerberos 认证的 HDFS时的配置及注意点。

2020-04-01 19:03:43 2468

翻译 A guided tour of Kerberos: Tutorial

本教程由 Fulvio Ricciardi 撰写,这篇文章对 Kerberos 要解决的问题、设计目的,以及涉及导的组件术语名词做了尽可能详细的描述,Kerberos 整个请求认证的过程也做了比较详细的描述,对快速入门 Kerberos 是一篇非常棒的指南教程文档。

2020-04-01 09:30:00 442

原创 Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)

主要对 Apache DolphinScheduler最近的几个版本进行了说明,方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署,包括全新方式的安装方式,和在旧版本 1.1.0 上的升级,以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。

2020-03-10 05:19:35 3959 4

原创 Beeline 的进阶使用

本文对Beeline做了较为详细的介绍,以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等,中间又介绍了在脚本化或者批量运行脚本时的 后台脚本执行的方式,每一种方式对参数都有详细的说明,并且配有示例。

2020-03-04 21:57:14 5743 2

原创 HDFS 文件和 Hive 权限问题

本文详细讲解了Linux的文件权限问题,以及重点介绍了 HDFS 的文件权限问题和 Hive的权限问题。

2019-12-14 16:55:34 5195 1

原创 七牛云对象存储服务——实现Spring Boot多文件(图片)上传接口

本文详细实战讲解了 Spring Boot 多文件上传接口的开发,中间重点介绍了第三方云服务的使用,本次主要以七牛云为例。同时项目又介绍了用户认证、默认的Json替换为fastjson、文件上传中注意的事项等。

2019-12-12 00:30:20 1286

原创 ClickHouse 数据的更新(Mutation)

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。

2019-11-21 14:25:19 21417 1

原创 ClickHouse介绍及安装(含集群方式)和使用

本文比较详细的介绍了 ClickHouse,包括其名字的来由、使用场景、不使用场景、特点,为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍,数据类型。接着详细介绍了ClickHouse 的部署,包括集群方式部署,分布式表的使用,通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。

2019-11-15 20:06:41 8965 12

原创 Ansible Quickstart

本文主要介绍了Ansible工具,它是一个是python 中的一套模块,系统中的一套自动化工具,只需要使用ssh协议连接及可用来系统管理、自动化执行命令等任务。通过这个工具我们能够实现很多的任务,比如自动化部署,脚本的远程提交执行,远程定时任务的设置,等等。

2019-11-11 15:00:01 536

原创 工作流任务调度系统:Apache DolphinScheduler

Apache DolphinScheduler(目前处在孵化阶段,原名为EasyScheduler)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述,并详细讲解了其安装,通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加,以及与Azkaban的对比。

2019-11-02 14:59:51 71576 62

原创 Spark 中数据转换及DataFrame数据的行转列

本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据,我们可以通过 pivot 算子将其转换为列形式的数据,处理后的数据类型依然为DataFrame,后续我们可以将其注册为临时视图对其做下一步的处理,最终将满足需求的数据按照给定的格式输出。

2019-10-12 15:54:09 5061

原创 Apache Kylin的安装和使用

本文主要快速概要介绍了Apache Kylin是什么,Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式,硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。

2019-10-07 07:20:27 2896

翻译 The Part-Time Parliament

本文主要翻译自1998年Lamport发表的论文The Part-Time Parliament,这篇论文其实是作者早在8年前提出了,也就是分布式系统中的数据一致性的一种全新的算法—Paxos算法。非常值得阅读的一篇论文

2019-09-23 13:50:09 793

原创 大数据环境中的系统磁盘的常见问题

本文主要针对CentOS7系统挂载点空间不够的情况下,如何对其进行扩容。将新添加的磁盘的容量通过创建多个主分区,然后添加的对应的卷组,进而扩展逻辑分区大小,从而解决空间使用率过高的警报问题。

2019-09-20 23:33:18 2283

原创 CarbonData部署和使用

本文主要介绍了华为开源的一个新型的大数据列式存储格式CarbonData。简要描述了CarbonData的特性。有介绍了CarbonData的安装以及和Spark的集成,最后在spark-shell中通过编程执行SQL,测试了CREATE、LOAD、SELECT、INSERT、UPDATE、DELETE

2019-08-30 18:35:10 4690 5

原创 DataX离线数据同步

本文主要介绍了常用的数据同步方案和使用的工具或平台,重点介绍了DataX,介绍了DataX的诸多便利之处,以及架构和DataX的调度流程。然后又介绍了DataX的各个数据源之间的离线数据同步,包括ODPS到HDFS、HDFS到HDFS、MongoDB到HDFS,以及CDH版本Impala支持的文件格式和DataX支持的格式差别,最后是MongoDB同步时带密码认证失败时的临时解决方案。最后针对于带有 Kerberos 认证的域外数据同步,讲解了配置及注意点。

2019-08-26 19:15:07 2262

原创 Azkaban的安装和使用

Azkaban是一个开源的工作流管理器,本文主要介绍了Azkaban的编译以及问题解决,Azkaban多Executor的安装和执行,中间包括MySQL数据库初始化设置、Executor服务端配置、Web端配置和用户权限配置等,最后执行一个小的测试项目查看Azkaban是否正常在执行服务端被调度执行。最终的是介绍了使用Azkaban指定节点的任务调度的几种方案:通过Azkaban指定、通过Expect脚本或shell方式指定、通过Ansible。

2019-08-22 16:04:21 2223

翻译 Hive 架构

对Hive的官方文档中的Hive的架构部分的文档进行了翻译,其中包含了对Hive的架构的介绍,Hive的数据模型、元数据、使用元数据的Motivation,元数据对象、元数据架构、元数据接口、Hive查询语言、编译器、优化器、Hive APIs都有涉及。其中优化器部分的连接可以点开进行查阅,可以加深理解Hive SQL在优化方面所做的工作

2019-08-09 15:37:38 1624

原创 Elasticsearch 6.x安及其Kibana和head插件安装

本次主要围绕Elasticsearch安装展开,包含安装常遇到的问题,比如ES登陆用户的用户名和密码设置、ES中文分词器、head插件在设置了ES密码之后如何能够继续正常使用、head插件经常自动挂了的解决、Kibana和ES的集成和安装,Kibana 白银License认证、ES开启TLS等。

2019-08-04 17:14:46 978 10

原创 从源码编译Apache Flink快速部署和测试(包含指定Hadoop及Cloudera Hadoop、Flink on YARN、Blink)

如果是Standalone Cluster模式运行可以不依赖于Hadoop,直接下载对应版本即可。如果有时需要基于YARN来提交运行,则需要选择对应Hadoop版本的Flink安装部署。访问官网的下载页面Flink Downloads,可以看到如果是Flink 1.8版本与捆绑的Hadoop版本有Hadoop 2.4.1、Hadoop 2.6.5、Hadoop 2.7.5、Hadoop 2.8.3...

2019-07-29 23:39:24 5524 12

原创 Apache Druid (incubating) 安装及使用

主要对Druid进行了简要的介绍,包括概念和架构,以及常见的问题。接着以Single-service的方式自定义配置进行了部署和安装,以及对安装的后的Druid的简要使用

2019-07-22 05:28:29 6619 7

hbase-meta-repair-hbase-2.0.2.jar

HBase 元数据修复工具包。 ①修改 jar 包中的application.properties,重点是 zookeeper.address、zookeeper.nodeParent、hdfs.root.dir配置项,hdfs 最好写 ip; ②将core-site.xml、hdfs-site.xml添加到BOOT-INF/classes 下; ③开始修复 `java -jar -Drepair.tableName=表名 hbase-meta-repair-hbase-2.0.2.jar`

2020-12-16

orc-tools-1.7.0-SNAPSHOT-uber.jar

基于 Apache ORC 最新分支1.7源码编译的 orc-tools-1.7.0-SNAPSHOT-uber.jar,主要为 ORC 的 一个 Java 工具包,工具使用文档可以看到官方文档https://orc.apache.org/docs/java-tools.html,支持 meta、data、scan、convert、json-schema命令。

2020-11-06

The Part-Time Parliament.zip

资料中包含了论文的英文原文、论文的中文翻译——经过我的校验和重新翻译(pdf版和docx版)。该论文主要是Leslie Lamport在1998年发表的一篇论文The Part-Time Parliament,在这篇论文Lamport介绍了一种全新的数据一致性算法——Paxos算法,是研究计算机科学非常值得读的一篇论文,尤其是大数据中的分布式数据一致性的问题。

2019-09-23

x-pack-core-6.8.0-SNAPSHOT.jar

基于Elasticsearch 6.8.0源码编译而得,主要修改了其中的org.elasticsearch.license.LicenseVerifier.java类和org.elasticsearch.xpack.core.XPackBuild.java类,对x-pack/plugin/core模块代码重新编译而成,可适用于es 6.8.x版本,其它版本未验证。使用时直接替换es安装文件夹下的 modules/x-pack-core/x-pack-core-6.8.x.jar包即可

2019-08-04

Ganglia系统监控的安装

详细介绍了在Centos环境下安装系统监控软件Ganglia,本资源共共10页,带目录

2018-06-29

tomcat-redis-session-manager的jar包-包含Tomcat7和Tomcat8

基于tomcat-redis-session-manager源码进行的编译生成的jar包,压缩包中包含Tomcat7和Tomcat8打好的jar包。

2018-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除