3 YoreYuan

尚未进行身份认证

我要认证

会持续分享大数据等知识,一起交流,共同进步

等级
TA的排名 3w+

Flink Streaming (DataStream API) Event Time

本文主要介绍了Flink DataStream 事件时间(Event Time),其中包含水印(Watermarks)生成、水印策略、水印使用与编写、Kafka 连接器与水印、内置水印生成器等知识点。

2020-10-20 22:25:36

R + RStudio(Server) + Spark/Hive 处理数据集

本文重点介绍了R环境的配置、RStudio Server 的安装,及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能,快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。

2020-08-20 18:34:00

Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成

本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive,其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程,本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例,因此也介绍了在 Windows 系统下如何安装 和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本,从而成功访问带有 Kerberos 认证的 Hive

2020-07-07 19:10:05

基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载

2020-07-07 19:01:17

DataX HdfsReader 源码分析,及空文件 Bug修复和路径正则功能增强

本文主要在源码层面介绍了 DataX hdfsreader 模块,针对实际生产环境中出现的两个问题,一个是当用普通方式在 json 中指定 path 时,改文件夹下存在 空文件时异常;以及当使用正则方式指定 path 时当前仅支持 单字符和多字符,而直接使用字符集或者范围时会报错。针对这两个 Bug 在源码层面上进行了修复。

2020-05-22 21:33:23

DataX Transformer 源码分析及 UDF 扩展与使用

本文重点介绍了阿里的开源异构数据离线同步工具 DataX中的 Transformer 组件的源码分析,及自定义扩展和使用。本文以解密为示例,详细介绍了 DataX Transformer 中的 UDF 的使用和自定义扩展。

2020-05-20 22:00:04

aarch64架构(ARMv8)系统环境下编译 Ambari

本文主要介绍了在 aarch64架构系统(ARM v8)下的 Ambari和 HDP的移植,重点对 Ambari 的编译及中间出现的问题的解决方法,并提供了最终的华为官方的镜像资源包的下载连接。

2020-05-20 19:02:28

LDAP及CDH中服务的权限认证

主要对 LDAP 进行了介绍,重点选择 OpenLDAP进行了说明,重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成(主要以 Hive、Impala、Hue为例)。开启了LDAP 后对服务访问就需要加上用户认证,之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用,重点关注 Impala-shell 如何脚本化执行 sql 文件,最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。

2020-04-19 11:22:58

Kerberos简介、安装及与其它服务的集成和使用

本文主要介绍了 Kerberos 在大数据环境中的搭建和使用,主要以 CDH 平台环境为例。同时又介绍了如何使用 Beeline 将本地SQL 脚本远程提交的Kerberos认证的 Hive中执行,包括批量脚本执行。最后有介绍了 DataX 离线同步数据到 Kerberos 认证的 HDFS时的配置及注意点。

2020-04-01 19:03:43

A guided tour of Kerberos: Tutorial

本教程由 Fulvio Ricciardi 撰写,这篇文章对 Kerberos 要解决的问题、设计目的,以及涉及导的组件术语名词做了尽可能详细的描述,Kerberos 整个请求认证的过程也做了比较详细的描述,对快速入门 Kerberos 是一篇非常棒的指南教程文档。

2020-04-01 09:30:00

Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)

主要对 Apache DolphinScheduler最近的几个版本进行了说明,方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署,包括全新方式的安装方式,和在旧版本 1.1.0 上的升级,以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。

2020-03-10 05:19:35

Beeline 的进阶使用

本文对Beeline做了较为详细的介绍,以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等,中间又介绍了在脚本化或者批量运行脚本时的 后台脚本执行的方式,每一种方式对参数都有详细的说明,并且配有示例。

2020-03-04 21:57:14

HDFS 文件和 Hive 权限问题

本文详细讲解了Linux的文件权限问题,以及重点介绍了 HDFS 的文件权限问题和 Hive的权限问题。

2019-12-14 16:55:34

七牛云对象存储服务——实现Spring Boot多文件(图片)上传接口

本文详细实战讲解了 Spring Boot 多文件上传接口的开发,中间重点介绍了第三方云服务的使用,本次主要以七牛云为例。同时项目又介绍了用户认证、默认的Json替换为fastjson、文件上传中注意的事项等。

2019-12-12 00:30:20

关于 ClickHouse 更新数据的一次尝试

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。

2019-11-21 14:25:19

ClickHouse介绍及安装(含集群方式)和使用

本文比较详细的介绍了 ClickHouse,包括其名字的来由、使用场景、不使用场景、特点,为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍,数据类型。接着详细介绍了ClickHouse 的部署,包括集群方式部署,分布式表的使用,通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。

2019-11-14 14:27:26

Ansible Quickstart

本文主要介绍了Ansible工具,它是一个是python 中的一套模块,系统中的一套自动化工具,只需要使用ssh协议连接及可用来系统管理、自动化执行命令等任务。通过这个工具我们能够实现很多的任务,比如自动化部署,脚本的远程提交执行,远程定时任务的设置,等等。

2019-11-11 14:27:46

工作流任务调度系统:Apache DolphinScheduler

Apache DolphinScheduler(目前处在孵化阶段,原名为EasyScheduler)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述,并详细讲解了其安装,通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加,以及与Azkaban的对比。

2019-10-28 16:21:51

Spark 中DataFrame数据的行转列

本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据,我们可以通过 pivot 算子将其转换为列形式的数据,处理后的数据类型依然为DataFrame,后续我们可以将其注册为临时视图对其做下一步的处理,最终将满足需求的数据按照给定的格式输出。

2019-10-12 13:10:22

Apache Kylin的安装和使用

本文主要快速概要介绍了Apache Kylin是什么,Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式,硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。

2019-10-06 04:23:19

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。