13 wzy0623

尚未进行身份认证

我要认证

20多年的数据库、数据仓库、大数据相关工作。《Hadoop构建数据仓库实践》、《HAWQ数据仓库与数据挖掘实战》、《SQL机器学习库——MADlib技术解析》作者。

等级
TA的排名 872

Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

目录一、使用crontab1. crontab权限2. crontab命令3. crontab文件4. crontab示例5. crontab环境6. 重定向输出二、使用Oozie1. Oozie体系结构2. CDH 6.3.1中的Oozie3. 建立定期装载工作流(1)修改资源配置(2)启动Sqoop的share metastore service(3)连接metastore创建sqoop job(4)定义工作流(5)部署工作流(6)建立

2020-10-16 18:59:50

Kettle构建Hadoop ETL实践(六):数据转换与装载

目录一、数据清洗1. 处理“脏数据”2. 数据清洗原则3. 数据清洗实例(1)身份证号码格式检查(2)去除重复数据(3)建立标准数据对照表二、Hive简介1. Hive的体系结构2. Hive的工作流程3. Hive服务器(1)配置HS2(2)临时目录管理(3)HS2的Web用户界面(Hive2.0.0引入)(4)查看Hive版本4. Hive优化三、初始装载1. 系统初始化2. 装载过渡区3. 装载维度表4. 装载事...

2020-10-13 16:44:25

Kettle构建Hadoop ETL实践(五):数据抽取

目录一、Kettle数据抽取概览1. 文件抽取(1)处理文本文件(2)处理XML文件2. 数据库抽取二、变化数据捕获1. 基于源数据的CDC2. 基于触发器的CDC3. 基于快照的CDC4. 基于日志的CDC三、使用Sqoop抽取数据1. Sqoop简介2. 使用Sqoop抽取数据3. Sqoop优化(1)调整Sqoop命令行参数(2)调整数据库四、小结 本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数...

2020-09-29 14:37:17

Kettle构建Hadoop ETL实践(四):建立ETL示例模型

目录一、业务场景1. 操作型数据源2. 销售订单数据仓库模型设计二、HIVE相关配置1. 选择文件格式2. 选择表类型3. 支持行级更新4. Hive事务支持的限制三、建立数据库表1. 源数据库表2. RDS库表3. TDS库表四、装载日期维度数据五、小节 从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介...

2020-09-04 18:03:37

Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持

目录一、Hadoop相关的步骤与作业项二、连接Hadoop1. 连接Hadoop集群(1)开始前准备(2)配置步骤2. 连接Hive3. 连接Impala4. 建立MySQL数据库连接三、导入导出Hadoop集群数据1. 向HDFS导入数据2. 向Hive导入数据3. 从HDFS抽取数据到MySQL4. 从Hive抽取数据到MySQL四、执行HiveQL语句五、执行MapReduce1. 生成聚合数据集(1)准备文件与目录(2)建立一个

2020-09-01 15:26:57

Kettle构建Hadoop ETL实践(二):安装与配置

目录一、安装1. 安装环境(1)选择操作系统(2)安装规划2. 安装前准备(1)安装Java环境(2)安装GNOME Desktop图形界面(3)安装配置VNC远程控制(4)在客户端安装vncviewer3. 安装运行Kettle(1)下载和解压(2)运行Kettle程序(3)创建Spoon快捷启动方式二、配置1. 配置文件和.kettle目录(1).spoonrc(2)jdbc.properties(3)kettle.properti

2020-08-24 18:18:05

快速安全清理MySQL binlog

一、问题提出 之前写过一篇名为“快速安全删除MySQL大表”的博客,讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到同样的问题。例如,我们每个binlog文件的大小是1G。最初的做法是,每天凌晨2:30执行下面的操作清理10天前binlog:mysql -uroot -p123456 -s /data/3306/mysqldata/mysql.sock -e "purge master logs before date_sub( now( )...

2020-08-21 14:47:32

Kettle构建Hadoop ETL实践(一):ETL与Kettle

目录一、ETL基础1. 数据仓库架构中的ETL2. 数据抽取(1)逻辑抽取(2)物理抽取(3)变化数据捕获3. 数据转换4. 数据装载5. 开发ETL系统的方法二、ETL工具1. ETL工具的产生2. ETL工具的功能(1)连接(2)平台独立(3)数据规模(4)设计灵活性(5)复用性(6)扩展性(7)数据转换(8)测试和调试(9)血统和影响分析(10)日志和审计三、Kettle简介1. Kettle设计原则2

2020-08-13 18:21:32

分布式之数据库和缓存双写一致性方案解析

引言为什么写这篇文章?首先,缓存由于其高并发和高性能的特性,已经在项目中被广泛使用。在读取缓存方面,大家没啥疑问,都是按照下图的流程来进行业务操作。但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存。又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前没有一篇全面的博客,对这几种方案进行解析。于是博主战战兢兢,顶着被大家喷的风险,写了这篇文章。文章结构本文由以下三个部分组成1、讲解缓存更新策略2、对每种策略进行缺点分析3、针对缺点给出改进方案正文先做一

2020-07-30 16:55:10

新书上架,毛遂自荐!

all in one:全面介绍复制、中间件、集群、存储四类各种MySQL高可用技术。 step by step:各种方案安装配置部署的详细步骤。 troubleshooting and test:问题复现、解决与性能对比测试。

2020-07-20 14:49:38

DBeaver连接hive、impala、phoenix、HAWQ、redis

目录一、DBeaver简介二、下载与安装三、连接hive四、连接impala五、连接phoenix六、连接HAWQ七、连接redis 伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库,到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品,再到屡见不鲜的各种大数据组件,如Hive、Impala、HBase、Phoenix、Spark,以及林林总总的时序数...

2020-06-15 11:38:17

Kettle与Hadoop(九)提交Spark作业

实验目的:配置Kettle向Spark集群提交作业。实验环境:Spark History Server:172.16.1.126Spark Gateway:172.16.1.124172.16.1.125172.16.1.126172.16.1.127PDI:172.16.1.105Hadoop版本:CDH 6.3.1Spark版本:2.4.0-cdh6.3.1PDI版本:8.3Kettle连接CDH参见“https://wxy0327.blog.csdn.net/a

2020-06-10 10:29:06

Kettle与Hadoop(八)执行Oozie作业

1. 打开PDI,新建一个作业,如图1所示。图12. 编辑'Oozie job executor'作业项,如图2所示。图2 说明:CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4”。 'Enable Blocking'选项将阻止转换的其...

2020-06-09 10:12:55

Kettle与Hadoop(七)执行Sqoop作业

目录一、Sqoop export二、Sqoop import一、Sqoop export1. 建立一个作业,将HDFS文件导出到MySQL数据库。(1)打开PDI,新建一个作业,如图1所示。图1(2)编辑'Sqoop export'作业项,如图2所示。图2 说明:CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E...

2020-06-08 10:17:55

Kettle与Hadoop(六)执行HiveQL语句

1. 建立hive表,导入原始数据,过程参考https://blog.csdn.net/wzy0623/article/details/106471124#2.%20%E5%90%91Hive%E5%AF%BC%E5%85%A5%E6%95%B0%E6%8D%AE。2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表。(1)打开PDI,新建一个作业,如图1所示。图1(2)编辑'SQL'作业项,如图2所示。图2 说明:hive_cdh631是已经建好...

2020-06-04 10:20:05

Kettle与Hadoop(五)执行MapReduce

目录一、示例1——格式化原始web日志1. 准备文件与目录2. 建立一个用于Mapper的转换3. 建立一个调用MapReduce步骤的作业,使用mapper转换,仅运行map作业。4. 执行作业并验证输出二、示例2——生成聚合数据集1. 准备文件与目录2. 建立一个用于Mapper的转换3. 建立一个用于Reducer的转换4. 建立一个调用MapReduce步骤的作业,调用mapper和reducer转换。5. 执行作业并验证输出参考:一、示例1——格

2020-06-02 15:16:14

Kettle与Hadoop(四)导入导出Hadoop集群数据

目录一、向Hadoop集群导入数据(Hadoop copy files)1. 向HDFS导入数据2. 向Hive导入数据二、从Hadoop集群抽取数据1. 把数据从HDFS抽取到RDBMS2. 把数据从Hive抽取到RDBMS参考:一、向Hadoop集群导入数据(Hadoop copy files)1. 向HDFS导入数据从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。http://wi

2020-06-01 14:14:59

Kettle与Hadoop(三)连接Hadoop

目录一、环境说明二、连接Hadoop集群三、连接Hive四、连接Impala五、后续(建立MySQL数据库连接) Kettle可以与Hadoop协同工作。让我们从简单的开始,本文介绍如何配置Kettle访问Hadoop集群(HDFS、MapReduce、Zookeeper、Oozie等),以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。一、环境说明1. Hadoop 已经安装好4个节点的CDH 6.3.1,IP地...

2020-05-28 16:04:06

Kettle与Hadoop(二)Kettle安装配置

目录一、安装Java二、安装Kettle三、运行Kettle程序1. 安装Linux图形环境2. 安装配置VNC Server3. 在客户端使用vncviewer连接系统4. 执行spoon.sh四、给Spoon创建一个桌面快捷启动方式五、配置1. 配置文件和.kettle目录(1).spoonrc(2)jdbc.properties(3)kettle.properties(4)kettle.pwd(5)repositories.xml(6)s

2020-05-28 10:36:06

Kettle与Hadoop(一)Kettle简介

目录一、Kettle设计原则二、转换1. 步骤2. 转换的跳3. 并行4. 数据行5. 数据转换(1)Date和String的转换(2)Numeric和String的转换(3)其它转换三、作业1. 作业项2. 作业跳3. 多路径和回溯4. 并行执行5. 作业项结果四、转换或作业的元数据五、数据库连接1. 一般选项2. 特殊选项3. 关系数据库的力量4. 连接和事务5. 数据库集群六、工具七、资源库八、虚拟

2020-05-26 14:59:08

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力计划专属勋章
    原力计划专属勋章
    2019年《原力计划【第一季】》专属勋章,现已经开启第二季活动啦,小伙伴们快去参加吧