13 wzy0623

尚未进行身份认证

我要认证

20多年的数据库、数据仓库、大数据相关工作。《Hadoop构建数据仓库实践》、《HAWQ数据仓库与数据挖掘实战》、《SQL机器学习库——MADlib技术解析》作者。

等级
TA的排名 868

DBeaver连接hive、impala、phoenix、HAWQ、redis

目录一、DBeaver简介二、下载与安装三、连接hive四、连接impala五、连接phoenix六、连接HAWQ七、连接redis 伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库,到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品,再到屡见不鲜的各种大数据组件,如Hive、Impala、HBase、Phoenix、Spark,以及林林总总的时序数...

2020-06-15 11:38:17

Kettle与Hadoop(九)提交Spark作业

实验目的:配置Kettle向Spark集群提交作业。实验环境:Spark History Server:172.16.1.126Spark Gateway:172.16.1.124172.16.1.125172.16.1.126172.16.1.127PDI:172.16.1.105Hadoop版本:CDH 6.3.1Spark版本:2.4.0-cdh6.3.1PDI版本:8.3Kettle连接CDH参见“https://wxy0327.blog.csdn.net/a

2020-06-10 10:29:06

Kettle与Hadoop(八)执行Oozie作业

1. 打开PDI,新建一个作业,如图1所示。图12. 编辑'Oozie job executor'作业项,如图2所示。图2 说明:CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4”。 'Enable Blocking'选项将阻止转换的其...

2020-06-09 10:12:55

Kettle与Hadoop(七)执行Sqoop作业

目录一、Sqoop export二、Sqoop import一、Sqoop export1. 建立一个作业,将HDFS文件导出到MySQL数据库。(1)打开PDI,新建一个作业,如图1所示。图1(2)编辑'Sqoop export'作业项,如图2所示。图2 说明:CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E...

2020-06-08 10:17:55

Kettle与Hadoop(六)执行HiveQL语句

1. 建立hive表,导入原始数据,过程参考https://blog.csdn.net/wzy0623/article/details/106471124#2.%20%E5%90%91Hive%E5%AF%BC%E5%85%A5%E6%95%B0%E6%8D%AE。2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表。(1)打开PDI,新建一个作业,如图1所示。图1(2)编辑'SQL'作业项,如图2所示。图2 说明:hive_cdh631是已经建好...

2020-06-04 10:20:05

Kettle与Hadoop(五)执行MapReduce

目录一、示例1——格式化原始web日志1. 准备文件与目录2. 建立一个用于Mapper的转换3. 建立一个调用MapReduce步骤的作业,使用mapper转换,仅运行map作业。4. 执行作业并验证输出二、示例2——生成聚合数据集1. 准备文件与目录2. 建立一个用于Mapper的转换3. 建立一个用于Reducer的转换4. 建立一个调用MapReduce步骤的作业,调用mapper和reducer转换。5. 执行作业并验证输出参考:一、示例1——格

2020-06-02 15:16:14

Kettle与Hadoop(四)导入导出Hadoop集群数据

目录一、向Hadoop集群导入数据(Hadoop copy files)1. 向HDFS导入数据2. 向Hive导入数据二、从Hadoop集群抽取数据1. 把数据从HDFS抽取到RDBMS2. 把数据从Hive抽取到RDBMS参考:一、向Hadoop集群导入数据(Hadoop copy files)1. 向HDFS导入数据从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。http://wi

2020-06-01 14:14:59

Kettle与Hadoop(三)连接Hadoop

目录一、环境说明二、连接Hadoop集群三、连接Hive四、连接Impala五、后续(建立MySQL数据库连接) Kettle可以与Hadoop协同工作。让我们从简单的开始,本文介绍如何配置Kettle访问Hadoop集群(HDFS、MapReduce、Zookeeper、Oozie等),以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。一、环境说明1. Hadoop 已经安装好4个节点的CDH 6.3.1,IP地...

2020-05-28 16:04:06

Kettle与Hadoop(二)Kettle安装配置

目录一、安装Java二、安装Kettle三、运行Kettle程序1. 安装Linux图形环境2. 安装配置VNC Server3. 在客户端使用vncviewer连接系统4. 执行spoon.sh四、给Spoon创建一个桌面快捷启动方式五、配置1. 配置文件和.kettle目录(1).spoonrc(2)jdbc.properties(3)kettle.properties(4)kettle.pwd(5)repositories.xml(6)s

2020-05-28 10:36:06

Kettle与Hadoop(一)Kettle简介

目录一、Kettle设计原则二、转换1. 步骤2. 转换的跳3. 并行4. 数据行5. 数据转换(1)Date和String的转换(2)Numeric和String的转换(3)其它转换三、作业1. 作业项2. 作业跳3. 多路径和回溯4. 并行执行5. 作业项结果四、转换或作业的元数据五、数据库连接1. 一般选项2. 特殊选项3. 关系数据库的力量4. 连接和事务5. 数据库集群六、工具七、资源库八、虚拟

2020-05-26 14:59:08

Kettle工具——Spoon、Kitchen、Pan、Carte

目录1. Spoon2. Kitchen和Pan(1)命令行参数(2)例子3. Carte Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。 Kitchen:运行作业的命令行工具。 Pan:运行转换的命令行工具。 Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分。1. Spoo...

2020-05-25 10:39:42

Kettle数据库连接中的集群与分片

目录1. 在数据库连接中使用集群2. 创建数据库分区schemas3. 启用数据库分区4. 例子(1)将三个mysql实例的数据导入到另一个mysql实例(2)将一个mysql实例的数据分发到三个mysql实例(3)将三个mysql实例的数据导入到另三个mysql实例(4)将三个mysql实例的数据导入相同实例的不同表中 本文介绍Kettle 8.3中数据库分区的使用。1. 在数据库连接中使用集群 在Kettle的数据库连接对话框中,可...

2020-05-21 17:22:49

彻底搞清 Kettle 数据分发方式与多线程

Kettle转换中,各步骤之间行集(row set)的发送有分发和复制两种方式,本文讨论这两种方式的区别,以及它们与Kettle多线程的关系。我们用一个简单的例子辅助说明,Kettle版本为8.3。定义一个转换,以t1表作为输入,输出到表t2和t3。t1表中有1-10十个整数。当创建第二个跳(hop)时,会弹出一个警告窗口,如图1所示。图1 表输入步骤将向两个表输出步骤发送数据行,此时可以选择采用分发或复制两种方式之一,缺省为复制方式。分发方式执行后,t2、t3表的数...

2020-05-20 16:58:50

phoenix中日期与时间戳的相关转换

日期转时间戳:select to_char(to_number(to_date('2020-03-01','yyyy-MM-dd','GMT+8'))/1000,'##########');时间戳转日期:to_char(CONVERT_TZ(to_date('1582992000','s'), 'UTC', 'Asia/Shanghai'),'yyyy-MM-dd HH:mm:ss...

2020-04-24 13:51:40

使用MySQL的rlike判断字符串是否匹配

问题提出:表user_experience_wealth_log改名为user_experience_wealth_log_new,该表涉及若干存储过程。为了避免遗漏,需要确认所有相关过程都做了修改,验证方法为不存在包含user_experience_wealth_log的存储过程。问题分析:不能使用简单的 not like '%user_experience_wealth_log%'...

2020-04-24 09:00:57

求二进制中1的个数之——HAKMEM算法

问题很简单,求一个整数的二进制中1的个数。方案一:select @i:= 50 i,@i_bin:=bin(@i) i_bin, length(@i_bin)-length(replace(@i_bin,'1','')) len_1;方案二:select @tmp:=50 - ((50 >> 1) & 3681400539) - ((50>>2...

2020-04-16 09:32:46

MySQL找出未提交事务的信息

目录一、processlist中的未提交事务二、information_schema.innodb_trx中的未提交事务三、performance_schema.events_statements_current中的未提交事务参考: 我们经常会碰到这样的情况,某个事务执行完了未提交,后续再来一个DDL和DML操作,导致后面的session要么处于waiting f...

2020-03-28 08:14:05

redis手工分片

目录一、redis环境二、redis手工分片步骤1. 配置级联复制2. 去掉老哨兵监控3. 停止新实例从老实例的复制4. 添加新哨兵监控5. 重启新哨兵6. 添加老哨兵监控7. 重启老哨兵 随着数据量越来越大,一个redis实例可能需要分成多个以形成数据分片。此时通常可以采取两种方式操作:一是启用cluster模式自动完成数据分片;二是手工分片...

2020-03-25 05:43:38

在CDH 6.3.1上安装HAWQ 2.4.0

目录一、安装环境二、选择HAWQ主机三、安装前准备1. 建立gpadmin用户和HAWQ主目录2. 创建HAWQ的本地数据目录3. 安装依赖包三、安装HAWQ1. 下载安装包2. 解压并安装四、配置HAWQ1. 创建HAWQ的HDFS数据目录2. 修改配置文件3. 添加slaves4. 将配置文件复制到其它主机五、配置OS内核参数与限制...

2020-03-13 17:41:38

定期全备redis

首先申明我的观点,redis本身只是缓存,不适合作为数据库使用,有说微博就是拿redis当DB用的,自己去证实吧。如果非要拿redis当数据库,就不得不考虑数据丢失问题,这里讨论两种常见的可能造成数据丢失的情况。 第一种情况是redis实例或所在主机宕机,这可以通过复制来解决,再配以redis哨兵机制,实现自动failover。应用通过哨兵访问redis,当mas...

2020-03-12 07:18:22

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力计划专属勋章
    原力计划专属勋章
    2019年《原力计划【第一季】》专属勋章,现已经开启第二季活动啦,小伙伴们快去参加吧