自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 《数据清洗》8.3.7-8.3.8

一、加载演员数据至演员维度表操作介绍:通过Kettle工具加载演员数据至演员维度表dim_actor。1、打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。2、配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。3、配置表输入2控件双击“表输入2”控件,进入.

2021-11-19 20:33:31 842

原创 《数据清洗》8.3.5-8.3.6

一、加载用户数据至用户维度表操作介绍:通过Kettle工具加载用户数据至用户维度表dim_customer。1、打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2、配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。

2021-11-19 17:21:02 804

原创 《数据清洗》第八章实例

一、加载日期数据至日期维度表操作介绍:通过Kettle工具加载日期数据至dim_date日期维度表。1、打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2、配置生成记录控件在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_co

2021-11-19 11:41:59 999

原创 《ETL数据整合与处理》实例

一、Excel输入二、生成记录三、生成随机数四、获取系统信息五、排序记录六、去除重复记录七、替换NULL值...

2021-11-07 15:35:33 617

原创 《数据清洗》 第七章 课后操作题实例

一、全量加载介绍:全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作。目标:通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中1、打开Kettle工具,创建转换2、配置执行SQL脚本控件3、配置表输入控件预览效果:4、配置表输出控件5、运行转换full_load在SQLyog中检查数据是否已成功加载:二、增量加载介绍:增量加载是指目标表仅加载源数据表...

2021-11-02 19:31:47 319

原创 《数据清洗》第六章操作实例

1.运行成功截图2.运行结果如下:

2021-10-30 22:24:05 163

原创 《数据清洗》第五章操作实例

案例一介绍:通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。1.打开Kettle工具,创建转换通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。2.配置CSV文件输入控件双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。3.配置”唯一行(哈希值)”控件双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置..

2021-10-14 21:36:25 373

原创 《数据清洗》第四章操作实例

1.csv文件的抽取目标:通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。一、创建转换通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。二、配置csv文件输入控件三、配置表输出控件四、运行csv_extract转换五、查看csv数据表中的数据...

2021-10-09 17:18:55 170

原创 《数据清洗》第三章 Kettle工具的基本使用 笔记

Kettle简介Kettle是一款国内免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间的数据的迁移。Kettle工具主要由4个组件组成,分别是Spoon、Pan、Kitchen及Carte组件。Kettle有7点设计原则,分别是:1.易于开发2.避免自定义开发3.所有功能都能通过用户界面完成4.没有命名限制5.透明6.灵活的数据通道7.只映射需要映射的字段...

2021-09-22 21:28:08 1003

原创 《数据清洗》 第一章 数据清洗概述 总结

1.1数据清洗的背景1.1.1数据质量概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量有各自不同的观点。从适用性角度来说,数据质量是一个相对的概念。不同的决策者对数据质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。数据质量的显著特点如下:1)“业务需求”会随时间变化,数据质量也会随时间发生变化。2)数据质量可以借助信息系统度量,但独立于信息系统存在。’3)数据质量存在于数据的整个

2021-09-11 23:48:46 3623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除