自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据的加载

一、电影演员数据至演员维度表1.打开Kettle工具,创建转换:2.配置表输入控件,浏览数据。3.配置表输入2控件 ,浏览数据。4.配置插入/更新控件:5.运行转换:6.查看数据表dim_actor中的数据:二、加载电影数据至电影维度表1.打开Kettle工具,创建转换:2.配置表输入控件:3.配置表输入2控件:4.配置数据库查询控件:5.配置数据库查询2控件:6.配置值映射控...

2021-11-12 11:52:48 231

原创 kettle实现数据加载

一、加载用户数据至用户维度表1.打开kettle创建一个新的转换并命名,添加控件“表输入”(两个)、“映射(子转换)”、“字段选择”、“值映射”、“维度查询/更新”。并建立Hop跳连接线。2.双击“表输入”控件,点击“新建”建立数据库连接,配置如下图,并输入获取字段的代码,代码如下,点击浏览查看是否获取成功。3.双击“表输入2” ,新建数据库连接,配置完成后输入代码获取字段,并查看字段是否获取成功。4.新建一个子转换并命名,并按下图添加控件。5.配...

2021-11-11 21:18:29 1388

原创 数据清洗第八章

一、加载日期数据至日期维度表1.打开kettle创建转换并命名,添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”。2.配置“生成记录”控件。双击进入控件的配置,在限制处输入3650,字段处按下图输入。3.配置“增加序列”,双击进入该控件进行配置。“值的名称”处改为DaySequenc。“起始值”改为0.4.双击进入“JavaScrip代码”,勾选“兼容模式?”,输入相应代码(书上有)。5.双击进入“表输出” 控件。先配置数据库。在选择输出的表...

2021-11-04 16:50:47 297

原创 kettle实现数据清洗

一、Excel的输入1.将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。如下图。2.双击该控件打开配置,单击“浏览”打开文件选择所要处理的Excel表,单击“添加”。点击“工作表”完成下配置,再点击“字段”,获取字段。如下图。点击“预览记录”查看是否导入成功。3.运行并查看数据二、生成记录1.打开新的转换并命名,拖入“生成记录”控件。2.在限制处输入要生成的数据量。3.运行并查看和数据..

2021-10-27 20:18:55 6531

原创 用kettle实现数据的加载机制

一、全量加载1.打开kettle创建一个转换。并命名为full_load。并添加“执行SQL脚本”,“表输入”和“表输出”控件,建立hop跳连接线。2.配置“执行SQL脚本”控件点击新建将数据库连接好,数据库配置完成后点击确认。提前将所要处理的数据存入数据库中,在SQL编辑框中删除full_target种的数据,单击确定完成配置。3 .配置“表输入”控件双击进入“表输入”配置界面,在SQL编写框中查询表full_source中的数据,代码如下图,点击“预览”查看数据,..

2021-10-21 11:48:51 364

原创 kettle实现颗粒度转换以及珊瑚橘商务规划计算

一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】

2021-10-20 23:38:33 112

原创 使用kettle转换工具实现数据的完全去重和缺失值的填充

1.文件的完全去重打开kettle创建一个转换并命名为repeat_transform。添加"CSV文件输入”和“唯一行(哈希值)”控件。如下图。双击“CSV文件输入”进入界面,单击“浏览”选择所要处理的文件。单击“获取字段”,kettle将自动检索csv文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。如下图单击“预览”查看处理的文件是否加载到csv文件输入流中,如果出现以下见面则加载成功。点击“确定”完成“csv文件输入”控件的配置。双击“唯一行(哈希值)...

2021-10-11 16:19:24 1293 1

原创 使用kettle工具抽取CSV文件和json文件

在进行转换之前我们需要建立好数据库,并在数据库下建立数据表。那如何建立数据库和数据表呢,有两种方式,可以在cmd界面里创建,也可以在SQLyog图形化界面里创建。这里演示一下从cmd里创建数据库:win+R打开cmd命令提示符,找到你下载的mysql所在的地址,输入cd空格地址转换到mysql下工作,再输入mysql -u root -p,然后输入密码,就可以创建数据库了,输入create database extract;创建数据库,创建的数据库名称是extract。如下图所示。打...

2021-09-28 20:24:19 450 2

原创 kettle基本工具的使用

一:kettle的安装下载kettle安装包Kettle的官网下载地址为Pentaho from Hitachi Vantara - Browse /Data Integration at SourceForge.net。安装kettle由于kettle是绿色无需安装的,所以只要解压下载kettle工具即可。3.配置Kettle将Java和Kettle的安装路径都添加至系统环境变量中,便于后续在Windows任何位置都可进行引用启动Kettle工具;将数据库驱动添加至Kettle安装包下.

2021-09-16 18:15:51 5144

原创 数据清洗概述

一、数据清洗背景因为数据质量在企业战略决策中占据着重要地位,我们需要对数据仓库中的数据进行清洗等相关操作,得出可靠准确反映企业实际情况的数据,用以支持企业战略决策。1.数据质量:数据质量的评价指标:准确性、完整性、简洁性、适用性。数据质量的问题分类:基于数据源的“脏”数据分类和基于清洗方式的“脏”数据分类。二、数据清洗的定义(没有一个公正、统一的定义) 数据清洗主要应用于三个领域,即数据仓库、数据挖掘、数据质量管理三个领域 ①在数据仓库环境中数据清洗主要包括数据的清洗和结...

2021-09-10 14:04:04 1704

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除