- 博客(10)
- 收藏
- 关注
原创 数据的加载
一、电影演员数据至演员维度表1.打开Kettle工具,创建转换:2.配置表输入控件,浏览数据。3.配置表输入2控件 ,浏览数据。4.配置插入/更新控件:5.运行转换:6.查看数据表dim_actor中的数据:二、加载电影数据至电影维度表1.打开Kettle工具,创建转换:2.配置表输入控件:3.配置表输入2控件:4.配置数据库查询控件:5.配置数据库查询2控件:6.配置值映射控...
2021-11-12 11:52:48 231
原创 kettle实现数据加载
一、加载用户数据至用户维度表1.打开kettle创建一个新的转换并命名,添加控件“表输入”(两个)、“映射(子转换)”、“字段选择”、“值映射”、“维度查询/更新”。并建立Hop跳连接线。2.双击“表输入”控件,点击“新建”建立数据库连接,配置如下图,并输入获取字段的代码,代码如下,点击浏览查看是否获取成功。3.双击“表输入2” ,新建数据库连接,配置完成后输入代码获取字段,并查看字段是否获取成功。4.新建一个子转换并命名,并按下图添加控件。5.配...
2021-11-11 21:18:29 1388
原创 数据清洗第八章
一、加载日期数据至日期维度表1.打开kettle创建转换并命名,添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”。2.配置“生成记录”控件。双击进入控件的配置,在限制处输入3650,字段处按下图输入。3.配置“增加序列”,双击进入该控件进行配置。“值的名称”处改为DaySequenc。“起始值”改为0.4.双击进入“JavaScrip代码”,勾选“兼容模式?”,输入相应代码(书上有)。5.双击进入“表输出” 控件。先配置数据库。在选择输出的表...
2021-11-04 16:50:47 297
原创 kettle实现数据清洗
一、Excel的输入1.将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。如下图。2.双击该控件打开配置,单击“浏览”打开文件选择所要处理的Excel表,单击“添加”。点击“工作表”完成下配置,再点击“字段”,获取字段。如下图。点击“预览记录”查看是否导入成功。3.运行并查看数据二、生成记录1.打开新的转换并命名,拖入“生成记录”控件。2.在限制处输入要生成的数据量。3.运行并查看和数据..
2021-10-27 20:18:55 6531
原创 用kettle实现数据的加载机制
一、全量加载1.打开kettle创建一个转换。并命名为full_load。并添加“执行SQL脚本”,“表输入”和“表输出”控件,建立hop跳连接线。2.配置“执行SQL脚本”控件点击新建将数据库连接好,数据库配置完成后点击确认。提前将所要处理的数据存入数据库中,在SQL编辑框中删除full_target种的数据,单击确定完成配置。3 .配置“表输入”控件双击进入“表输入”配置界面,在SQL编写框中查询表full_source中的数据,代码如下图,点击“预览”查看数据,..
2021-10-21 11:48:51 364
原创 kettle实现颗粒度转换以及珊瑚橘商务规划计算
一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】
2021-10-20 23:38:33 112
原创 使用kettle转换工具实现数据的完全去重和缺失值的填充
1.文件的完全去重打开kettle创建一个转换并命名为repeat_transform。添加"CSV文件输入”和“唯一行(哈希值)”控件。如下图。双击“CSV文件输入”进入界面,单击“浏览”选择所要处理的文件。单击“获取字段”,kettle将自动检索csv文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。如下图单击“预览”查看处理的文件是否加载到csv文件输入流中,如果出现以下见面则加载成功。点击“确定”完成“csv文件输入”控件的配置。双击“唯一行(哈希值)...
2021-10-11 16:19:24 1293 1
原创 使用kettle工具抽取CSV文件和json文件
在进行转换之前我们需要建立好数据库,并在数据库下建立数据表。那如何建立数据库和数据表呢,有两种方式,可以在cmd界面里创建,也可以在SQLyog图形化界面里创建。这里演示一下从cmd里创建数据库:win+R打开cmd命令提示符,找到你下载的mysql所在的地址,输入cd空格地址转换到mysql下工作,再输入mysql -u root -p,然后输入密码,就可以创建数据库了,输入create database extract;创建数据库,创建的数据库名称是extract。如下图所示。打...
2021-09-28 20:24:19 450 2
原创 kettle基本工具的使用
一:kettle的安装下载kettle安装包Kettle的官网下载地址为Pentaho from Hitachi Vantara - Browse /Data Integration at SourceForge.net。安装kettle由于kettle是绿色无需安装的,所以只要解压下载kettle工具即可。3.配置Kettle将Java和Kettle的安装路径都添加至系统环境变量中,便于后续在Windows任何位置都可进行引用启动Kettle工具;将数据库驱动添加至Kettle安装包下.
2021-09-16 18:15:51 5144
原创 数据清洗概述
一、数据清洗背景因为数据质量在企业战略决策中占据着重要地位,我们需要对数据仓库中的数据进行清洗等相关操作,得出可靠准确反映企业实际情况的数据,用以支持企业战略决策。1.数据质量:数据质量的评价指标:准确性、完整性、简洁性、适用性。数据质量的问题分类:基于数据源的“脏”数据分类和基于清洗方式的“脏”数据分类。二、数据清洗的定义(没有一个公正、统一的定义) 数据清洗主要应用于三个领域,即数据仓库、数据挖掘、数据质量管理三个领域 ①在数据仓库环境中数据清洗主要包括数据的清洗和结...
2021-09-10 14:04:04 1704
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人