自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (10)
  • 收藏
  • 关注

原创 kettle根据自增id做增量加载

kettle根据自增id做增量加载1.场景介绍:根据自增id做增量加载2.案例适用范围:增量数据同步可参考,变量运用可参考3.前期配置表准备:a.建好两张配置表b.样例数据准备:c.配置要加载的表信息到增量加载配置表中4.整个job设置如下设计:a.获取上次记录的自增...

2019-06-20 16:07:15 6411 4

原创 kettle循环导出数据到excel生成多个sheet页

kettle循环导出数据到excel生成多个sheet页1.场景介绍:根据不同的省份生成多个execl,每个execl中根据不同的年份生成不同的sheet页2.案例适用范围:循环job可参考,变量运用可参考,生成多个sheet页可参考3.整个job设置如下设计:...

2019-05-14 17:15:16 13290 12

原创 mysql日期格式说明

V:周(01-53)星期日是一周的第一天,与%X使用。%v:周(01-53)星期一是一周的第一天,与%x使用。%r:时间,12-小时(hh:mm:s5AM或PM)%X:年,其中的星期日是周的第一天,4位,与%V使用。%x:年,其中的星期一是周的第一天,4位,与%V使用。%T:时间,24-小时(hh:mm:ss)%U:周(00-53)星期日是一周的第一天。%u:周(00-53)星期一是一周的第一天。%d:月的天,数值(00-31)%e:月的天,数值(0-31)%m:月,数值(00-12)

2024-04-15 17:14:38 216

原创 kettle介绍-Step之Script Values/Mod(JavaScript 代码) 一

JavaScript 代码步骤提供了一个用户界面,用户可以编写 JavaScript 代码到脚本区,脚本区域中的每一行代码都会执行一次,该步骤具有两个窗格和一个表Step name:步骤的名称,在单一转换中,名称必须唯一:该步骤中创建的 JavaScript 脚本:插件内置常量,用于数据行流程控制- SKIP_TRANSFORMATION:从输入行集中排除当前行,然后继续处理下一行- ERROR_TRANSFORMATION:从输入行集中排除当前行,生成错误,并且不处理其余所有行。

2024-04-15 15:52:38 843 2

原创 kettle介绍-Step之Return steps metrics

转换步骤信息统计步骤可以用于统计当前转换中的其它步骤信息,包括步骤执行后的输入行数、输入行数、读入行数、更新行数等。此步骤可以直接拖入转换中,不需要连接其它步骤,手动填写需要进行统计的步骤名称即可。

2024-04-10 15:58:06 145

原创 kettle介绍-Step之REST Client

REST 客户端转换步骤可以消费 RESTful 服务。RESTful 是一种网络应用程序的设计风格和开发方式,基于 HTTP,可以使用 XML 格式定义或 JSON 格式定义。在该体系中 Web 服务被视为资源并且可以通过其 URL 进行标识,该步骤有常规、认证、SSL、标题、参数、矩阵参数六个标签页。

2024-04-10 14:49:59 738

原创 kettle介绍-Step之Abort

中止步骤用于读取指定行数之后停止读取剩余行数,可以用于调试转换Step Name:步骤的名称,在单一的转换中,名称必须唯一:指定行数,转换读取到指定行数的后一行,就停止读取剩余行集数据:指定信息内容,中止读取行集数据之后以步骤错误日志的形式显示在日志中:勾选之后会将中止之前的行集数据显示在日志中:勾选后,读取到Abort threshold中设置的中止记录值处中止该转换,并且行集数据将无法输出到流中。

2024-04-09 09:41:27 302

原创 kettle介绍-Step之Value Mapper

值映射步骤是将字符串值从一个值映射为另一个值。值映射步骤提供了一个简单的替代方法,在输入流中选中一个字段,通过字段值设置源值和目标值,再将映射值输出给后续步骤使用。如:值映射步骤可以和表输入步骤、表输出步骤一起使用,对表输入步骤中的字段值进行映射后,输出给表输出步骤插入到目标字段Step name:步骤的名称,在单一的转换中,名称必须唯一:下拉框选择输入步骤中需要值映射的字段名称,此项为必填。

2024-04-09 09:31:28 266

原创 kettle介绍-Step之Write to log

写日志步骤是将输入步骤的信息打印在日志窗口,供用户直接查看Step name:步骤的名称,在单一转换中,名称必须唯一。Log level:设置日志的显示级别。没有日志(Nothing):完成没有任何日志输出。错误日志(Error):只输出错误信息。最小日志(Minimal):只输出打开转换、开始执行转换、转换完成和错误信息。基本日志(Basic):每一个步骤执行完后输出一条统计信息,默认是基本日志。详细日志(Detailed):每一个步骤都会输出开始、结束等信息。

2024-04-07 14:57:49 221

原创 kettle介绍-Step之CSV Input

CSV 文件输入步骤主要用于将 CSV 格式的文本文件按照一定的格式输入至流中Step name:步骤的名称,在单一转换中,名称必须唯一Filename:指定输入 CSV 文件的名称,或通过单击右边的“浏览”按钮指定本地的 CSV 文件Delimiter:指定分隔列的符号,一般 csv 文本文件默认的是逗号。如图 所示,里面的逗号就是列分隔符Enclosure:指定一个数据的封装符号,一般 csv 文本文件默认的是双引号。如图上图所示,双引号就是封闭符。

2024-04-07 14:44:07 465

原创 kettle介绍-Step之If field value is null

替换NULL值步骤可以将输入流中所有字段的空值进行替换,也可以指定一种类型下的空值进行替换,还可以指定一个字段下的空值进行替换三种替换NULL模式所有字段空值全部替换选定字段替换指定值根据数据类型替换指定值。

2024-04-03 15:49:01 187

原创 kettle介绍-Step之加密及解密

可生成Encrypted 2be98afc86aa7f2e4cb79ce10bec3fd89,即为123对应的kettle加密后的密码。linux/mac系统命令行执行:encr.sh -kettle 123。windows系统命令行执行:Encr.bat -kettle 123。进入kettle的安装目录。

2024-04-03 15:37:34 148

原创 kette介绍-Step之Table output

忽略插入时发生的异常,有报错时整个转化就停止。此功能需谨慎使用,虽然错误日志能够记录20个以内的错误详情,但数据库的插入异常应当重视。这是一种灵活性更大的分区功能,避免上述只能支持按月、按天分区的局限性。:指定包含关键字的输出字段的字段名称。:指定字段跟数据库表字段的映射关系,当没勾选时根据字段名称进行自动配对。关系数据库都支持自增长字段,这些字段的值在插入数据库记录后,自动产生并。:激活时可以启用逻辑分区,也就是某个字段的值决定该行。激活条件下,性能更高。:如果激活,那么每一行数据插入的表名称由。

2024-04-03 13:23:17 674

原创 kette介绍-Step之Table input

可以随意写能运行的SQL,写在其中的SQL是在数据库环境中运行的,如果数据库压力不大建议将一些关联放到此处,可以减少取到服务器的数据。:设置从数据源中读取的最大行数。如果设置值≤0,那么将查询所有记录,不限制返回行数;如果设置正整数值,则返回行数不超过设置值。Table input用于将数据源的数据加载到Kettle转换中的行集,可以说是数。据从持久化到内存的一种加载变换,故名为输入。连接到数据源执行SQL语句,将返回结果解析为行集,传递给下一个步骤。:配合使用可以在前面设置一个取数据的,当做绑定变量。

2024-04-03 13:00:24 318

原创 kette介绍-Step之Merge Join

sql关联查询,INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN

2024-04-03 11:41:23 363

原创 kettle介绍-参数变量

Transformation Step中的数据可以传递给Transformation Executor,在Transformation Executor 调用的组件中可以直接当变量使用:通过${VARIABLE}或者%%VARIABLE%% 使用;这个参数表示当前的实体保存的位置,比如在Job中使用,则表示Job保存的位置,Transformation中表示Transformation的位置。凡是带有方块图标的文本框中都可以通过${VARIABLE} %%VARIABLE%% 使用变量。

2024-04-02 14:36:46 614

原创 kettle使用MD5加密增量获取接口数据

使用JavaScript组件进行MD5加密得到Http header,调用API接口增量获取接口数据,使用json input组件解析数据入库JOB包括获取增量时间点、记录日志、更新增量时间点、获取接口数据几个转换这里用到表输入组件,生成appKey、url、拼接request body、body以及增量时间、Http header等JSONPath是xpath在json的应用。类似于XPath在xml文档中的定位, JsonPath表达式通常是用来路径检索或设置Json的。

2024-04-02 12:58:55 1531

原创 kettle+report designer导出带样式的excel包含多个sheet页

pentaho report designer报表设计器使用可参考,kettle生成带有样式的excel,PDF等可参考,kettle生成多个sheet页可以参考,多个sheet页合并成一个excel文件可参考。读者个人qq:420773639。这里是自定义开发了一个合并sheet页的jar包,使用时只需指定路径就可合并路径下所有excel的文件到一个文件中,具体使用方法如图。生成一条常量数据即可,包括报表设计文件路径及文件名,传入报表参数,生成excel的路径及文件名,这里也可建立配置表,在表中控制。

2023-12-11 10:59:52 579 1

原创 greenplum索引介绍

greenplum索引分类及适用场景Greenplum数据库数据库支持Postgres索引类型B-树和GiST,不支持Hash和GIN索引。每一种索引类型都使用一种不同的算法,它们最适合的查询类型也不同。B-树索引适合于最常见的情况并且是默认的索引类型1.btree索引:B树索引是现在数据库中最常见的索引类型之一,它适用范围比较广:1.适于拥有重复值较少的字段。数据重复值越少,查询数据选择性越高,使用索引查询数据的效率越高,反之则越低。2.适用于对字段所在数据有少量修改的场合,例如字段有较少量的插

2020-06-28 15:52:49 911 1

原创 Greenplum表存储模型选择

Greenplum表存储模型选择前言:堆存储:AO表:行存:列存:查看表的存储结构:前言:Greenplum数据库支持多种存储模型和一种混合存储模型。当用户创建一个表时,用户会选择如何存储它的数据。本文主要解释表存储的选项以及如何为用户的负载选择最好的存储模型,Greenplum支持行存和列存,支持堆表和AO表。堆存储:1.堆表的原理:堆表实际上就是PG的堆存储,堆表的所有变更都会产生REDO,可以实现时间点恢复。但是堆表不能实现逻辑增量备份(因为表的任意一个数据块都有可能变更,不方便通过堆存储来

2020-06-23 16:43:10 656

原创 kettle导出Excel文件报磁盘空间爆满处理方法

在导入导出数据到excel会在服务器生成.xml文件导致磁盘空间爆满kettle运行过程:查看磁盘使用情况:df -h发现磁盘空间爆满导致kettle过程报错,报错信息如下:解决办法:cd /tmplsrm -rf *.xml再次查看磁盘使用情况df -h问题解决,记录一下,生成的文件路径。...

2020-04-22 14:08:30 1047 1

原创 kettle使用gpfdist加载数据报错解决方法

1.gpfdist的使用gpfdist可以实现并行加载,需要先启动gpfdist进程及监听端口,这个命令在Master和Segment节点的GPHOME/bin目录下,如果配置了GP的环境变量,可以直接使用,如果在没有安装GP的服务器上使用gpfdist工具,只需要将gpfdist命令的文件拷贝到相应的服务器上即可使用。2.启动gpfdist服务nohup /home/gpadmin/gre...

2020-04-09 14:04:16 1053 1

原创 kettle连接常用数据库JNDI配置方式

kettle连接几种常用数据库JNDI配置方式如下:1.mysql数据库jndi配置:#mysql_localmysql/type=javax.sql.DataSourcemysql/driver=com.mysql.jdbc.Drivermysql/url=jdbc:mysql://127.0.0.1:3306/mysql?zeroDateTimeBehavior=convertToN...

2019-12-21 09:43:40 2416 1

原创 kettle另一种简单的循环

kettle另一种简单的循环案例是循环从oracle插入数据到oracle一:表及表数据准备源表名为:test_input测试数据如图:select * from test_input;目标表名为:test_output执行kettle作业前无数据如图:select* from test_output;二.job介绍kettle简单的一个循环job设计如下:循环job调...

2019-12-12 11:05:42 522 1

原创 kettle安装运行及JDK配置

1.Kettle简单介绍kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据...

2019-10-31 00:02:17 11407 1

原创 kettle加载到oracle之oracle批量加载-Oracle Bulk Loader

注:Oracle Bulk Loader组件其实用的就是Oracle SQLLoader,可在windows和linux等环境使用。1.Oracle SQLLoader 使用简介SQLLoader是oracle的高速批量数据加载工具。这是一个非常有用的工具,可用于从多种平面文件格式向Oracle数据库中加载数据。SQLLDR可以在极短的时间内加载数量庞大的数据。SQLLoader具有很多功能...

2019-09-19 11:27:43 3637 3

原创 kettle(Pentaho Data Integration)-ETL及PDI概念介绍

什么是ETL抽取(Extract): ⼀般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这⼀部 分看上去简单⽽琐碎,实际上它是 ETL 解决⽅案的成功实施的⼀个主要障碍。转换(Transform): 任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下⾯ ⼀些操作: 移动数据 根据规则验证数据 数据内容和数据结构的修改 将多个数据源的数据集成 根据处理后的数据计算派⽣值...

2019-09-07 11:44:03 3624 1

原创 kettle加载到mysql插入更新优化方案之mysql批量加载

**注:**MySQL Bulk Loader组件必须在Linux下运行,因为MySQL批量加载时会创建一个命名管道,在Windows下是不支持的。加载工具用的是fifo1.MySQL Bulk Loader组件介绍wiki文档介绍https://wiki.pentaho.com/display/EAI/MySQL+Bulk+Loader这两个勾可限定是否根据主键替换2.MySQ...

2019-08-16 10:03:04 4374 1

原创 ETL服务器安装手册

1、rcrm用户创建:Linux下新建组命令:groupadd etl–添加用户及指定挂在目录useradd -d /home/etl -m etl–更改新用户的密码passwd etlmkdir crmcd crmmkdir backupmkdir kettlemkdir cfgmkdir datamkdir logmkdir rejectmkdir scri...

2019-08-15 13:49:17 1556

原创 windows和linux环境定时调kettle资源库中的job

1.场景介绍:根据不同的操作系统定时调度kettle资源库中的job和trans2.案例适用范围:windows环境kettle资源库中job调度,linux环境kettle资源库中job调度,windows环境kettle资源库中trans调度,linux环境kettle资源库中trans调度,linux环境定时任务参数置3.本文主要包含如四个内容介绍希望大家喜欢:一:windows使...

2019-05-24 17:24:03 3131 5

kettle实现SQL关联查询

kettle介绍-Step之Merge Join实现SQL关联查询,可实现INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN

2024-04-03

kettle另一种简单的循环方式

kettle循环从oracle源表分页读数据,写入oracle目标表。希望能对你做分页插入有所帮助!!!

2019-12-12

jdk_8.0.1310.11_64.rar

kettle安装环境,JDK配置文件,JRE配置文件。kettle运行环境搭建。

2019-10-30

kettle最新资料.rar

kettle进阶培训-参数 7天学会kettle kettle最新介绍 希望能帮到您。

2019-10-10

kettle连接需要的jar包.rar

kettle连接需要的jar包,包含mysql sqlserver greenplum oracle mongodb cassandra等常用数据库jar,希望能帮到您!

2019-10-10

Greenplum_gpload.ktr

kettle Greenplum批量加载-Greenplum Load,greenplum快速加载案例

2019-10-10

kettle oracle批量加载-Oracle Bulk Loader

kettle快速加载到oracle之oracle批量加载-Oracle Bulk Loader

2019-09-19

通过id自增做增量加载.rar

kettle通过自增id做增量加载,适用于有自增主键的增量加载

2019-09-12

ETL安装部署手册.docx

ETL服务器安装手册

2019-08-15

kettle循环导出数据到excel生成多个sheet页

根据不同的省份生成多个execl,每个execl中根据不同的年份生成不同的sheet页

2019-08-08

服务器配置信息查询

服务器配置信息查询, 服务器型号 .操作系统 查看CPU统计信息

2018-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除