Kettle 小结

作者: Async_1338 | 来源:发表于2017-05-01 23:33 被阅读0次

Kettle 小结
Kettle学习小结
Mac OS安装Kettle
2017-12-29
kettle 8.2 win10 安装
kettle教程之基础和单表操作
Kettle入门系列之一（简单介绍）
22.Hurry up!
kettle 同步Oracle 与 Postgres
Kettle数据同步时将空字符串当做NULL传递问题

接触了Kettle也有一段时间了，挖个坑总结一下。

Kettle的使用和总结，是基于Pentaho解决方案。这本书虽然网上认为是进阶书籍，但在实际的使用过程中，发现也是入门的绝好方式。书中对Kettle有了很完善的使用方法，介绍了大多数的使用方案。整体的流程可以结合实例进行参考，通过该书入门Kettle是一种不错的方式。

具体的Kettle安装，使用网上也有很多。源码的分析在网上也是有的（其实我还没有到看源码的地步）。就我个人的理解而言，Kettle对大多数的数据库操作进行了封装，在使用中可以方便的调用，减少写代码时候的对照。p.s.手写过移库的操作就知道，有些库的字段命名感人，对照起来还麻烦。

在数据迁移的过程中，整体的流程是 连接 →表名、字段名获取→数据读取并进入缓冲池→数据的输出。在连接时，调用了驱动；字段名、表名获取调用了sql语句；在Kettle缓冲区中，可以设置批量操作、、事务、分区\集群，并发等；输出同输入。在这些部分中，很明显的可以发现，Kettle减少了我们对底层的操作，让开发者可以集中注意力于数据的迁移，数据的清洗等过程。在使用的过程中，方便。但具体的实践过程中，也有其他的问题。

以下是我在使用时遇到的问题。

1.增量更新问题

增量更新有4种方法，当时选取的是根据时间戳进行增量更新。在SQL Server 2008 R2中，时间的类型是DateTime，在表输入的过程中，发生的问题是，这个DateTime类型和Kettle的当日的类型是匹配不上的，DateTime会显示为诡异的0.0000000020170307这种形式（乘以较大数输出发现的），但Kettle的日期形式是timestamp类型的，两者匹配不上！！！当时的心情是崩溃的，先是写死了一个固定的日期设定，发现在实际生产中不现实，遂弃用。再是自己手动增加一个timestamp类型匹配，然后被领导否了，拒绝在生产库上加奇怪的字段。最后的解决方案是在SQL语句中过滤，用了DateDiff函数判断是否在更新时间内产生新数据，从而获得结果。

2.定时问题

Kettle中自带定时，在job中的start中，但是。。。不好用啊。。。只要你设置了重复启动这个选项，你的job基本上是跑不动的，所以。。。心塞塞啊。最后没办法写了批处理文件来调用，但是时间间隔这东西，貌似也只能控制在一定范围内了。。。此外，这里提供Tips。在配置java环境时，可以将kettle的文件目录添加到Path中，这样调用Kitchen时会减少很多的操作。

3.端口占用

当时，历经了入门的蛋疼阶段，总算磨出了第一个增量更新，虽然很简陋，但是本机上还是跑的很欢了。于是领导给了一台测试机跑了跑，然而第二天就跑挂了23333。被批了一顿，查了查问题，端口占用多了。增量嘛，5秒一次嘛，高并发嘛，短连接嘛，这些东西聚在一起，出现的问题是科科，端口占用多了。Kettle的转换是每个转换都是线程啊，当时还作死改了并发数，每个转换就占用了2，30个端口，要增量的库一多，BOOM。解决：连接池，事务。在连接池中设置连接数，会显著的减少端口数，使用唯一的连接这个选项可以将转换进行事务操作，减少因为奇怪的问题导致数据库的污染。

4.mysql中文的操作和大数据的插入

mysql的jdbc。。。不作评价。。。移动到库里是？？？这种的，需要在连接选项时设置parameterEncoding utf8。本来在本地是正常的，一到生产上就蛋疼，事实证明，备份很重要，多试错也很重要。还有就是大数据插入问题，当你调用jdbc时，会惊讶的发现mysql的jdbc驱动为什么插入库这么慢？？？这时，你就需要去加几个字段了，有三个字段需要修改，

useServerPrepStmts=false

rewriteBatchedStatements=true

useCompression=true

改了后，有飞一样的感觉。

总结

Kettle这货，在迁移的时候还是很好用的。但是很底层的事情，需要你自己去解决。当然，现在的开源软件也是很成熟的。但是，貌似厉害的开源都被收购了（mysql，sun），所以入坑要谨慎，毕竟公司省的就是你的劳动力钱，否则为啥放着现成的BI软件不用，找你从头开始学。最近也有很多待解决的问题，比如性能问题，Kettle这货一开起来就是70的cpu使用率，在批处理的调用下，如果你开了其它东西，性能会慢很多，当然，貌似这个值是固定的，只要你cpu够好，数值还是很低的。还有，在增量时，在杂项中选择将日志记录到数据库，会时不时显示有错误，但是在Kitchen执行的过程中，写入的error日志中却找不到。很诡异的问题。。。

网友评论

本文标题：Kettle 小结

本文链接：https://www.haomeiwen.com/subject/kliizttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Kettle 小结

1.增量更新问题

2.定时问题

3.端口占用

4.mysql中文的操作和大数据的插入

总结

相关文章

Kettle 小结

Kettle学习小结

Mac OS安装Kettle

2017-12-29

kettle 8.2 win10 安装

kettle教程之基础和单表操作

Kettle入门系列之一（简单介绍）

22.Hurry up!

kettle 同步Oracle 与 Postgres

Kettle数据同步时将空字符串当做NULL传递问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读