datax介绍
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
官网地址:https://github.com/alibaba/DataX
datax使用
1 官网下载datax包,之后解压;
2编写json配置文件,实例如下:
{
"job": {
"content": [
{
"reader": {
},
"writer": {
}
],
"setting": {
"speed": {
"channel": "1"
}
}
}
}
具体的reader,writer参数官网有说明。
3执行 python datax.py xx.json
4调优,主要是调整channel,byte,record参数,不过具体性能还是取决于源端数据库的表是否适合切分,是否有合适的切分字段,切分字段最好为数字。
网友评论