美文网首页
4.Greenplum数据导出

4.Greenplum数据导出

作者: Michael_林 | 来源:发表于2017-04-30 22:15 被阅读834次

    2.3 导出

    把实体表数据导出为文本文件同样可以使用gpfdist服务下的外部表和copy命令来实现。Copy导出与导入一样,也是逐个postgresql进行的,在效率上是都低于gpfdist。因为gpfdist是同时从所有的segment向目标文件写数据,是真正的并行工具。不知道为什么EMC公司一直没有将postgresql的COPY,这个应用这么成熟的工具改造升级为并行工具(COPY可以通过非GP的方法来做并行导入导出,但是较为麻烦,且不好监控,暂且不表,可能也很难再表……)。
    Gpfdist导出是通过创建可写外部表来实现的。对比只能做select操作的可读外部表,可写外部表也只能做insert操作。

    2.3.1 使用Gpfdist下的外部表导出

    使用gpfdist当然要首先保证gpfdist 服务是在运行着的。
    etl@smdw:~> ps -ef|grep gpfdist
    etl 8404 7503 0 11:17 pts/3 00:00:00 grep gpfdist
    etl 22913 1 1 Jul07 pts/3 01:12:26 gpfdist -d /backup/etl_data -p 9091 -l /home/etl/gpfdist_9091.log
    etltest 26466 1 0 Jul08 pts/3 00:00:44 gpfdist -d /backup/etl_data -p 9092 -l /home/etltest/gpfdist_9092.log
    etl@smdw:~>
    要保证启动gpfdist的用户etl对目录/backup/etl_data有写的权限。

    首先创建可写外部表:
    create writable external table stage.tf_f_user_w_external (字段1,字段2,字段3……)
    LOCATION ('gpfdist://smdw-1:9091/output/DATAFILE20120718.txt') ……
    然后写insert语句:
    Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
    Select字段1,字段2,字段3…… from stage.tf_f_user;
    这个select 部分可以随便写,只要字段与外部表的字段能一致对应就可以了,例如:
    Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
    Select a.字段1,b.字段2,c.字段3…… from stage.tf_f_user a inner join stage.tf_f_xxx b on a.user_id=b.user_id;

    然后执行这个insert语句就可以把实体表的内容写到可写外部表所指定的文本文件中了(文本文件可以事先不存在,如果存在则对外部表的insert操作会向文本文件里追加数据)。
    OK,这样我们就实现了以生成文本文件为目的的导出了。

    2.3.2 使用Copy导出

    简洁!!
    psql -d bi -h xx -p dd -c "\copy (select * from ods.ods_d_mytest) to /home/gpadmin/_hcb/my_data.txt"
    -d是数据库名;-h是主master名或ip;-p是数据库端口号;-c是执行命令。
    这个跟postgresql原本的copy导出是一模一样的,不到五分钟你就能使用起来。
    可以对select 语句进行加工变换以实现多样的导出需求,
    也可以在编程的过程中各种对copy批量操作。

    2.3.3 使用令人心碎的pg_dump/gp_dump导出(备份)

    Pg_dump是逐个节点来串行对外写文件的。
    Gp_dump是所有节点同时并行向外写文件的。
    一看就知道pg_dump没什么可以说的了,但是还是要提一下,pg_dump是本身postgresql的工具,有一个比较吸引人的优点,它可以直接导出gz压缩的文件,可惜到了EMC这里却没什么发展。

    Gp_dump比pg_dump强大,因为它是一个真正的并行工具。
    使用gp_dump,首先一定要注意:禁止做全库备份!
    因为我们的数据量绝对是海量(GP就是为了海量而生),全库备份即没有必要,而且可能也几乎不能实现。
    同时GP系统本身有镜像机制,每行数据都是双份存储的,所以也没有必要做全库备份。很奇怪,EMC为什么没有禁止掉他的全库备份功能。
    Gp_dump可以用来把一个表的数据导出为文本文件,并且可以直接生成为压缩文件(这一点非常好)。
    但是,导出表数据为文本文件不是纯的数据文件,就是生成的文本文件里面会包含一堆什么GP万岁之类的话,没有找到什么参数去掉,不利于导入到别的类型的数据库里,很是讨厌。例如:
    大家执行gp_dump -t 'ods.ods_xmx' -a bi -U gpadmin,把bi库里面的表ods.ods_xmx导出。
    完成之后,查看gp_dump_0_3_20120318164648这样格式名称的文件会发现包含了以下废话:
    -- Greenplum Database database dump
    另外还能发现gp_dump实际上就是一个封装了copy的东西,通过多 个copy并行来实现导出。

    相关文章

      网友评论

          本文标题:4.Greenplum数据导出

          本文链接:https://www.haomeiwen.com/subject/uuoxtxtx.html