美文网首页
4.Greenplum数据导出

4.Greenplum数据导出

作者: Michael_林 | 来源:发表于2017-04-30 22:15 被阅读834次

2.3 导出

把实体表数据导出为文本文件同样可以使用gpfdist服务下的外部表和copy命令来实现。Copy导出与导入一样,也是逐个postgresql进行的,在效率上是都低于gpfdist。因为gpfdist是同时从所有的segment向目标文件写数据,是真正的并行工具。不知道为什么EMC公司一直没有将postgresql的COPY,这个应用这么成熟的工具改造升级为并行工具(COPY可以通过非GP的方法来做并行导入导出,但是较为麻烦,且不好监控,暂且不表,可能也很难再表……)。
Gpfdist导出是通过创建可写外部表来实现的。对比只能做select操作的可读外部表,可写外部表也只能做insert操作。

2.3.1 使用Gpfdist下的外部表导出

使用gpfdist当然要首先保证gpfdist 服务是在运行着的。
etl@smdw:~> ps -ef|grep gpfdist
etl 8404 7503 0 11:17 pts/3 00:00:00 grep gpfdist
etl 22913 1 1 Jul07 pts/3 01:12:26 gpfdist -d /backup/etl_data -p 9091 -l /home/etl/gpfdist_9091.log
etltest 26466 1 0 Jul08 pts/3 00:00:44 gpfdist -d /backup/etl_data -p 9092 -l /home/etltest/gpfdist_9092.log
etl@smdw:~>
要保证启动gpfdist的用户etl对目录/backup/etl_data有写的权限。

首先创建可写外部表:
create writable external table stage.tf_f_user_w_external (字段1,字段2,字段3……)
LOCATION ('gpfdist://smdw-1:9091/output/DATAFILE20120718.txt') ……
然后写insert语句:
Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
Select字段1,字段2,字段3…… from stage.tf_f_user;
这个select 部分可以随便写,只要字段与外部表的字段能一致对应就可以了,例如:
Insert into stage.tf_f_user_w_external(字段1,字段2,字段3……)
Select a.字段1,b.字段2,c.字段3…… from stage.tf_f_user a inner join stage.tf_f_xxx b on a.user_id=b.user_id;

然后执行这个insert语句就可以把实体表的内容写到可写外部表所指定的文本文件中了(文本文件可以事先不存在,如果存在则对外部表的insert操作会向文本文件里追加数据)。
OK,这样我们就实现了以生成文本文件为目的的导出了。

2.3.2 使用Copy导出

简洁!!
psql -d bi -h xx -p dd -c "\copy (select * from ods.ods_d_mytest) to /home/gpadmin/_hcb/my_data.txt"
-d是数据库名;-h是主master名或ip;-p是数据库端口号;-c是执行命令。
这个跟postgresql原本的copy导出是一模一样的,不到五分钟你就能使用起来。
可以对select 语句进行加工变换以实现多样的导出需求,
也可以在编程的过程中各种对copy批量操作。

2.3.3 使用令人心碎的pg_dump/gp_dump导出(备份)

Pg_dump是逐个节点来串行对外写文件的。
Gp_dump是所有节点同时并行向外写文件的。
一看就知道pg_dump没什么可以说的了,但是还是要提一下,pg_dump是本身postgresql的工具,有一个比较吸引人的优点,它可以直接导出gz压缩的文件,可惜到了EMC这里却没什么发展。

Gp_dump比pg_dump强大,因为它是一个真正的并行工具。
使用gp_dump,首先一定要注意:禁止做全库备份!
因为我们的数据量绝对是海量(GP就是为了海量而生),全库备份即没有必要,而且可能也几乎不能实现。
同时GP系统本身有镜像机制,每行数据都是双份存储的,所以也没有必要做全库备份。很奇怪,EMC为什么没有禁止掉他的全库备份功能。
Gp_dump可以用来把一个表的数据导出为文本文件,并且可以直接生成为压缩文件(这一点非常好)。
但是,导出表数据为文本文件不是纯的数据文件,就是生成的文本文件里面会包含一堆什么GP万岁之类的话,没有找到什么参数去掉,不利于导入到别的类型的数据库里,很是讨厌。例如:
大家执行gp_dump -t 'ods.ods_xmx' -a bi -U gpadmin,把bi库里面的表ods.ods_xmx导出。
完成之后,查看gp_dump_0_3_20120318164648这样格式名称的文件会发现包含了以下废话:
-- Greenplum Database database dump
另外还能发现gp_dump实际上就是一个封装了copy的东西,通过多 个copy并行来实现导出。

相关文章

  • 4.Greenplum数据导出

    2.3 导出 把实体表数据导出为文本文件同样可以使用gpfdist服务下的外部表和copy命令来实现。Copy导...

  • MySQL的数据导入导出

    MySQL数据库的导入导出 导出 导出数据库 导出数据 导出单表数据 导出单表数据结构 操作数据库 导出整个数据库...

  • MySQL导入导出一个、多个、全部数据库,一张、多张表

    导出 导出一个数据库 导出多个数据库 导出全部数据库 导出一张表 导出多张表 导入 导入一个数据库 导入多个数据库...

  • MySQL备份还原

    备份数据库,备份表 导出数据库,表结构+数据 导出数据库,仅表结构。-d 不导出数据只导出结构,--add-dro...

  • Oracle数据库常见操作

    一篇详尽的Oracle常见语句记录~~不断补充 数据导出 导出库 导入库 数据泵导出 数据泵导入 基操 导出数据库...

  • mysqldump备份数据

    标签(空格分隔): mysql 1 导出数据库 1.1 导出所有数据库 1.2 导出单个数据库 1.3 导出...

  • mysql 数据库导入导出

    mysql 数据库导入导出 一般形式: 注意: 一:数据库的导出 导出数据库结构和数据(此时不用加-d),如下导出...

  • 如何dump数据库中数据

    具体使用如下: 1、按库导出数据 2、按表导出数据 3、按具体条件导出数据

  • mongoldb数据导入导出

    mongoldb数据导入 导入json格式: 导入csv格式: mongoldb数据导出 导出json格式: 导出...

  • Oracle导入导出dmp文件

    imp导入 语法 exp导出 语法 导出服务名 导出用户下 导出数据表下的所有数据

网友评论

      本文标题:4.Greenplum数据导出

      本文链接:https://www.haomeiwen.com/subject/uuoxtxtx.html