美文网首页大数据
StreamSets:Oracle CDC Client

StreamSets:Oracle CDC Client

作者: 阿猫阿狗Hakuna | 来源:发表于2018-12-20 14:19 被阅读0次

           Oracle CDC Client(为方便处理,下文中用OCC代替)处理由Oracle LogMiner redo logs提供的CDC信息(可用版本:Oracle 11g或12c)。
           可以使用这个origin执行数据库复制。可以使用一个单独的pipeline,与JDBC Query Consumer或JDBC Multitable Consumer分离。然后,使用Oracle CDC Client启动pipeline,以处理后续更改。
           Oracle CDC Client根据提交编号升序处理数据。
           要读取redo logs,OCC需要LogMiner dictionary。origin可以在redo logs或online catalog中使用dictionary。在redo logs中使用dictionary时,origin可以捕获schema的更改并进行调整。当使用redo log dictionary时,origin还可以生成事件。
           origin可以为数据库中的一个或多个表的INSERT,UPDATE,SELECT_FOR_UPDATE,以及DELETE创建记录。origin在记录头属性中包含CDC和CRUD的信息,以便启动CRUD的目标地址可以方便地处理生成的记录。
           注意:要使用OCC,必须为要使用的数据库启用LogMiner,并完成必要的先前任务。
           配置OCC时,需要配置CDC细节,例如要从中读取的schema和table、如何读取初始更改、dictionary位置以及要包含的操作。还要指定事务窗口和LogMiner会话窗口。
           可以将origin配置为本地缓冲记录或使用数据库缓冲区。在使用本地缓冲区之前,请验证所需资源是否可用,并指定未提交事务的操作。
           可以指定origin处理不支持数据类型时的操作,以及如何处理null值。
           可以指定JDBC连接信息以及用户验证。

    一.LogMiner Dictionary Source

           LogMiner提供了字典帮助处理redo logs。LogMiner可以在多个位置存储字典。
           OCC可以使用以下字典源位置:
    (1)Online catalog:不希望更改表结构时,使用online catalog。
    (2)Redo logs:希望更改表结构时,使用redo logs。当从redo logs中读取字典时,OCC决定何时发生schema更改,并刷新用于创建记录的schema。
           重要:在redo logs中使用字典时,确保每次表结构更新时将最新字典提取到redo logs中。
           注意,在redo logs中使用字典可能比在online catalog中使用字典有更高的延迟。

    二.Oracle CDC Client 预备知识

           在使用OCC Origin之前,请完成以下任务:
    (1)启用LogMiner
    (2)为数据库或表启用补充日志记录
    (3)创建具有所需角色和权限的用户帐户
    (4)若要在redo log中使用字典,请提取Log Miner字典
    (5)安装Oracle JDBC driver

    任务1:启用LogMiner

           LogMiner提供了用于汇总数据库活动的redo log。origin利用这些日志来生成记录。
           LogMiner需要在ARCHIVELOG模式下启用归档。要确定数据库的状态并启用LogMiner,请使用以下步骤:
    (1)作为具有DBA特权的用户登录数据库
    (2)检查数据库日志记录模式:

    select log_mode from v$database;
    

    如果返回ARCHIVELOG,跳到任务2.
    如果返回NOARCHIVELOG,继续以下步骤:
    (3)关闭数据库:

    shutdown immediate;
    

    (4)启动、挂载数据库

    startup mount;
    

    (5)配置启用存档、打开数据库

    alter database archivelog;
    alter database open;
    

    任务2:为数据库或表启用补充日志记录

           要从重做日志检索数据,LogMiner需要数据库或表的补充日志记录。
           对于要使用的每个表,在表级别上至少启用主键或“标识键”日志记录。使用标识键日志记录,记录只包括主键和更改的字段。
           由于Oracle已知的问题,要为表启用补充日志记录,必须首先为数据库启用最小补充日志记录。
           要在origin生成的记录中包含所有字段,请在表或数据库级别启用完整的补充日志记录。完整的补充日志记录提供了来自所有列的数据,包括未更改数据以及主键和已更改列的数据。

    (1)要验证是否为数据库启用了补充日志记录,请运行以下命令:

    SELECT supplemental_log_data_min, supplemental_log_data_pk, supplemental_log_data_all FROM v$database;
    

    如果都返回YES,则跳到任务3;

    (2)启用标识键或完整补充日志记录。

    启用标识键日志记录
           可以为数据库中的单个表或所有表启用标识键日志记录:

    • 单个表
    ALTER DATABASE ADD SUPPLEMENTAL LOG DATA;
    ALTER TABLE <schema name>.<table name> ADD SUPPLEMENTAL LOG DATA (PRIMARY KEY) COLUMNS;
    
    • 所有表
    ALTER DATABASE ADD SUPPLEMENTAL LOG DATA (PRIMARY KEY) COLUMNS;
    

    启用完整的补充日志记录
           可以为数据库中的单个表或所有表启用完整的补充日志记录.

    • 单个表
    ALTER DATABASE ADD SUPPLEMENTAL LOG DATA;
    ALTER TABLE <schema name>.<table name> ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;
    
    • 所有表
    ALTER DATABASE ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;
    

    (3)提交变更:

    ALTER SYSTEM SWITCH LOGFILE;
    

    任务3:创建用户账号

           创建一个与OCC Origin一起使用的用户帐户。可以根据所使用的Oracle版本以不同的方式创建帐户。

    Oracle 12c multitenant databases
    1.作为具有DBA特权的用户登录数据库。
    2.创建常用用户帐号:

    ALTER SESSION SET CONTAINER=cdb$root;
    CREATE USER <user name> IDENTIFIED BY <password> CONTAINER=all;
    GRANT create session, alter session, set container, select any dictionary, logmining, execute_catalog_role TO <username> CONTAINER=all;
    ALTER SESSION SET CONTAINER=<pdb>;
    GRANT select on <db>.<table> TO <user name>;
    

    Oracle 12c standard databases
    1.作为具有DBA特权的用户登录数据库。
    2.创建常用用户帐号:

    CREATE USER <user name> IDENTIFIED BY <password>;
    GRANT create session, alter session, select any dictionary, logmining, execute_catalog_role TO <user name>;
    GRANT select on <db>.<table> TO <user name>;
    

    Oracle 11g databases
    1.作为具有DBA特权的用户登录数据库。
    2.创建常用用户帐号:

    CREATE USER <user name> IDENTIFIED BY <password>;
    GRANT create session, alter session, execute_catalog_role, select any dictionary, select any transaction, select any table to <user name>;
    GRANT select on v$logmnr_parameters to <user name>;
    GRANT select on v$logmnr_logs to <user name>;
    GRANT select on v$archived_log to <user name>;
    GRANT select on <db>.<table> TO <user name>;
    

    任务4:抽取Log Miner Dictionary(Redo Logs)

           当使用redo logs作为字典源时,必须在启动pipeline之前将Log Miner字典提取到redo logs。定期重复此步骤,以确保包含字典的redo logs仍然可用。
           Oracle建议只在非高峰时间提取字典,因为提取会消耗数据库资源。
           要提取Oracle 11g或12c数据库的字典,请运行以下命令:

    EXECUTE DBMS_LOGMNR_D.BUILD(OPTIONS=> DBMS_LOGMNR_D.STORE_IN_REDO_LOGS);
    

           要提取Oracle 12c多租户数据库的字典,请运行以下命令:

    ALTER SESSION SET CONTAINER=cdb$root;
    EXECUTE DBMS_LOGMNR_D.BUILD(OPTIONS=> DBMS_LOGMNR_D.STORE_IN_REDO_LOGS);
    

    任务5:安装Driver

           OCC Origin通过JDBC连接到Oracle。除非安装了所需的驱动程序,否则无法访问数据库。

    三.Schema,Table Name和Exclusion Patterns

           在配置OCC origin时,要指定包含要处理CDC的表,需要定义Schema、表名和可选排除模式。
           在定义schema和表名时,可以使用正则表达式在模式内或跨多个模式定义一组表。还可以使用正则表达式作为排除模式,从较大的表集中排除表的子集。
           例如,你希望进行sales schema中以sales开头的所有表的CDC,而不包括以破折号(-)和单字符后缀结尾的表。您可以使用以下配置来指定要处理的表:

    • Schema: sales
    • Table Name Pattern:SALES*
    • Exclusion Pattern:SALES.*-.

    四.Initial Change

           初始更改是LogMiner redo los中你希望开始处理的地方。当你启动pipeline时,OCC从指定初始更改处开始处理,一直持续到pipeline停止。
           注意,OCC只处理CDC。如果需要现有数据,可以在启动OCC pipeline之前,在单独的pipeline中使用JDBC查询读取表数据。
           OCC提供了几种配置初始更改的方法:

    从最近的变化
           origin处理启动pipeline后发生的所有更改。

    从指定的日期时间
           origin处理在指定的日期时间以及之后发生的所有更改。使用以下格式:DD-MM-YYYY HH24:MI:SS。

    从指定的系统更改号(SCN)
           origin处理指定SCN中以及以后发生的所有更改。当使用指定的SCN时,origin开始处理与SCN关联的时间戳。如果在redo logs中找不到SCN,则origin将继续从redo logs中可用的下一个更高的SCN读取。

    Example
           你希望处理Orders表中的所有现有数据,然后捕获更改的数据,将所有数据写入Amazon S3。要读取现有数据,可以使用JDBC Query Consumer和Amazon S3目的地的pipeline,如下所示:

    image.png

           读取所有现有数据后,停止JDBC Query Consumer pipeline并启动以下OCC pipeline。这个pipeline被配置为接收在启动pipeline之后发生的更改,但是如果你希望防止任何数据丢失,你可以配置初始更改,将其配置为确切的datetime或更早的SCN:


    image.png

    五.Include Nulls 包含空值

           当Oracle LogMiner执行完整的补充日志记录时,得到的数据包括表中所有没有发生更改的空值列,默认情况下,它在生成记录时忽略null值。
           可以在origin中配置记录中包含空值。当目标系统指定了字段时,可能需要包含null值。要包含null值,请在Oracle CDC选项卡上启用include Nulls属性。

    相关文章

      网友评论

        本文标题:StreamSets:Oracle CDC Client

        本文链接:https://www.haomeiwen.com/subject/eigekqtx.html