美文网首页
PostgreSQL中Upsert如何区分执行的是Insert还

PostgreSQL中Upsert如何区分执行的是Insert还

作者: 囍冯总囍 | 来源:发表于2020-07-28 10:59 被阅读0次

开发中遇到这种情况,之前用的Upsert中需要知道当前这条记录是Insert还是Upsert,然后后台根据SQL执行的返回结果去做进一步的逻辑判断,比如Insert的时候需要执行其他操作。

当然如果通过先Select的方式查一下在调用Upsert语句就可以实现的,但是这样明显会执行两次【程序】<-->【DB】之间的调用,就必然会消耗一部分的通信成本(往往可以忽略不计但是我就是想较真一下???强词夺理中)

所以,通过什么方式来实现这个功能呢?有同学说写过程啊(这里就不多说了,写过程是可以的,但是实现这么简单的功能专门写个过程,而且也不利于后期迁移等问题,就不多说了)今天介绍一个通过With查询语句和Returning来实现的判断方法

首先我们建立一张表test,分别是主键id,列a和列b,然后通过语句插入一条数据:
INSERT INTO test VALUES (1,2,3);

再次执行这条语句必然会说主键重复无法插入咯。所以通过Upsert方法我们来改造一下:
INSERT INTO test VALUES (1,2,3) ON CONFLICT (id) DO UPDATE SET a=3,b=4;

这样,就可以顺利插入或者更新当前的这一条数据啦。那么如何知道数据库是执行了插入还是更新呢?大体思路如下:

WITH tt AS ( SELECT 1 AS abc FROM test WHERE id = 1 ) INSERT INTO test
VALUES
    ( 1, 2, 3 ) ON CONFLICT ( id ) DO
UPDATE
    SET a = 5, b = 6 
RETURNING ( SELECT abc FROM tt );

至此,如果上述语句中返回的是NULL,说明With没有查询到数据,也就是说执行的是INSERT操作,如果返回的是1,则说明执行了UPDATE操作。


新的转机

刚开始想着这个问题应该很简单,所以就没去百度,直到百度了一下才发现了新大陆
关于这个问题老早就有很多前辈们提出了各种方法(没有用上面这种的,相比而言上面这种实在是太麻烦了,/(ㄒoㄒ)/~~)

那么是如何解决的呢?这里用到了一个PGSQL中的隐藏字段:xmax,那么什么是xmax呢?PGSQL中还有哪些系统的字段?详见Tony老斯的这篇文章:【PostgreSQL中的系统字段:tableoid,xmin,xmax,cmin,cmax,ctid】,这里就不详细描述了,大体转发一下中心思想:

tableid

tableoid 字段代表了数据所在表的对象 id(OID),也就是数据字典表 pg_class 中与该表信息相关的数据行。tableoid 的另一个用途就是在涉及分区表查询或者 UNION 操作时标识数据行所在的具体表。

ctid

ctid 字段代表了数据行在表中的物理位置,也就是行标识(tuple identifier),由一对数值组成(块编号和行索引)。ctid 类似于 Oracle 中的伪列 ROWID。
ctid 可以用于快速查找表中的数据行,也可以用于修复数据损坏。另外,它也可以用于查找并删除表中的重复数据。
需要注意的是,ctid 的值有可能会改变(例如 VACUUM FULL);因此,ctid 不适合作为一个长期的行标识,应该使用主键作为行的逻辑标识。

xmin

xmin 代表了该行版本(row version )的插入事务 ID(XID)。行版本是数据行的具体状态,每次更新操作都会为相同的逻辑行创建一个新的行版本(多版本并发控制,MVCC)。事务 ID 是一个 32 bit 数字。例如:

SELECT xmin,id FROM test;

xmin 字段可以用于查看数据行的插入时间:

SELECT id,to_char(pg_xact_commit_timestamp(xmin),'YYYY/MM/DD HH24:MI:SS') AS insert_time FROM test;

当然使用该特性的时候需要开启数据库的track_commit_timestamp配置,否则会报错:

ERROR:  could not get commit timestamp data
HINT:  Make sure the configuration parameter "track_commit_timestamp" is set.

开启的方法如下:

1. 编辑postgresql.conf,添加配置先如下:
2. track_commit_timestamp = on
3. 接着重启PostgreSQL。

xmax

xmax 字段代表了删除该行的事务 ID,对于未删除的行版本显示为 0。非零的 xmax 通常意味着删除事务还没有提交,或者删除操作被回滚。
PostgreSQL 中的 UPDATE 相当于 DELETE 加 INSERT。,所以在一个行执行了Update操作后,该行的xmax就不会为0。
xmax 还有可能表示当前正在占用行锁的事务 ID,利用 PostgreSQL 扩展插件 pageinspect 可以获取详细信息。

cmin

cmin 代表了插入事务中的命令标识符(从 0 开始)。命令标识符是一个 32 bit 数字。

cmax

cmax 代表了删除事务中的命令标识符,或者 0。

oid

如果使用 PostgreSQL 11 或者更早版本,还有一个隐藏的系统字段:oid。它代表了数据行的对象 ID,只有当创建表时使用了WITH OIDS选项或者配置参数default_with_oids设置为 true 时才会创建这个字段。
从 PostgreSQL 12 开始,不再支持WITH OIDS选项,oid 只用于系统内部。

如何区分?

了解了上面的几个系统字段,可以很轻松想到,通过插入后返回xmax字段的值是否不为0,可以实现判断:如果是UPDATE,XMAX里面会填充更新事务号。
注意直接用UPDATE语句更新的话,XMAX会写入0,因为是新版本,而老版本上XMAX会填入更新事务号。

简单示例:

INSERT INTO test VALUES
    ( 1, 2, 3 ) 
ON CONFLICT ( id ) DO UPDATE SET
        a = 5,b = 6
RETURING
        id, ( CASE WHEN xmax <> 0 THEN 'UPDATE' ELSE 'INSERT' END ) AS type;

===============首次执行上述语句
id    type
1     INSERT

===============再次执行上述语句
id    type
1     UPDATE

批量Upsert示例:

INSERT INTO test VALUES
    ( 1, 2, 3 ),
    ( 2, 3, 4 ),
    ( 3, 4, 5 ),
    ( 4, 5, 6 ),
    ( 5, 6, 7 )
ON CONFLICT ( id ) DO UPDATE SET
        a = 'a', b = 'b' 
RETURNING
    id, ( CASE WHEN xmax <> 0 THEN 'UPDATE' ELSE 'INSERT' END ) AS type;

===============首次执行上述语句
id    type
1     UPDATE
2     INSERT
3     INSERT
4     INSERT
5     INSERT

===============再次执行上述语句
id    type
1     UPDATE
2     UPDATE
3     UPDATE
4     UPDATE
5     UPDATE

上述方法,只能用在Upsert的时候,为什么呢?假设如果是直接执行或先执行Update,会怎样呢?

UPDATE test SET
    a = 1,b = 2 
WHERE
    id < 3 
RETURNING 
    id, xmin, xmax;

===============无论执行多少次,xmax都会是0
===============因为Update相当于先DELETE后INSERT
===============所以代表DELETE事务号的xmax在执行update后保持为0
id    xmin      xmax
1     666       0
2     666       0

小结

  1. insert into on conflict do update,返回xmax不等于0,表示update,等于0表示insert。
  2. 直接update,并提交,提交的记录上xmax为0。
  3. 直接update,并回滚,老版本上的XMAX不为0,表示更新该行的事务号。
  4. 直接DELETE,并回滚,老版本上的XMAX不为0,表示删除该行的事务号。

ctid表示行号
xmin表示INSERT该记录的事务号
xmax表示删除该记录(update实际上是删除老版本新增新版本,所以老版本上xmax有值)的事务号。

参考资料:

【PostgreSQL merge insert(upsert/insert into on conflict) 如何区分数据是INSERT还是UPDATE】

相关文章

网友评论

      本文标题:PostgreSQL中Upsert如何区分执行的是Insert还

      本文链接:https://www.haomeiwen.com/subject/foyzlktx.html