Define.xml 文件是临床试验需要提交的重要文件之一,该文件支持以机器可读的格式进行数据集元数据的交换。Define文件中有几个重要部分,我下面来一一介绍。

1. Tabulation Datasets

Tabulation Dataset 的内容包括用于提交的SDTM域的列表(图片中只截取了一小部分数据集)、域的结构、域的关键变量以及链接至SAS传输文件的链接。这里要注意域的展示顺序,按域的类别依次排列: TRIAL DESIGN, SPECIAL PURPOSE, INTERVENTIONS, EVENTS, FINDINGS, FINDINGS ABOUT, RELATIONSHIP。域的结构(Structure),我们可以参考SDTM IG中的说明,如下图:

2. Tabulation Dataset Overview

每一个提交的SDTM数据集,都会有对应的Overview。这部分内容包括变量定义、域的关键变量、变量类型(text, integer, float, datetime, date),来源(Origin)和受控术语(Controlled Terminology)。变量可以链接至VLM(Value Level Metadata),也可以了连接至CT(Control Terminology)。以TI数据集为例,上图展示了TI数据集的Overview的情况。变量IECAT具有受控术语,内容为INCLUSION、EXCLUSION,点击对应链接,Define文件会跳转到Controlled Terminology模块的对应位置,如下图:

3. Value Level Metadata (VLM)
VLM提供了变量在具体条件下元数据的信息,包括变量名,where语句(变量子集的条件),变量类型,长度,来源,受控术语。VLM可以应用到任何具有取值列表的变量中,通常有,--TESTCD,--ORRES,--ORRESU,--STRES,--STRESU。举个例子,对于不同的LB.LBTESTCD,LB.LBORRESU具有不同类型的值。

4. Controlled Terminology (CT)
受控术语包含一个临床试验变量的所有允许取值,通常取值范围与CRF中变量的所有可能取值一致。CT包含Code(原始值),Decode(编码值,如果有就提供);对于CDSIC变量,还包含Alias List Code(Codelist),Alias Value Code(C-code)以及Extensible list values(扩展列表值)。
对照着例子,来讲解下。以下内容是SDTM Terminology 2020-06-26中UNIT的内容。矩形标记的值C71620,是Codeist UNIT的Alias List Code值,即CDSIC对UNIT的编码;标注1 C25613,是 '%' 的Alias Value Code值,即CDSIC对UNIT具体值的编码;标注3 “Yes” 说明UNIT这个Codelist是可扩展的,如果研究中所用单位不在CDSIC提供的列表中,可以在Define中UNIT CT列表中添加这个值,但这个值是没有CDSIC的标准编码Alias Value Code。

数据来源: SDTM Terminology 2020-06-26
我们来看一下某个项目中 LBSTRESU 的CT列表。标注1是这个CT的CDSIC的编码;标注2是 ‘%’ 这个值的CDSIC的编码;标注3处,‘ng/mL’的编码为 ‘*’,因为CDSIC提供的CT列表中并没有这个值,所以它为扩展值(Extended Value)。

5. Computational Algorithms
Computation Algorithm描述产生变量值的方法,这些变量的来源为“Defived”。CA包括方法名称、方法类型以及方法的具体描述。

6. Comment
Comments是对变量的描述。如果描述的内容较短,描述就在Define.xml文件中展示;如果描述的内容较长,描述就保存在附件中作为外部文件中引用。

网友评论