中华创伤数据库的现状

中国创伤救治联盟信息平台大数据与院内创伤患者数据尚未联通，患者院前-院内-门诊随访数据并未打通。

目前创伤数据库现状

创建院内创伤数据库的现状

创建院内创伤数据库困难重重，主要存在以下的问题：

创建创伤数据库的现状

存储不集中，分散在各科室

数据结构不一，无法整合

数据非结构化，非标准化，难以使用

数据质量和完整性缺乏统一监控

数据量大，人工录入费时费力

……

创伤数据库的建设方案

1.确定数据库结构

2.确定患者入排标准（ICD编码和诊断）

3.制定数据库的创伤术语集

4.数据采集

5.数据链接

6.数据治理

7.数据质控

8.创建创伤专病数据库

1.确定数据库结构

（参考文献：孙鑫的《构建基于既有健康医疗数据的研究性数据库的技术规范》）

既有健康医疗数据治理及利用模式图

每次做任何一个涉及到数据库的问题时，一定要先和商务同时确认好，医院是否有CDR，技术评估医院的CDR是否可用？例如：北大人民的CDR花了很多的钱在建设，但是CDR根本根本无法使用，我们在院内建设创伤数据库还是需要从原始数据-研究性数据库。

2.确定入组患者

单独按照ICD来筛选患者是有问题的，首先在每家医院每一时间段用的ICD编码都不一致，ICD有ICD7，8，9，10，也有其他类型的ICD，而我们做真实数据的研究根本无法仅使用ICD去做匹配，这样匹配出来肯定会有不是这类诊断的患者。图VTE患者用ICD编码筛选出来的肺栓塞的患者

ICD诊断

单独使用诊断也会造成问题，因为诊断来源于医生现写的，就会导致书写的不标注：比如，二型糖尿病，Ⅱ型糖尿病，医疗现状是没有标准的诊断归一，在庞大的数据中无法获得准确的诊断，就算你用了正则可以匹配上所有的诊断，这个本来就不可实现，但万一有一些医生写错别字呢？防不胜防啊！

在这种情况下，我们找到了一套完美的方案：建立每家医院的筛选机制，FF算法。FF算法目前应用于北大人民创伤，并且准确率达到100%！

FF算法

3.制定数据库术语集

术语模块

参考MIMIC和美国国家创伤库字段设定，具备完整的创伤专病术语集

每一个字段包含标准化数据定义

字段来源、字段规则

字段分类：核心、拓展、探索

4.数据采集

目前公司采用医鸣盒子进行采集，自动采集全院各学科创伤患者所有院内数据。医鸣利用界面图文识别、智能接口匹配等独家专利技术实现医疗数据融合，无需传统厂商开发接口，比传统方式节约10倍成本。

医鸣盒子

采用图像识别、智能模式匹配等多种人工智能技术完成数据采集

无需接口，自动采集医院各系统数据，包括电子病历系统（EMR）、检验系统（LIS）、医嘱系统（HIS）、影像系统（PACS）、护理系统等

数据涵盖患者信息、诊断、病史、检验、检查、手术、用药、评分、门诊随访等多维度多模态数据

按项目定义，采集全院所有学科符合录入标准的患者数据

5.数据链接

数据采集完成后，需要从这个维度确定患者的his，lis，pacs数据链接在一起组成完成的患者信息。

确定患者唯一识别码，即患者主索引（例如姓名+身份证&/电话号码&/性别&/生日等各自组合条件）；根据医院数据真实情况，评估患者唯一识别码建立的规则、比例及准确性，将患者多次住院、多次门诊随访的数据基于患者唯一识别码实现多源数据的链接。

按照身份证脱敏生成的患者唯一识别码程序可保证100%准确；

针对匹配度程序不能保证100%准确的患者，提供人工审核确认，审核通过的数据将会被纳入该分组的确定关系中，审核不通过患者释放归入患者数据池。确保数据的可靠性、准确性。

心衰数据连接有身份标识的94.61%；没有身份标识，有（姓名+性别+出生日期）的3.60%；无标识或信息不全1.79%

6.数据结构化

采用NLP技术实现数据提取，复杂计算采用NLP，简单的采用二级推送来实现结构化。

NLP技术

NLP

7.数据质控

质控规则

数据质量的四个维度：完整性、准确性、一致性、连续性

医鸣数据质控工具利用程序质控，保证数据质量：

“空值”检测：

“异常值”检测：字段不能超出正常值范围

“矛盾值”检测：横向“逻辑”检测+纵向“比例”检测

“连续性”检测：首先建立“患者主索引”，根据“患者主索引”得到患者的随访次数及连续随访的时间