中华创伤数据库的现状
目前创伤数据库现状中国创伤救治联盟信息平台大数据与院内创伤患者数据 尚未联通,患者院前-院内-门诊随访数据并未打通。
创建院内创伤数据库的现状
创建院内创伤数据库困难重重,主要存在以下的问题:
创建创伤数据库的现状存储不集中,分散在各科室
数据结构不一,无法整合
数据非结构化,非标准化,难以使用
数据质量和完整性缺乏统一监控
数据量大,人工录入费时费力
……
创伤数据库的建设方案
1.确定数据库结构
2.确定患者入排标准(ICD编码和诊断)
3.制定数据库的创伤术语集
4.数据采集
5.数据链接
6.数据治理
7.数据质控
8.创建创伤专病数据库
1.确定数据库结构
(参考文献:孙鑫的《构建基于既有健康医疗数据的研究性数据库的技术规范》)
既有健康医疗数据治理及利用模式图每次做任何一个涉及到数据库的问题时,一定要先和商务同时确认好,医院是否有CDR,技术评估医院的CDR是否可用?例如:北大人民的CDR花了很多的钱在建设,但是CDR根本根本无法使用,我们在院内建设创伤数据库还是需要从原始数据-研究性数据库。
2.确定入组患者
单独按照ICD来筛选患者是有问题的,首先在每家医院每一时间段用的ICD编码都不一致,ICD有ICD7,8,9,10,也有其他类型的ICD,而我们做真实数据的研究根本无法仅使用ICD去做匹配,这样匹配出来肯定会有不是这类诊断的患者。图VTE患者用ICD编码筛选出来的肺栓塞的患者
ICD诊断单独使用诊断也会造成问题,因为诊断来源于医生现写的,就会导致书写的不标注:比如,二型糖尿病,Ⅱ型糖尿病,医疗现状是没有标准的诊断归一,在庞大的数据中无法获得准确的诊断,就算你用了正则可以匹配上所有的诊断,这个本来就不可实现,但万一有一些医生写错别字呢?防不胜防啊!
在这种情况下,我们找到了一套完美的方案:建立每家医院的筛选机制,FF算法。FF算法目前应用于北大人民创伤,并且准确率达到100%!
FF算法3.制定数据库术语集
术语模块参考MIMIC和美国国家创伤库字段设定,具备完整的创伤专病术语集
每一个字段包含标准化数据定义
字段来源、字段规则
字段分类:核心、拓展、探索
4.数据采集
目前公司采用医鸣盒子进行采集,自动采集全院各学科创伤患者所有院内数据。医鸣利用界面图文识别、智能接口匹配等独家专利技术实现医疗数据融合,无需传统厂商开发接口,比传统方式节约10倍成本。
医鸣盒子采用图像识别、智能模式匹配等多种人工智能技术完成数据采集
无需接口,自动采集医院各系统数据,包括电子病历系统(EMR)、检验系统(LIS)、医嘱系统(HIS)、影像系统(PACS)、护理系统等
数据涵盖患者信息、诊断、病史、检验、检查、手术、用药、评分、门诊随访等多维度多模态数据
按项目定义,采集全院所有学科符合录入标准的患者数据
5.数据链接
数据采集完成后,需要从这个维度确定患者的his,lis,pacs数据链接在一起组成完成的患者信息。
确定患者唯一识别码,即患者主索引(例如姓名+身份证&/电话号码&/性别&/生日等各自组合条件);根据医院数据真实情况,评估患者唯一识别码建立的规则、比例及准确性,将患者多次住院、多次门诊随访的数据基于患者唯一识别码实现多源数据的链接。
按照身份证脱敏生成的患者唯一识别码程序可保证100%准确;
针对匹配度程序不能保证100%准确的患者,提供人工审核确认,审核通过的数据将会被纳入该分组的确定关系中,审核不通过患者释放归入患者数据池。确保数据的可靠性、准确性。
心衰数据连接有身份标识的94.61%;没有身份标识,有(姓名+性别+出生日期)的3.60%;无标识或信息不全1.79%
6.数据结构化
采用NLP技术实现数据提取,复杂计算采用NLP,简单的采用二级推送来实现结构化。
NLP技术 NLP7.数据质控
质控规则
数据质量的四个维度:完整性、准确性、一致性、连续性
医鸣数据质控工具利用程序质控,保证数据质量:
“空值”检测:
“异常值”检测:字段不能超出正常值范围
“矛盾值”检测:横向“逻辑”检测+纵向“比例”检测
“连续性”检测:首先建立“患者主索引”,根据“患者主索引”得到患者的随访次数及连续随访的时间
8.创建数据库
院前、院内数据联通
院内院前数据打通9.数据库功能介绍
功能介绍一 功能2-3 功能4-5 功能6数据库的安全保障
信息科的三条红线1.创伤患者管理系统部署在医院内部,数据不出医院。本地化数据采集、本地化数据储存、本地化数据导出
2.创伤患者管理系统部署在医院内网。如果医院因为科研项目等批准数据出院,采用院内服务器——前置机——外网方式,实现内外隔离,保证医院信息安全。
3.创伤患者管理系统采集的所有患者隐私数据均采用SHA256哈希算法进行不可逆加密脱敏,生成患者唯一识别代码,保障医疗数据在非生产环境中的安全使用,防止敏感信息泄露。
网友评论