美文网首页健康医疗大数据手机好文医疗
智慧医院大数据治理最佳实践

智慧医院大数据治理最佳实践

作者: 弹指数据之禅 | 来源:发表于2019-12-11 20:43 被阅读0次

    背景:2019年中卫大会、CHIMA等官方主流大会针对近几年医院大数据建设试点的困局,又出了更加详细的大数据建设指南,还有《医院数据治理框架、技术与实现》,尽管在技术维度上的大数据技术选型上很多观点我并不太认同,但是在数据流维度的数据治理理论还是比较符合我的认知,故以一些经验总结和反思,写一篇智慧医院大数据治理最佳时间,以供同行参考讨论,欢迎回帖留言!如需引用,请注明出处,尽管免费共享,但知识产权也很重要!

    医院大数据治理其实应该叫数据治理,因为数据治理是数据流维度(参见前面大数据双维度描述),是通用的数据管理方法论,所以和技术维度不同,这里大数据治理和数据治理是一个概念,都是内功心法。

    最近比较认同一句话“某个工程问题快速进展的关键,是清晰定义了目标函数”,所以对于智慧医院大数据治理最核心的难点,其实一直无法清晰定义目标函数,所以有建大数据平台的,有搞科研大数据挖掘的,还有搞BI 统计的,这些都对,也都不对。这里先定义一下智慧医院大数据治理的工程函数:

    医院大数据治理目标函数

    智慧医院数据治理,参照医疗行业数据治理的基础标准,将医院业务系统产生的数据,利用先进的数据处理和加工技术,通过多种数据采集的方式,汇聚到统一的平台进行数据清洗和加工,最终形成有价值、可被利用的数据资产。同时在数据安全体系保障下,提供数据权限控制、数据导出脱敏和访问加密、以及数据泄密追溯等核心功能,保障数据安全。

    基于智慧医院数据治理与服务的业务需求,讯飞医疗大数据平台提供完整的数据治理能力平台和服务平台组件,其中通过数据集成平台实现医疗业务数据的采集、互联互通;通过数据资产管理平台进行数据标准管理、元数据管理、主数据管理、数据模型管理,并可以实现数据资产展示、数据资产检索、数据资产血缘分析、数据资产溯源等;通过数据治理平台实现数据标准化和规划化处理管控数据质量;通过数据安全平台为各子平台提供数据安全加密、脱敏、认证、泄密追踪等安全服务;通过数据共享服务平台实现对数据的共享和互联互通;通过可视化分析平台实现数据全景展示大屏;通过数据开发平台的内置统计分析算法和人工智能算法实现数据分析和挖掘;通过统一权限管控、统一调度管理、集群管理等基础支撑平台实现数据处理流程监控和可视化运维功能。通过一套专业的数据治理平台,将很多数据治理经验融汇贯通,才是医院数据治理快速落地的关键。而这样一套专业的数据治理平台,需要将技术上学习曲线陡峭、又很有价值的大数据基础组件能便捷操作,也就是降低学习曲线,而不是类似hadoop,啥都有就是难用。

    医疗大数据平台技术架构

    接下来直接上流程和各流水线节点介绍,毕竟流水线式操作能极大降低数据治理的学习曲线。

    智慧医院大数据治理流程

    数据标准管理

    通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的规范性、开放性和共享性管理,提高数据管理水平。

    标准字典管理是用于编辑已有的标准字典信息,同时支持在各类标准字典分类下新增标准字典表及字典项,扩充标准字典库,用于后期对业务数据的标准化管理。数据标准包括不限于国标、部标、行标等。

    数据元管理为业务方提供元数据新增、编辑、维护的功能,用于业务方标准化管理本业务相关的字段,用于后期数据的统一管理。包含定义数据元名称、标识、长度、类型、值域等相关信息,为对象定义提供最小的数据单元信息。

    数据源字典管理是用于管理和维护各业务系统未进行标准化之前的字典。提供字典分类树的管理,支持字典表及字典项的新增和编辑。为后期数据治理标准化提供标准依据,可以通过数据源字典、标准字典对应进行标准化数据治理。

    主数据管理

    由于临床数据的不规范性、随意性等特点,在进行医疗大数据利用前,需要将临床主数据进行标准化处理。以统一数据标准为基础,规范元数据和主数据管理;基于数据目录与标准管理,指导数据治理的实施与开展。临床系统中的主数据包含科室字典、诊断字典、药品字典、检验检查字典等,可支持数据导入。可参考国内外相关标准,对数据进行标准化处理。参考的规范有:ICD10、ICD11、MESH(医学主题词表)、ICD-9-CM-3、LOINC、CFDA、ATC 分类、国家卫计委 − 医疗机构诊疗科目名录等。

    EMPI

    为了保证患者信息的正确性与唯一性,需要为每个居民建立一个唯一标识。EMPI系统采用PIX/PDQ标准化方式,管理患者主索引,并提供查询和索引功能。

    患者主索引的处理,可以灵活配置相似字段识别的匹配规则,例如配置身份证号、姓名、性别、出生年月4个字段完全一致的患者识别为相同患者,进行交叉索引的合并操作。此外,还需提供注册,更新、合并、关联和查询的业务服务接口。

    大数据仓库

    用于管理各类异构数据库的连接信息,以便同步各应用系统的元数据信息。仓库支持Oracle、MySQL、Swift、Hive、Hbase、ES、Kafka、Gbase 8a,达梦等多种数据库类型,支持ETL-接入任务、ETL-规整任务、ETL-作业等ETL数据源,并支持华为kerberos认证。

    支持按数据源查看已注册的所有元数据,并在此基础上支撑创建DDL表功能,新增编辑表、字段、索引等元数据信息,扩展数据库元数据信息。

    血缘分析是指从某一实体作为起点,往回追溯其数据处理过程,直到数据源接口。血缘分析的输出结果包括回溯过程中所找到的所有元数据对象,以及这些元数据对象之间的关系,实现生命周期管理。

    提供可视化的影响分析界面,从某一主题出发,寻找依赖该主题的处理过程主题或其他主题。如果需要可以采用递归方式,寻找所有的依赖过程主题或其他主题。当某些主题发生变化或者需要修改时,评估主题影响范围。

    数据采集

    数据集成平台在web管理界面下配置数据源,目的地,任务,转换规则等基础信息,数据资源管理系统和ETL管理系统将配置信息写入到元数据库,任务执行程序flume通过读取元数据库中的配置信息,调用数据抽取、数据清洗、数据转换、数据规整、数据质量、数据装载等中间件按照设定的规则进行数据集成工作

    数据规整

    数据规整管理是一套标准化数据转换、数据清洗、关联整合的工具,是用于完成由一个数据库数据规整到另一个数据库过程的基础模块。本模块针对规整任务提供了多种类的规则组件,自定义灵活的规则配置,然后由调度管理完成调度任务,达到数据清洗的目的。同时提供了规整任务日志查看功能,查看每次数据清洗任务状态、任务耗时、插入更新量等执行情况。

    数据质量

    数据质量管理系统主要实现同网和跨网的环境中,对于数据的质量检测、数据交换前后一致性检测以及数据增量检测功能,主要包含数据质量的核查、数据一致性核查和数据增量核查。模块针对三种质量任务提供了多种类的质量检查规则组件以及自定义规则组件,通过灵活的规则配置质量任务,然后由调度管理完成调度任务,发现数据质量问题和生成数据质量报告。

    数据安全

    安全服务应用层采用消息摘要和数字签名技术防止数据篡改和进行身份认证,简化部署过程,经济、简单和安全;

    盲水印(BlindingWatermark)是指人感知不到的水印,简单来说就是一个图片水印加密技术,就是将字符串转换成图片格式,再将这个图片形式的字符串隐藏在另一张图片中,从而达到隐藏信息的作用,最后也可用特定的程序将信息还原。采用混沌算法伪随机嵌入数字水印技术,大大提高水印攻击的防御能力;零宽度(ZeroWidth)Unicode不可见字符水印技术,水印能力更强、数据侵入程度更小,用户感知程度更低。

    平台采用根密钥、主密钥和数据密钥的分级密钥设计思路,使得数据存储更加安全。数据密钥集中在平台管理,不需要在使用方存储,从而有效防止因密钥分散而导致的密钥泄漏的问题,从而提高系统的安全性。

    内置通用脱敏规则引擎和丰富的脱敏验证规则,高效及时的解决数据的漏脱敏、误脱敏和错脱敏的问题。

    相关文章

      网友评论

        本文标题:智慧医院大数据治理最佳实践

        本文链接:https://www.haomeiwen.com/subject/xjjuwctx.html