健康公平指每个人都应有公正的机会获取和利用医疗卫生资源改善健康状态[1]。医疗人工智能(artificial intelligence,AI)对疾病诊断、监测和治疗的价值日益凸显,在风险因素识别、健康资源分配和精准医疗干预等多方面发挥着重要作用[2]。2019年美国国家医学科学院(National Academy of Medicine,NAM)发布的报告《医疗人工智能:希望•炒作•虚夸承诺•危险》(AI in Health Care: The Hope,the Hype,the Promise,the Peril)提出了可以将AI应用于健康医疗领域实现健康公平的目标[3]。
当谈到AI在医疗实践中是否能促进健康公平时,有学者认为AI可以通过分析医学图像、生物标志物和病历等数据,提供更准确的医疗诊断和治疗方案,减少非主观性错误[4]和提醒医生可能存在的认知偏见[5],减少医疗误诊和漏诊的情况,提高医疗服务的质量和公平性,从而实现更公平的健康决策;亦可以通过远程医疗、智能医疗设备等方式,将医疗资源扩大到偏远地区和社会资源匮乏地区,使低收入群体和欠发达地区人群获取更丰富、更专业的医疗保健资源,减小城乡医疗差距,促进公共健康[6]。
然而医疗AI本身也可能存在偏见,先前应用中出现了许多对种族、民族、性别、残疾状况等方面产生偏见的例子,如不同种族群体的弗明汉卒中量表与发生心脑血管疾病之间的联系明显不同[7],测量自发眨眼率的分析算法在亚裔群体内准确率不高[8]等,算法会将这些现有偏见迭代并放大[9]。在某些国家,种族、宗教背景、年龄以及性取向等不同的患者在获取医疗保健资源时可能会遭受偏见[10-12],如果AI被不当使用,这种不公平现象可能会加剧[13]。
通过消除AI中的偏见来确保健康公平是世界卫生组织管理医疗AI的核心原则[13],随着AI在医学领域中越来越受到关注,了解偏见形成的原因以及提出治理措施至关重要。本文将梳理医疗AI现存偏见形成的原因,并提出可能的治理策略,以期为弥合健康差距提供参考。
1. 医疗AI为何存在偏见
1.1 训练数据存在偏见
在大数据时代,数据量大且复杂,而数据是算法构建的基础,如果训练集隐含偏见,所构建的算法便会出现偏见。医学相关数据主要来自多源异构数据,包括文献数据,临床试验数据,真实世界数据以及大量智能穿戴设备、健身应用等收集的健康数据[14]。目前,医疗AI数据的存放与使用常存在一些问题,如原始数据录入错误和遗漏,缺乏统一的元数据标准,缺乏数据管理、数据清洗的标准化策略,以及许多医疗数据以文本和图像等非结构化形式储存等,这些问题增加了数据管理和整合的难度,而确保训练数据的公平是构建公平算法的首要前提。
1.1.1 数据代表性不足
在初期的数据采集阶段,数据的来源、获取目的和方式,都可能成为算法偏见产生的源头。
社会经济地位较低的患者在获取医疗保健机会方面可能存在限制[15],而社会本身的不平等或偏见会反映在训练数据上,因此与社会经济地位较高的患者相比,此类患者生成的医疗数据可能较少,这是医疗AI产生经济歧视的根源所在。目前投入使用的医疗AI大部分训练数据来自大城市或高层次医疗机构,而基层医疗机构的患者组成和疾病特点可能与医疗AI所使用数据存在差异,这就导致其在基层医疗机构(如社区医院、乡镇卫生院等)应用中的准确性和有效性受到影响,不能使基层患者获得合适的医疗AI决策[16]。
同样,这种数据的不全面性很容易导致算法对某些种族、宗教等群体产生歧视,医疗AI的种族偏见亦根源于此。如果算法是基于西方人群的数据进行训练的,那么当其应用于亚洲人群时,其准确性可能会受到影响;类似地,依赖于中医经方和大量中医医案数据训练的智能中医辅助决策系统,可能不能完全适用于非中国患者。例如,黑色素瘤诊断的AI几乎无法在黑色人种中进行准确判断,因为其皮肤病变图像数据库中黑人患者的比例十分有限[17]。同样地,一个以用于健康护理(而非疾病)费用来代表健康需求水平的健康决策算法可能会错误地认为黑色人种更健康,因为他们在健康方面开销较低,而实际上黑人更容易患病[18]。
医疗AI训练数据不足或缺乏足够的代表性可能会导致算法模型在评估患者风险时出现偏见,从而产生误导性结果[19]。例如,IBM Watson肿瘤AI系统,其训练数据只有小部分来自真实患者治疗数据,而大部分来自虚拟假设,这并不能代表实际的复杂临床情况,且其治疗建议仅来自各类癌症的少数专家的意见,缺少相关指南或可靠证据进行支持[20],这种依赖于个别专家意见的做法必然会影响算法模型的准确性和公平性,因此该系统常常推荐危险和错误的癌症治疗方案。
1.1.2 数据标注具有偏见
数据标注的准确性对于算法训练集数据的质量具有重要影响,然而数据标注往往带有数据标注者的主观判断和个人偏见,即使数据本身准确且具有代表性,但是数据标注标准不统一,那么所构建的算法也将具有偏见[21]。以肺癌诊断为例,其金标准是病理活检,但并非每个肺结节患者都会进行活检[22],肺癌临床筛查最常使用CT扫描,医疗AI所需要的CT影像数据需要由临床经验丰富的医生进行标注[23]。然而,由于医院和软件开发机构的设备不同、不同医生判断不同、标注图像数据的质量和标准不同等存在客观差异,导致数据标注存在偏差,从而使训练集数据产生偏见。
同样,中医医生在长期的临床实践中积累了大量非结构化文本,若要构建中医药AI,则需将这些文本标注为计算机可理解的结构化文本。然而,中医临床所使用术语表达未完全标准化,人工标注十分耗费人力物力,且目前无统一标注标准,这严重影响了训练集数据的质量,进而导致所形成的中医AI模型可能具有偏见。
1.2 算法本身会制造偏见
尽管训练数据集不具有偏见,算法本身也有可能制造偏见。
1.2.1 开发者偏见
其中一种偏见来源于算法的开发者,他们可能有意或无意地将偏见编入算法中。算法的设计目的、数据运用、结果表征等方面均为算法开发者、设计者的主观偏好选择,而人类个体总是受到自身道德观念和相关利益的影响,噪声数据的处理、变量的设置和权重的属性等算法关键性细节均可能被设计者的偏见影响而受到限制,从而影响算法的输出结果[24-25]。算法设计者可能是在无意识的情况下或在利益权衡下特定设计,将社会偏见嵌入到系统设计中,产生了对劣势群体不利的输出结果,使算法产生偏见。算法不仅继承了人类的偏见,而且这些偏见还可能随着数据积累和算法迭代的进行而被强化和放大。
2020年12月,斯坦福大学医学中心(Stanford Health Care)的一线医务人员对医院提出抗议,因为他们未接种到第一批新冠疫苗。医院管理者将该事件归咎于算法,认为是算法决定了医院员工的疫苗接种顺序。然而,专家对该算法进行了详细分析后发现,真正的错误源自设计算法的人,他们没有根据员工在病毒环境中的暴露程度来决定接种顺序,而是简单地按照年龄排序。这个案例揭示了算法决策结果并非总是公平公正的事实,而一旦出现问题,算法往往容易成为决策者的“替罪羊”[26]。
1.2.2 算法缺少透明度
深度学习算法的复杂性和“黑匣子”特性使其决策过程很难被解释和理解,导致预测结果缺乏透明性和可解释性。它可以捕捉到人类无法发现的数据模式,甚至是噪音,这使得其可能会自己创造一些难以被检测到的偏见,这些细微偏见可能在训练过程中不断被复制和放大,从而输出具有偏见的预测结果,使部分群体在医疗实践中得到歧视性对待,甚至还可能导致医疗安全事故的发生,给患者造成伤害甚至死亡。2015年,在英国一例心脏瓣膜修复手术中医疗机器人不仅犯下了严重的操作错误,甚至还干扰了人类医生的正确操作,导致患者不幸死亡[27]。
涵盖所有可能性的算法是不可能存在的,医疗AI无法完全预测和应对所有情况。目前大多数医疗AI是使用回顾性研究的历史数据进行训练的,当面临与训练数据集不同的真实世界数据时,AI的性能可能会下降,增加临床风险。这就像2016年世界著名围棋选手李世石在与围棋机器人AlphaGo对决时,他因为算法存在盲区而赢得一局比赛一样[28],当AI面临它无法预料的情况时,它可能会采取非常规的举措,从而发生意外事件。
1.2.3 医疗AI自主偏见
医疗AI的自主应用也存在潜在偏见。许多患者及亚健康人群常借助面向大众的医疗AI获取诊断和治疗建议,以减轻就诊压力。然而,如果这些医疗AI没有持续更新或没有得到适当的监管,它们也可能对某些患者产生偏见[29]。一个例子是,当癌症患者的护理指南发生变化,调整药物剂量以更有益于特定类型的患者时,如果护理机器人没有及时更新内嵌信息,就可能会导致此类患者接受了不合适的治疗,或者错过了更适合他们的治疗方法,导致患者的健康权益受到损害[30]。
此外,由于内置的程序算法的限制,医疗AI可能会限制患者的自主权,它们可能会以保护患者安全的名义来限制患者的身体活动。尽管这是出于善意,但它可能会剥夺患者作出自主决策的能力,使患者感到被限制和失去控制。医疗AI还可能侵犯患者的隐私,如使用护理机器人进行远程监测患者,医生和家属可能会看到患者更换衣服、洗澡等诸如此类不希望被他人监视的私人行为,这可能会使患者感到不舒服和尴尬,甚至丧失尊严。长此以往,这种侵犯患者隐私的情况可能会对患者的生活质量产生负面影响[31]。
1.3 “公平”的算法亦可造成偏见
最后,偏见会在实践过程中表现出来,构成实践偏见。算法本身的复杂性超出了人类的理解能力[32],这种不透明性所产生的“未知感”会影响患者和临床医生对AI工具的信任。实践偏见与人类有着直接的联系,即使该算法没有偏见,医生、患者的主观认知和社会层面的因素也会影响算法解释和决策实施,这亦是影响健康公平的因素。
1.3.1 患者对医疗AI具有偏见
当涉及未经解释的医疗AI介入诊断和治疗时,患者普遍感到不安。通常,他们只愿意接受AI处理非治疗性事务,如登记、付款和指导就诊等[33]。
这种不安情绪是由多种因素引起的。首先,患者自身的社会经济地位、种族、民族和地理区域等特征不同,导致他们在获得医生、医院和其他医疗服务方面的资源存在不平等的现象,这种不平等也延伸到对医疗AI技术的可获得性,这是全世界所有卫生系统均面临的问题。
其次,患者对AI的信任度也存在差异。一些患者可能对AI技术知之甚少,甚至对医生或医疗机构持怀疑态度,这类患者可能更不信任医生或医疗机构使用AI。如果给予他们选择项的话,他们很可能会拒绝使用AI技术介入他们的医疗过程[34]。
1.3.2 医生对医疗AI具有偏见
传统的临床辅助决策系统(clinical decision support system,CDSS)主要依靠专业知识和指南进行决策,而基于AI的模型则更多地依赖于统计关联。然而,AI算法在将数据转换为模型输出的过程中往往缺乏透明度或可解释性,这种统计关联可能会涉及医生意料之外的变量或相互作用。由于医学界注重专家经验和专业知识,临床医生对于AI工具提出的建议以及围绕AI及其数据使用的透明度及可解释性的看法可能会影响他们是否愿意使用AI工具[35]。
绝大多数医生不会盲目采用和遵循基于算法的 CDSS 的建议,但仅凭其临床经验或已获得的专业知识可能无法准确预测医生对AI建议的接受程度[36]。此外,与较晚开始使用AI的医生相比,较早使用者将更有可能采纳AI的建议,这意味着较早使用AI的医生所负责的患者将更有可能更早地体验到AI的益处或危害。
患者病情严重程度或症状类型可能会对临床医生对AI建议的遵循意愿产生影响。举例来说,对于一个在美国被认定为“黑色人种”并表现出“疼痛”症状的患者,医生可能因为患者的种族而对AI基于患者症状给出的某些决策建议产生怀疑[36],也可能会对AI给出的疼痛报告进行不同的解释[37]。因此,个体的社会背景和医生的主观判断也可能会影响医生对AI建议的接受程度。
在时间紧迫的临床环境中,医生面临着对AI技术的过度依赖或完全忽视的两种极端选择。然而,这种偏差可能会加剧医疗资源不足环境中的健康不平等,并且在这种环境中,时间和财政压力将使患者更有可能遭受不公平待遇。在某些情况下,与商业开发的AI相比,医生可能更倾向于信任和使用由其所处的医院或医疗系统开发或认可的AI工具[38]。因此,如果医生有差异地依赖医疗AI为患者诊治,可能会导致健康不公平。
2. 医疗AI偏见治理
新技术在社会需求的驱动下产生,并经过科学和道德伦理研究,不断改进和实际应用,以适应社会需求并符合人们的普遍价值观。医疗AI也是如此,笔者提出了治理对策,以解决其可能带来的偏见问题,以确保公众的健康公平。
2.1 加强数据管理,优化医疗AI决策
医疗AI技术依赖真实世界的数据进行算法模型的训练和预测,数据是AI计算和决策的基础。虽然目前医院的数据量庞大,但其中大部分是非结构化数据,利用率较低,且许多医院尚未建立统一的数据管理系统,这不利于数据的统一分析,也影响了AI技术在医疗领域的发展。一些国家已经将数据预处理纳入监管框架,以确保训练数据的质量。例如,我国国家药品监督管理局医疗器械技术审评中心组织制定了《深度学习辅助决策医疗器械软件审评要点》,来规范医疗AI技术的数据获取和质量控制,尽可能确保数据来源的多样性,并细分数据集用于算法训练、参数调整和性能评估,以确保数据的真实性和无偏见。
临床决策建议是基于严谨的临床试验、真实世界研究的证据,或专家小组的共识指南等综合制定的,而当前的临床试验或科学研究的受试者人群并不总是与所研究疾病的患者人群或高风险人群的人口统计学特征相匹配。例如,黑人患者在新疗法的临床试验中代表性不足,尽管美国食品药品监督管理局于2015年启动了改善临床试验种族代表性的计划,但不论是在该计划之前、期间和之后,黑人患者在药物临床试验中的代表性均不足[39]。医疗AI临床决策的证据基础和背景研究选用的数据应该以公平为前提,避免纳入真实世界数据和其他相关的健康数据的偏见性信息,以保障医疗AI决策依据的公平。
健康的社会决定因素(social determinants of health,SDOH)是指人们出生到衰老的全部社会环境特征,这些特征包括收入、教育、饮水、食物和卫生设施、居住条件以及获得医疗保健的途径等。医疗措施并不能解决人类生病的原因,而SDOH对于疾病风险和转归起着至关重要的作用。医疗AI的开发应该整合患者健康状况的完整背景信息,我们可以通过收集相关的社会指标或健康影响因素使模型更加全面。然而,缺乏统一的标准来采集不同患者群体的多样性和其独特的社会因素亦可能会导致偏见,这需要建立一个包括人种、族裔、性别、残疾状况、工作、偏好、生活经历等与健康有关因素的数据标准。已有研究汇总了医疗AI针对欧裔、非裔、亚裔、拉丁裔、印第安人等群体的同质性检验,证明不同种族、不同社会暴露等因素会导致结果风险属性不同,因此,明确收集详细的人口统计数据标准可以优化医疗AI,使决策更加准确[40]。
2.2 减少算法偏见,提高透明度和可追溯性
开发人员应该在产品设计和测试之前就意识到医疗AI中常见的偏见类型[14],并在产品设计和开发过程中尽早地采取减轻偏见的措施,如识别和减少训练数据集可能对下游任务带来的偏见、培养具备道德素养的技术开发人员等。
其次,算法缺乏透明度,其固有逻辑即使对开发者来说也是不可视的,这可能会降低医疗AI的可信度。AI学界已经提出了发展可解释性人工智能(explainable AI,XAI)的目标[41],即在使算法保持高性能的同时使其可解释。研究者们为了使人工智能的“黑箱”透明化提出了许多破解的路径和方法并取得了一些成果,如谷歌声称初步破解了一种眼科疾病辅助诊断的医疗AI的机制[42]。然而,计算机学家们普遍认为在算法模型中找到的性能和可解释性之间的合理平衡关系较为困难,性能最佳的算法往往最不透明,而可精确解释的算法决策往往不够准确[43]。这似乎是一个逻辑悖论,可以预见可解释性算法的发展将是一项具有挑战性的漫长的任务。
欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)要求企业可以明确说明算法(特指机器学习模型)是如何运行的,从而保证AI模型作出公平、准确的决策。然而在临床实践中,医生也并不总能完整地解释他们的决策,因为他们的诊疗可能更多凭借直觉和经验,而不是明确的医学指南或共识。临床使用的许多药物的作用机制在最初可能并不清晰,如阿司匹林已被广泛使用70余年后其退热、镇痛和抗炎的药理机制才被完全明确[44],同样,有些观点认为可解释性并非使用医疗AI的必要条件,只要有足够的证据证明AI的决策可靠,医生便能够在临床使用AI工具辅助决策[45]。
现在AI算法愈加复杂,我们应该适当地增加算法的透明度和可追溯性。算法透明包含告知义务、向主管部门报备参数、向社会公开参数、存档数据和公开源代码等,算法解释权可以看成是算法透明原则的具体化体现。应加速完善算法公开透明相关法律,强化算法治理,亦有学者建议应将披露算法源代码设为公司应尽的法律义务,以便于改善医疗AI监管体系[46]。欧盟《人工智能伦理准则》(Ethics Guidelines for Trustworthy AI)、G20《可信赖的人工智能的负责任管理原则》(Principles for Responsible Stewardship of Trustworthy AI)等各种AI国际准则也做出了对算法透明度的规定。尽管算法透明并不等同于算法可解释,但它将鼓励各类主体,如医疗机构、保险公司和社会保障机构等参与监督,从而大大弥补了AI监管不足的缺憾。算法透明还应当与国家安全、社会保障、商业机密等相关利益有序协调,并对算法披露的对象和内容严格规定。算法可追溯性一般指决策过程应该被完全记录以供未来追踪,在某种意义上是算法透明度的延伸,前者强调静态编码透明度,后者强调动态操作透明度。简而言之,算法透明和可追溯并不要求算法可解释,但它们提供了解释算法的可能性并提供了有效的可监督的内容,人类可能不必立即完全解释AI,但是应该努力创造条件以使AI在未来可以解释。
2.3 道德价值观作为顶层设计,澄清责任归属
法律是一种强制性规范,但立法过程严苛且周期漫长,往往只能“事后”提供保护措施,具有一定的滞后缺陷,故伦理和道德成为法律制度的有效补充[47]。目前,医疗AI相关的政策和法规体系尚未完全建立起来,尚缺乏统一的标准化的质量标准、准入制度、评估体系和保障体系,应建立一个用于评估AI设计、制造和使用的道德伦理框架,以道德伦理价值为基础来发展和使用AI技术。2016年,电气电子工程师学会(the Institute of Electrical and Electronics Engineers,IEEE)发布了其第一份关于AI的报告Ethically Aligned Design: A Vision for Prioritizing Human Well-being with Artificial Intelligence and Autonomous System (AI/AS) 。此后,包括国际组织、各国政府、企业和学术团体在内的机构发布了大量的AI伦理原则及指南。如阿西洛马AI原则(Asilomar AI Principles)、欧盟《人工智能伦理准则》(Ethical Guidelines for Trustworthy AI)、中国《新一代人工智能治理原则——发展负责任的人工智能》和世界卫生组织发布的《世界卫生组织卫生健康领域人工智能伦理与治理指南》(Ethics and Governance of Artificial Intelligence for Health: WHO Guidance)等。这些伦理指南的共同价值目标是将人类的利益置于首位,即AI的发展和使用必须以促进人类的利益为第一目的。而医疗AI除了遵守人工智能的伦理原则之外还应遵守医学伦理,《生命医学伦理原则》(Principles of Biomedical Ethics)中首次提出了四项生物伦理原则:尊重自主原则、不伤害原则、有利原则和公正原则[48],这四项原则已被普遍公认为指导医学和生物学研究的伦理原则。AI伦理和生命医学伦理的价值取向是相同的,促进人类健康和福祉,不对人类造成伤害,不对任何人产生偏见。
医疗AI是基于现有的人类经验建立的,而医学本身具有潜在的风险和不确定性,因此无论医疗AI科学性如何,都会存在产生偏见的可能性。作为一种技术,AI没有独立思考和决策的能力,不能被视为承担道德责任的主体,因此参与研发、使用等活动的人类应对AI产品负有道德责任。医疗AI参与诊断和治疗过程需经过医生所在医疗机构的批准,若医生在使用上出现错误,医生和其所在医疗机构应负责任。此外,还需要审查医疗机构是否进行过有关医疗AI使用的培训,以评估机构的责任程度。若医生没有不当使用AI,而是AI本身存在问题,则需要根据其具体问题(如数据标注、程序设计和产品质量等)归责于AI设计者、研发人员或制造商等。同时,医生仍为医疗AI决策的监督者,不应该让医疗AI在没有医护人员许可的情况下作出最终决策。
当前的医疗AI属于医疗设备范畴,批准AI上市的部门和引入临床使用的医疗机构都需要进行风险控制,而在相关人员尽职尽责但仍无法阻止医疗AI作出偏见决策、无法归责于任何一个人时,这意味着可能存在责任空白区。弗洛里迪提出了一种无过失责任原则,意味着没有人有过错,但人们仍然对此错误负有责任,这种分布式道德责任的实现需要各个参与者共同遵守和执行,应将以代理为中心的伦理学转向关注受影响的体系福祉和终极繁荣的、以受事为中心的伦理学,并明确每个主体的风险控制责任[49]。然而,这种分散的责任可能导致个体趋于保守,使技术创新困难。我们可以借鉴欧洲和美国的经验,将特定的责任费用加入AI的销售价格,并尝试建立强制性的政府或行业领导的保险和储备制度,由开发者、制造商、所有者(医疗机构)和政府等多方共同支付费用,并建立一个专门用于支付医疗AI法律责任的独立资金池,以有效保护患者的权益,同时防止因责任风险而丧失发展和使用技术的动力。伦理原则不仅应该告诉每个主体应该做什么,还应该帮助他们解决更具体和详细的问题,有必要制定更具体和可操作的指南和建议,并转化为政府法规或部门规定,以赋予其法律和行政效力。
3. 结语
当今的AI技术具有巨大的潜力,通过个性化医疗、扩大医疗资源的可及性、提高医疗决策的公正性以及促进健康数据的共享和透明,AI可以确保每个人都能获得适合他们需求的医疗护理,减少健康差距,促进健康公平。医疗AI是促进健康公平的强大力量,但其同时也带来了一些潜在的偏见,这些偏见仍有待得到深度剖析与有效治理。
本文讨论了医疗AI偏见形成的原因,并为解决和减轻这些偏见提出了一些建议。影响健康的因素是复杂的,应用在临床中的医疗AI技术应该反映这种复杂性,同时为了促进健康公平需要在医疗AI创造及使用过程中形成统一的标准,生成尽量公平的数据、道德伦理管理框架,以使医疗AI更值得信赖,保障公众的健康公平。
网友评论