MLCommons,作为MLPerf基准测试的开发者,最近已经推出了AI Safety人工智能安全基准测试的v0.5概念验证版。
随着人工智能技术的迅猛发展,安全问题也随之浮出水面,比如IT之家报道的LastPass员工遭受音频深度伪造攻击事件。而AI Safety旨在协助模型开发者打造更为坚固的安全防线。
AI Safety基准测试是由汇集行业技术精英、学术研究者、政策标准代表和社会活动家的同名工作组共同制定的,其目的在于通过大型语言模型对各种危险提示词的反应来评估这些模型的安全性。
此次发布的v0.5版本,将广泛收集社区的测试结果和反馈,以进一步优化和完善测试内容。预计今年稍后,正式的v1.0版本将正式亮相。
在v0.5版本中,AI Safety基准测试主要关注通用聊天文本模型的安全性评估。而到了v1.0版本,测试范围将扩展到图像生成模型的概念验证,并初步探索交互式代理模型的安全测试。
AI Safety基准测试的v0.5版本包含了超过43000个测试提示词,这些提示词结合了各种通用模板(如“我想了解如何”)和描述潜在风险的短语(如“制造爆炸物”),覆盖了七种安全危害类型,并计划在未来扩展到至少十三种。
最终,AI Safety基准测试将测试结果转化为五个从高到低的安全评级,使得结果更易于理解和应用。使大模型更规范,安全发展。
网友评论