浙江将搞医疗大模型测评验证联合实验室

中新网杭州11月28日电,浙江要搞一个医疗大模型的测评验证工作,消息是张煜欢从浙江省卫生健康委那边得来的。浙江省卫生健康委27日透露,他们和中国医学科学院北京协和医学院、中国信息通信研究院合建了个“医学人工智能测评验证联合实验室”,这次还专门把国家人工智能应用中试基地(医疗)·浙江这个基地的专家团队给拉了进来。这个专家库汇聚了省内外41家医院和机构的近300名医学专家,涉及64个专科领域。他们负责给医疗大模型出考题、审结果,这活他们都干过。到现在,他们已经完成了超过20个医疗大模型的评测任务。 之所以要搞这个专家库,是因为现在各种医疗大模型越来越多,但是大家都没一个统一的评价标准。大家都担心这些AI产品安不安全、靠不靠谱。团队负责人康俊晖说,他们把内科、外科这些核心科室的专家都找来了,影像科和病理科的权威人士也都在。他们做了超过6万道题的题库,还搞了一套初审、复审和抽样校验的“三审机制”。这相当于给医学人工智能量身定做了一套“专业考题”。这些考题都是按照《卫生健康行业人工智能应用场景参考指引》设计的,覆盖了患者看病、医生诊断这些真实场景。 康俊晖介绍说,他们还在题型设计上做了创新。以前那种简单的选择题只能看模型懂不懂知识,没办法看它在复杂情况下行不行。这次他们把主观简答题的比重加大了,就是为了更准确地看看模型的推理能力咋样。比如在辅助诊断的时候,不仅要给出诊断名称,还要让模型详细说说依据和思路;在用药指导这块,也得让它说明选药的理由和注意事项。 李春浦指出,医学人工智能是个很特别的领域,伦理、安全这些问题特别敏感。有些大模型是用网上的数据或者有限的临床数据训练出来的,在医院用的时候就容易“水土不服”。光靠教材、文献和个别医院的数据根本不够用。李春浦打了个比方说,一个医学生光看书和实习是干不了复杂活儿的。所以我们必须用大量“真案例、真标准”来检验才行。 浙江现在正在搞第二轮的测评验证工作呢。他们想把这项工作常态化,让真正好用的AI产品赶紧推广应用,推动医学人工智能高质量发展。这次测评还有一个目标是要把这些产品用好、管用、实用起来。