浙江将搞医疗大模型测评验证联合实验室

中新网杭州11月28日电，浙江要搞一个医疗大模型的测评验证工作，消息是张煜欢从浙江省卫生健康委那边得来的。浙江省卫生健康委27日透露，他们和中国医学科学院北京协和医学院、中国信息通信研究院合建了个“医学人工智能测评验证联合实验室”，这次还专门把国家人工智能应用中试基地（医疗）·浙江这个基地的专家团队给拉了进来。这个专家库汇聚了省内外41家医院和机构的近300名医学专家，涉及64个专科领域。他们负责给医疗大模型出考题、审结果，这活他们都干过。到现在，他们已经完成了超过20个医疗大模型的评测任务。之所以要搞这个专家库，是因为现在各种医疗大模型越来越多，但是大家都没一个统一的评价标准。大家都担心这些AI产品安不安全、靠不靠谱。团队负责人康俊晖说，他们把内科、外科这些核心科室的专家都找来了，影像科和病理科的权威人士也都在。他们做了超过6万道题的题库，还搞了一套初审、复审和抽样校验的“三审机制”。这相当于给医学人工智能量身定做了一套“专业考题”。这些考题都是按照《卫生健康行业人工智能应用场景参考指引》设计的，覆盖了患者看病、医生诊断这些真实场景。康俊晖介绍说，他们还在题型设计上做了创新。以前那种简单的选择题只能看模型懂不懂知识，没办法看它在复杂情况下行不行。这次他们把主观简答题的比重加大了，就是为了更准确地看看模型的推理能力咋样。比如在辅助诊断的时候，不仅要给出诊断名称，还要让模型详细说说依据和思路；在用药指导这块，也得让它说明选药的理由和注意事项。李春浦指出，医学人工智能是个很特别的领域，伦理、安全这些问题特别敏感。有些大模型是用网上的数据或者有限的临床数据训练出来的，在医院用的时候就容易“水土不服”。光靠教材、文献和个别医院的数据根本不够用。李春浦打了个比方说，一个医学生光看书和实习是干不了复杂活儿的。所以我们必须用大量“真案例、真标准”来检验才行。浙江现在正在搞第二轮的测评验证工作呢。他们想把这项工作常态化，让真正好用的AI产品赶紧推广应用，推动医学人工智能高质量发展。这次测评还有一个目标是要把这些产品用好、管用、实用起来。