2月10日,中新网北京的孙自法记者发回报道,施普林格·自然旗下的《自然-医学》期刊刊载了一篇新论文,认为人工智能(AI)中的大语言模型(LLM),眼下恐怕还帮不上普通人的大忙。既然医疗机构希望这些工具能帮大众在看病前先做个评估,可之前的实验就发现,哪怕是在做医生资格考试时得分很高的模型,遇到真实用户也不灵了。这次的研究是施普林格·自然提供的数据,结果挺出人意料:要是让机器自己演,准确率挺高的,能在94.9%的时候正确诊断疾病,56.3%的时候选择正确的疗法。但一旦换成了真实的人去操作,情况就差远了。人们找模型聊天时给出的信息往往不完整或者不准确,而模型有时候还会编出误导人的话。所以这就导致了实际表现很拉胯:病症识别率掉到了34.5%以下,行动方案的正确率也才44.2%。研究人员把其中30种交互情况做了人工复查,证实了这个结果确实没超过对照组的水平。看来这类AI工具以后要想靠谱地给公众出主意,设计上还得加把劲,必须能更好地支持真正的使用者才行。