施普林格自然：人工智能的大语言模型

2月10日，中新网北京的孙自法记者发回报道，施普林格·自然旗下的《自然-医学》期刊刊载了一篇新论文，认为人工智能（AI）中的大语言模型（LLM），眼下恐怕还帮不上普通人的大忙。既然医疗机构希望这些工具能帮大众在看病前先做个评估，可之前的实验就发现，哪怕是在做医生资格考试时得分很高的模型，遇到真实用户也不灵了。这次的研究是施普林格·自然提供的数据，结果挺出人意料：要是让机器自己演，准确率挺高的，能在94.9%的时候正确诊断疾病，56.3%的时候选择正确的疗法。但一旦换成了真实的人去操作，情况就差远了。人们找模型聊天时给出的信息往往不完整或者不准确，而模型有时候还会编出误导人的话。所以这就导致了实际表现很拉胯：病症识别率掉到了34.5%以下，行动方案的正确率也才44.2%。研究人员把其中30种交互情况做了人工复查，证实了这个结果确实没超过对照组的水平。看来这类AI工具以后要想靠谱地给公众出主意，设计上还得加把劲，必须能更好地支持真正的使用者才行。