大语言模型让ai 成为公众的第一道健康防线

虽然大家以前觉得AI都能过医师资格考试了,就指望它能当个贴心的“AI健康助手”,但《自然·医学》上发的那篇文章说,牛津互联网研究所的科学家们做了个实验,把事儿给挑明了。他们找了将近1300名英国参与者来试,给他们10种常见的病状比如感冒、贫血、胆结石这些,让大家自己决定该去打120还是找家庭医生看病。结果把人给惊着了,这大语言模型平时在实验室里明明是“优等生”,在标准测试中平均能识别94.9%的疾病,而且超过一半时候给出的建议都对路。可一旦到了真实场景中,“优等生”立马变成了“水货”,识别率一下子跌到了不足35%,行动建议的准确率也低于45%,甚至没比随便用个互联网搜索引擎强到哪去。 这就意味着现在的AI在帮普通人作健康决策方面,实际效果根本没大家想得那么神。英国那边的科学家是把参与者分成了三组,随机给他们配了三个模型(GPT-4o、Llama3或者CommandR+)和一个互联网搜索来作对比。这一来就看出了明显的“人机鸿沟”,那种不用真人说话、只在实验室里演练的情况太理想主义了。科学家发现大家其实很难准确把症状说清楚,而AI偶尔也会发一些听起来有道理其实会把人带偏的话。这种双向的信息偏差一出现,模型在真实互动中就被打了折。 所以啊,要想让AI成为公众的第一道健康防线帮助大家自我评估和管理,光靠技术迭代不行还得研究清楚怎么跟人打交道才行。现在的大语言模型要是直接拿来给大家做健康咨询还得慎重点,毕竟真实的交流里头有太多实验室测不出来的麻烦事儿了。