大语言模型让ai 成为公众的第一道健康防线

虽然大家以前觉得AI都能过医师资格考试了，就指望它能当个贴心的“AI健康助手”，但《自然·医学》上发的那篇文章说，牛津互联网研究所的科学家们做了个实验，把事儿给挑明了。他们找了将近1300名英国参与者来试，给他们10种常见的病状比如感冒、贫血、胆结石这些，让大家自己决定该去打120还是找家庭医生看病。结果把人给惊着了，这大语言模型平时在实验室里明明是“优等生”，在标准测试中平均能识别94.9%的疾病，而且超过一半时候给出的建议都对路。可一旦到了真实场景中，“优等生”立马变成了“水货”，识别率一下子跌到了不足35%，行动建议的准确率也低于45%，甚至没比随便用个互联网搜索引擎强到哪去。这就意味着现在的AI在帮普通人作健康决策方面，实际效果根本没大家想得那么神。英国那边的科学家是把参与者分成了三组，随机给他们配了三个模型（GPT-4o、Llama3或者CommandR+）和一个互联网搜索来作对比。这一来就看出了明显的“人机鸿沟”，那种不用真人说话、只在实验室里演练的情况太理想主义了。科学家发现大家其实很难准确把症状说清楚，而AI偶尔也会发一些听起来有道理其实会把人带偏的话。这种双向的信息偏差一出现，模型在真实互动中就被打了折。所以啊，要想让AI成为公众的第一道健康防线帮助大家自我评估和管理，光靠技术迭代不行还得研究清楚怎么跟人打交道才行。现在的大语言模型要是直接拿来给大家做健康咨询还得慎重点，毕竟真实的交流里头有太多实验室测不出来的麻烦事儿了。