2024年和2025年给chatgpt 反复提问了700 多个来自2021年以后的商业期刊假设问题。为了测试ai能不能

华盛顿州立大学教授Mesut Cicek和他的团队做了一个有意思的实验。他们在2024年和2025年给ChatGPT反复提问了700多个来自2021年以后的商业期刊假设问题。为了测试AI能不能正确判断这些假设是真的还是假的，他们给每个问题都问了10次。你猜怎么着？ChatGPT在2024年的首次测试中准确率是76.5%，到了2025年又提升到了80%，看起来还不错，对吧？不过如果你仔细算算就会发现，扣除随机猜测的概率之后，结果就没那么亮眼了。这时候AI表现也就比随机猜测高出60%左右，勉强算是及格水平，根本达不到让人完全信赖的标准。特别是在识别错误假设的时候，ChatGPT简直是一团糟，正确率只有16.4%。而且它还很不稳健，即使问同一个问题10次，它也未必每次都能给出一样的答案。比如有一次就是5次真和5次假交叉着回答。这一点让齐切克特别担心，他说大家不只要看准确率高不高，更要注意这个AI的答案是不是前后矛盾的。齐切克说：“我们用完全一样的问题重复问10次，发现这个AI有时候会一会儿说‘真’，一会儿说‘假’，甚至还出现过5真5假的情况。”研究里还有些特别有意思的数据，比如当同一个问题重复问10次时，ChatGPT给出一致答案的情况仅约73%。这意味着这个AI在做判断的时候其实并不稳定。齐切克是华盛顿州立大学卡森商学院营销与国际商务系的副教授，也是这个研究的第一作者。他提到团队还邀请了南伊利诺伊大学的Sevincgul Ulu、罗格斯大学的Can Uslay还有东北大学的Kate Karniouchina一起合作完成这项研究。团队选取了2021年以来商业期刊发表的719个科学假设进行测试，这些假设通常涉及复杂因素需要仔细推理才能简化成“真/假”判断。齐切克指出依赖AI做重要决策得格外小心尤其是在需要复杂推理的场景下生成式AI虽然能产出流畅可信的语言但却没有真正理解世界的能力它只是记住了一些信息能给出一些表面见解却并不理解自己在说什么。这项发表在《罗格斯商业评论》上的研究强调目前的通用人工智能AGI可能比我们预期要遥远得多：“ 现在的AI工具不像人类那样理解世界——它们没有‘大脑’，只是记忆信息，能给出一些表面见解，但并不理解自己在说什么。” 齐切克提到其他AI工具的类似测试也得到了相似结果并且2024年一项全国调查显示消费者对主打AI营销的产品购买意愿更低。“ 永远保持怀疑，我并不反对AI，自己也在使用，但必须非常谨慎。”