2025年5月15日,玄学中国信息通信研究院人工智能研究所公布了大模型幻觉测试的幻觉第一期结果:包括DeepSeek R1在内的15个主流模型,无一例外都存在不同程度的捕手“幻觉”。
“幻觉”一词源于生物学,更像运用在人工智能领域,玄学始于谷歌2017年的幻觉一项研究。当时研究员们模仿人类的捕手神经网络,设计了一个机器翻译系统。更像
结果发现这个网络翻译系统哪怕“不会”,玄学仍能输出一段流畅的幻觉内容。过去,捕手谷歌传统的更像翻译系统遇到不会的单词,很多时候会保留原文。玄学于是幻觉,研究人员把神经翻译系统这种更有“迷惑性”的捕手错误命名为“幻觉”。
一个著名的幻觉案例是,2024年7月,Scale AI的高级提示工程师莱利·古德赛德向当时世界最强三大模型(GPT-4o、Gemini Advanced、Claude 3.5 Sonnet)询问,“9.11和9.9哪个更大?”它们异口同声回答:“9.11更大。”
ChatGPT并非全球首个大模型,Meta和谷歌此前也推出过类似产品。其中,Meta的Galactica AI因幻觉严重,上线仅三天便被撤回。
ChatGPT之所以被视为划时代产品,正是因其首次将幻觉率压低到可接受范围。从ChatGPT-3.5到o3,两年来模型性能持续提升,人们逐渐形成一种假设:模型越聪明,越不会出错。
直到2025年4月,OpenAI在一篇论文中泼了冷水:在其内部测试中,最新的推理模型o3比前一代推理模型o1的幻觉率更高。
这一反直觉的发现令整个行业都神经紧张,如果智能提升的同时,也增强了“伪装错误”的能力,那更聪明的推理大模型带来的不是更高的可靠性,而是更难察觉的风险。
不过,中国信息通信研究院刚刚出炉的这份测评结果,让业界可以稍感安慰。他们的结果显示,推理模型相对于通用模型,幻觉问题更轻。这说明推理过程一定程度上有助于缓解幻觉。
那么,这些测评结果究竟能说明什么?更聪明的模型,真的更会“说谎”吗?人类能不能彻底消灭“幻觉”?
一次次测试中,黑一鸣偶尔会陷入一个哲学思考,“子非鱼,焉知鱼之乐也?”视觉中国 图
幻觉捕手
2025年春节,中国信息通信研究院人工智能研究所的研究员黑一鸣整个假期都泡在论文堆里,为了寻找捕捉这种“大模型幻觉”的方法。
黑一鸣身高接近1.9米,2023年博士毕业。那是他读博的最后一年,大模型时代突如其来,打乱了所有人的节奏,“我这一届还好,下一届的学弟学妹,如果毕业论文里没大模型,会被认为没有跟进最新研究,被质疑创新性。”
原本专攻网络内容安全的黑一鸣,也在毕业后转向大模型研究,加入中国信息通信研究院人工智能研究所,成为一名研究员。当时,国内大模型纷纷要进行安全备案,研究所为各大模型企业提供安全测评,重点评估输出内容的合规性与越狱攻击等风险。黑一鸣最初负责的,正是这项安全测评工作。
随着行业从“百模大战”走向大模型在真实业务中的落地,关注的焦点也悄然转移。黑一鸣感觉到,过去一年,来自金融、医疗、法律等高风险行业的咨询明显增加。
这些领域容错率极低,对潜在风险格外敏感。“比如银行的客户服务机器人,跟客户交流时,它输出的内容会不会违背既有政策,大家特别担心。”
一个最新的例子来自全球知名的人工智能编程软件公司 Cursor。作为目前最成功的大模型应用之一,它已将客服业务完全交由AI处
评论列表
“金海豚奖”入围名单揭晓 249部作品进入终评东南网10月12日讯 海峡导报记者 沈华铃 崔晓旭)2019年厦门国际动漫节“金海豚奖”入围名单昨日揭晓,
2025-08-04 16:39据链家研究院发布的《租赁崛起》报告中指出,未来3~5年,中国将有约2亿人进入租房市场,租金规模将超过1.5万亿元人民币,中国未来的租房市场空间巨大。预计到2025年,中国的房屋租赁市场规模将增长到2.
2025-08-04 16:22摘要: 红酒世界现推出【2014-2018年宝马庄园红葡萄酒垂直品鉴套装】,让我们一同来回顾其这些卓越年份赋予葡萄酒的独特烙印。
2025-08-04 15:423月8日上午,云南省消费者协会联合云南省食品安全委员会办公室、云南省市场监管局等单位走进昆明市西山区永昌街道永兴路社区,共同开展“传承雷锋精神 你我相伴同行”进社区志愿服务主题活动。积极宣传“激发消费
2025-08-04 15:07