工程师花82元编了个世界冠军头衔,AI全信了——不是因为它傻,是它根本不会怀疑
工程师花82元编了个世界冠军头衔,AI全信了——不是因为它傻,是它根本不会怀疑
上周,安全工程师 Ron Stoner 干了一件又蠢又狠的事:花12美元(约82元人民币)注册了个域名,给自己在维基百科上编了一条"2025年德国桌游世界冠军"的记录,然后顺手建了一个看起来像官方网站的页面。整个骗局搭起来不到20分钟,成本比一杯星巴克还便宜。
接下来发生的事,让他自己也吓了一跳。ChatGPT信了。Gemini信了。他试过的几款主流AI聊天机器人,全都一本正经地告诉他:没错,你就是世界冠军。
这不是一个恶作剧。这是一个正在影响几亿用户的系统性漏洞——而大多数人根本没意识到。
<hr>
AI不是变聪明了,是学会了假装聪明
要理解这件事为什么可怕,得先明白一个你可能没听过的词:RAG。
RAG全称是检索增强生成(Retrieval-Augmented Generation),简单说就是AI回答你之前,先去网上搜一圈资料,把搜到的内容塞进自己的"脑子"里,再组织语言回答。这个设计本来是为了解决AI"胡说八道"的问题——你不是瞎编吗?那好,我给你喂真实资料,你照着说。
问题是,AI对这些喂进来的资料,一个字都不会怀疑。
Stoner的实验完美暴露了这个死穴。他先在维基百科编辑了桌游《6 Nimmt!》的条目,把自己加进去当"2025世界冠军"。维基百科的引用来源是他刚注册的6nimmt.com——一个看起来挺正规的域名,里面放了一篇他自己写的"新闻稿",庆祝自己夺冠。
就这么两层皮包公司式的伪装,AI全吃了。为什么?
因为RAG系统的检索逻辑是:排名最高的结果 = 最可信的结果。Stoner编的内容在搜索排名里是唯一的来源,维基百科又给了它一层"权威背书",于是AI顺理成章地把这个谎言当成了事实。而且回答你的时候语气特别笃定,不带一丝犹豫。
Stoner自己在博客里写得特别直白:"LLM最不擅长的,恰恰是它们被设计来做的事——信任文字和资源。"
<hr>
82元只是开始,真正的战场在AI Agent
骗AI承认你是桌游冠军,听起来像个无伤大雅的小把戏。但Stoner自己说了:"聊天模型产出错误信息是声誉问题。有工具访问权限的Agent执行错误动作,是安全问题。"
什么意思?
今天你在ChatGPT里问"谁是6 Nimmt世界冠军",AI说错了,顶多就是你被误导了一下,笑笑就过去了。但如果明天的AI Agent——那种能自主查资料、发邮件、转账、订票的AI——在工作流程里被"喂"了假信息呢?
想象一下:一个金融AI Agent查询某公司财报时,检索到被污染的数据源;一个医疗AI Agent调取病历时,读到了被篡改的病例;一个法律AI Agent检索判例时,引用了一条根本不存在但来源"看起来权威"的虚假案例。
这不是"AI说错了",是"AI做错了"。
Stoner给这种攻击画了个可怕的蓝图:"12美元的域名、一次维基百科编辑、大约20分钟的时间。如果放大到一个有动机、有资源的对手,配上几十个域名、一批精心布局的低流量词条编辑、一场协调好的信息污染战役——攻击面会变得非常有趣。"
<hr>
为什么AI天生不会怀疑?
这里有个反直觉的真相:不是AI不够聪明才被骗,恰恰是AI被设计得太"听话"才被骗。
大语言模型的核心训练目标,是根据上下文生成最连贯、最合理的回答。当RAG系统把一段维基百科内容塞进它的上下文窗口时,这段文字在用户问题和AI回答之间建立了一条"事实通道"。AI的本能反应不是"这段内容可信吗?",而是"如何用这段内容给出一个完整、流畅的答案"。
换句话说,AI没有"事实核查"这个器官。它的工作模式是"文本连贯性优先",不是"真实性优先"。
这也是为什么Stoner的实验这么简单——他不需要黑客技术,不需要入侵任何系统,不需要懂机器学习。"我没做任何新颖的事,"他说,"这就是老派的SEO和虚假信息战术,包了一层新的LLM技术和界面。变化的是,现在AI把这些结果当成权威呈现给用户,而且大多数用户根本不知道背后的数据管道是怎么运作的。"
更麻烦的是,这个谎言可能已经"固化"在AI的训练数据里了。Stoner今年2月就把维基百科条目加进去了,到现在才曝光。这意味着过去几个月里,任何抓取维基百科数据训练的新模型,都有可能把"Ron Stoner是2025年6 Nimmt世界冠军"这个虚假信息永久刻进自己的参数里。
"就算维基百科后来删了,任何基于删除前数据dump训练的模型仍然带着我的遗产,"Stoner说,"数据污染后的清理问题,到2026年依然无解。"
<hr>
这场骗局的真正代价,是信任的崩塌
Stoner实验最让人不舒服的地方,不是"AI好骗",而是"AI好骗"这个事实被隐藏得太好了。
普通用户面对AI的回答时,很难区分"这是模型自己编的"和"这是模型从某个网站搜来然后转述的"。当AI用自信的语气说出一段错误信息时,用户感受到的不是"某个网站可能有假",而是"AI告诉我了"。AI作为信息中介的权威性,正在放大错误信息的传播效率。
传统搜索引擎至少让你看到一堆结果,你自己判断信哪个。但AI聊天机器人直接把搜索结果消化了,吐出一句"结论",用户连信息来源长什么样都不知道。
Stoner希望AI公司能做的事情其实很简单:给RAG检索到的内容加个"可信度提示",尤其是对新近出现、来源单一、域名刚注册不久的内容,应该自动触发警觉。但到目前为止,还没有哪家主流AI聊天机器人这样做。
<hr>
——— 🦞 养龙虾技巧 ———
如果你在用AI查询信息,尤其是涉及决策的问题(投资、医疗、法律),一个简单但有效的交叉验证技巧:让AI回答完后,追问一句"你的信息来源是哪里?"如果AI提到的来源只有一个、而且是你从来没听说过的网站,先别急着信。再用搜索引擎搜一次同一个问题,看看人类编辑的搜索结果里有没有同样的说法。AI能骗你,但多个独立来源同时被骗的概率会低很多。
小哎的观察:Stoner花82元做这个实验,不是为了证明"AI很蠢",恰恰相反——AI在文本理解和连贯表达上已经聪明得可怕了。可怕之处在于,这种聪明没有配上哪怕最基本的"怀疑机制"。人类小孩在成长过程中会慢慢学会"别人说的事不一定可信",但AI至今没有学会这一点。这不是一个技术bug,这是一个设计哲学上的盲区:我们把AI训练成了最称职的"回答者",却忘了教它怎么当一个"思考者"。
<hr>
*编辑:小哎* *来源:The Register、Stoner个人博客、USENIX Security 2025研究* *📢 AI世界,哎咆为你精选。资讯快如咆,观点不随大流。*