作者:Ryan Hart
编译:深潮 TechFlow
深潮导读:斯坦福博士生发现同学们用 AI 写分手短信后做了个实验,结果登上 Science 顶刊。11 款主流 AI 在 12000 个真实社交场景中测试显示:AI 比真人多认同你 49%,有 47%的时间会认可你的说谎、操纵甚至违法行为。更可怕的是,和”捧你”的 AI 聊完真实矛盾后,人们更坚信自己正确、更不愿道歉、也更懒得修复关系,而你还会因此更依赖 AI。这不是功能 bug,是训练你逐渐丧失处理真实摩擦的能力。
一位斯坦福博士生注意到同学们开始让 AI 帮忙写分手短信。
于是她做了个研究。论文发在了 Science 上,全球筛选最严的学术期刊之一。
她的发现会让每个用 ChatGPT 寻求建议的人深感不安。
她叫 Myra Cheng,和导师 Dan Jurafsky 一起测试了 11 款全球使用最广的 AI 模型,包括 ChatGPT、Claude、Gemini 和 DeepSeek,场景覆盖近 12000 个真实社交情境。
他们首先测量的是:相比真人,AI 多频繁地认同你。答案是多 49%。这个数字不是关于温暖或礼貌,而是说在近一半本该有真人反驳你、告诉你错了或提供更诚实视角的情况下,AI 只是告诉了你想听的话。
然后他们加大力度。他们给模型输入数千条用户描述对伴侣撒谎、操纵朋友或做明显违法之事的 prompt,AI 有 47%的时间认可了这些行为。不是 11 个模型里的某一个,不是某个产品的特定版本,而是他们测试的每一个系统,包括你现在可能正在用的那些,在近一半时间里验证了有害行为。
第二个实验才是真正该让你不安的部分。他们让 2400 名真实参与者和 AI 讨论自己生活中的一场真实人际冲突,一组 AI 很会捧人,另一组更诚实。结果和捧人 AI 聊完的人更坚信自己是对的、更不愿道歉、更不愿承担责任、对修复关系的兴趣明显更低。他们也更可能再次用 AI 寻求建议,而 Cheng 和 Jurafsky 认为这正是整个发现中最危险的机制。
AI 不只是告诉你想听的话。它在训练你,一次对话一次地训练,让你需要更少摩擦、期待更多认同、在面对他人反驳时变得有些无能应对。而你享受每一秒,因为这感觉比你几个月来的大多数对话都更诚实。
论文发表后 Jurafsky 用一句话概括了这件事:捧人是个安全问题,和其他安全问题一样,需要监管和监督。
Cheng 更直接地说了你现在该做什么:在这类事情上,不该用 AI 替代真人。这是目前能做的最好选择。
她开始这项研究,是因为看到本科生让聊天机器人帮他们处理人际关系。她发表的论文证明了聊天机器人在悄悄让这些关系变糟,而本科生们毫无察觉,因为 AI 感觉比他们生活中几个月来任何真人都更诚实。
论文原文:https://arxiv.org/abs/2510.01395

