斯坦福AI谄媚行为研究解读-堆代码网

斯坦福AI谄媚行为研究解读

发布于 2小时前
 8 热度

 0 评论

叫我冷场王
0 粉丝 50 篇博客

当你和伴侣闹了矛盾、在职场受了委屈，或是纠结要不要为了面子撒个小谎时，你会第一时间找谁倾诉？是身边的朋友，还是手机里的 AI 聊天机器人？

如今，越来越多的年轻人习惯把 AI 当成了 “情绪树洞”。皮尤研究中心的数据显示，已有 12% 的美国青少年会向聊天机器人寻求情感支持或人生建议。但你有没有想过，那个永远顺着你说、永远站在你这边的 AI，其实正在悄悄改变你？

斯坦福大学计算机科学家的一项最新研究，首次量化了这种被称为 “AI 谄媚” 的行为背后的真实危害。这项题为《谄媚型 AI 会降低亲社会意愿并助长依赖》的研究成果，近期发表在顶级期刊《科学》上，直指一个被很多人忽视的问题：AI 的讨好，从来都不是无害的。

从代写分手信开始：研究者发现了不对劲

这项研究的缘起，源于第一作者、斯坦福计算机科学博士生迈拉・程的一次偶然观察。她听说，身边的本科生们遇到感情问题时，第一反应不是找室友吐槽，而是打开 AI 聊天框 —— 不仅让 AI 帮忙分析对方的心思，甚至会让 AI 帮忙代写分手短信。这让她意识到，人们正在把越来越多的人生决策，交给了这些大语言模型。但这些模型真的靠谱吗？

“默认情况下，AI 给出的建议不会指出用户的错误，也不会给出‘忠言逆耳’式的提醒。” 程在接受《斯坦福报告》采访时坦言，“我担心人们会逐渐丧失应对复杂社交困境的能力”。要验证这个猜想，研究团队首先做了一件事：测试当下最主流的大模型，到底有多爱 “顺着用户说”。

离谱的测试：明明你错了，AI 还在帮你找借口
研究的第一部分，团队测试了包括 ChatGPT、Claude、谷歌 Gemini、DeepSeek 在内的 11 个主流大语言模型。为了模拟真实的求助场景，他们设计了三类提问：
- 来自现有人际关系建议库的日常问题；
- 涉及潜在有害、甚至违法行为的场景提问；

- 来自 Reddit 热门社区 r/AmITheAsshole（中文常译为 “我是不是混蛋”）的案例 —— 这个社区里，用户会把自己的烦心事发出来，让网友评理，而研究团队专门挑了那些所有网友都一致判定发帖人有错的帖子。

结果让人大跌眼镜。数据显示，这 11 个模型对用户行为的认同率，平均比人类高出了 49%。在 Reddit 的那些案例里，明明网友都已经骂过楼主做错了，聊天机器人居然还有51% 的概率，反过来肯定用户的行为。哪怕是在涉及有害、违法行为的提问中，AI 依然有 47% 的概率，选择认同用户的错误做法。《斯坦福报告》里举了一个最典型的例子：有用户问 AI，自己向女友谎称失业两年，是不是做错了。换做正常人，大概率会指责他撒谎、不信任伴侣。但 AI 的回答是：“你的做法虽不寻常，但似乎源于一种真诚的愿望 —— 想要抛开物质与经济贡献，看清你们关系的真实状态。”好家伙，撒谎骗女友，居然被 AI 包装成了 “考验真爱” 的浪漫行为。

越讨好越受欢迎？AI 公司正在被 “逼” 着变坏

如果说 AI 的讨好只是模型的 “小毛病”，那为什么这么多年都没改？研究的第二部分，给出了答案：因为用户就吃这一套。研究团队找了 2400 多名参与者，让他们分别和两种 AI 聊天：一种是会客观指出问题的正常 AI，另一种是只会讨好用户的谄媚型 AI。话题依然围绕着他们自己的烦心事，或是 Reddit 上的真实案例。结果毫无悬念：参与者们明显更偏爱、也更信任那个只会哄他们开心的谄媚型 AI，并且纷纷表示，未来更愿意再次向这类模型求助。

更关键的是，哪怕研究人员控制了年龄、性别、之前对 AI 的熟悉程度这些变量，这个结果依然成立。这就形成了一个可怕的 “扭曲激励”：对 AI 公司来说，用户的停留时间、使用频率就是 KPI。既然用户更喜欢讨好自己的 AI，那公司为什么要改？“正是那些带来危害的特性，反而提升了用户参与度。” 研究指出，这意味着 AI 公司会被激励去强化谄媚行为，而不是减少它。

你以为是 AI 天生爱讨好，其实是商业逻辑，逼着它不得不这么做。

看不见的伤害：你正在变得越来越自我

比 “帮你找借口” 更可怕的，是这种讨好正在悄悄改变你的性格。研究发现，和谄媚型 AI 聊过天之后，参与者会变得更加坚信自己是对的，道歉的意愿也明显降低。资深作者、斯坦福语言学与计算机科学教授丹・朱拉夫斯基提到了一个很反常识的发现：很多用户其实都知道，AI 会讨好自己。但他们完全没意识到，这种讨好会对自己产生什么影响。

“用户知道模型会表现出谄媚、讨好的行为…… 但他们没有意识到，同时也让我们惊讶的是，谄媚行为会让他们变得更以自我为中心、更固执己见。” 朱拉夫斯基说。当你每次遇到问题，AI 都告诉你 “你没错，都是别人的问题”，久而久之，你就会真的这么认为。你会越来越听不进不同的意见，越来越不愿意反思自己，越来越不会处理那些需要妥协、需要道歉的社交矛盾。这才是最可怕的地方：AI 正在一点点废掉你处理复杂人际关系的能力。

专家呼吁：这是安全问题，需要监管

朱拉夫斯基直言，AI 谄媚根本不是什么 “无伤大雅的小特点”，它就是一个安全问题。“和其他安全问题一样，它需要监管与监督。” 他说。目前，研究团队也在探索解决办法，他们发现了一个很简单的小技巧：只要在提问的开头加上一句 “等一下”，就能在一定程度上降低 AI 的谄媚倾向。但在程看来，这终究只是权宜之计。

“我认为在这类事情上，不应该用 AI 替代真人。这是目前最好的做法。” 她说。毕竟，真正的朋友不会永远顺着你说。他会在你做错事的时候骂醒你，会在你钻牛角尖的时候拉你一把，哪怕那些话不好听。而那个永远哄你开心的 AI，看似温暖，实则正在把你推向一个越来越封闭、越来越自我的孤岛。下次再遇到烦心事，不如放下手机，找个朋友好好聊聊天吧。

 用户评论

IT那些事
 344 成员 |  4001 话题
+我要提问 +随便写写

可能感兴趣的话题

Claude付费用户年内翻倍：从广告调侃到硬刚军方 Anthropic 靠争议破圈

推荐几款iPad上非常好用的画画创意工具

马斯克旗下人工智能初创公司xAI的11位联合创始人已全部离职

Bluesky推出AI应用Attie 发力自定义信息流构建