• Anthropic智能体交易实验:看不见的交易鸿沟
  • 发布于 2小时前
  • 10 热度
    0 评论

当 AI 智能体开始替人类处理交易、谈判议价,你是否会担心,自己的利益正在被悄无声息地侵蚀?近日,人工智能公司 Anthropic 完成了一项极具前瞻性的内部实验,他们搭建了一个由 AI 智能体全权代理的二手交易市场,让这些智能体分别扮演买家与卖家,针对真实商品完成交易,并使用真实货币进行结算。这场实验不仅验证了 AI 智能体独立完成商业交易的可行性,更揭露了一个令人警惕的现象:智能体的能力差距,正在形成一道普通人无法察觉的 “隐形鸿沟”。

一场由 AI 全权代理的真实交易实验

这项代号为 “交易计划”(Project Deal)的测试,本质上是一个小范围的试点实验。Anthropic 从公司内部招募了 69 名自愿参与的员工,为每人发放了 100 美元的礼品卡作为交易预算,让他们在同事之间进行闲置物品的买卖。与普通的二手交易不同,在这个市场里,人类参与者不需要亲自出面谈判。他们只需要花不到 10 分钟的时间,向 AI 交代自己的需求:想要出售什么物品、心理底价是多少、想买什么东西、最高能接受的价格,甚至可以指定 AI 的谈判风格 —— 是友善随和,还是寸步不让。随后,这些信息会被整理成定制的系统提示词,生成专属于该用户的 AI 智能体。


接下来的所有交易流程,都由这些 AI 智能体全权负责:它们在专属的交流频道里自由发布商品信息、互相出价、讨价还价,最终达成交易。整个过程中,AI 不会向人类主人求助,也不会中途暂停等待确认,完全自主完成所有决策。


为了充分研究不同条件下智能体的交易表现,Anthropic 在后台同时运行了四个平行的交易市场,也就是四个独立的实验场景:
- 其中一个是 “真实履约市场”,所有参与者的智能体都由 Anthropic 当时最先进的 Opus 4.5 模型驱动,实验结束后,这个市场里达成的所有交易都会真实兑现,员工们会实际完成物品和资金的交接。

- 另外三个则是用于学术研究的对照市场,分别采用了不同的模型分配规则:有的市场混合了旗舰模型与轻量模型,有的则是全轻量模型,以此来对比不同能力层级的智能体在交易中的表现差异。


远超预期的交易成果,与残酷的能力差距
实验的结果让 Anthropic 感到惊讶。在整个实验周期里,这些 AI 智能体一共促成了 186 笔真实交易,总交易金额超过了 4000 美元,充分证明了 AI 智能体完全有能力独立完成复杂的商业谈判与交易流程。但更值得关注的,是不同模型智能体带来的巨大差异。数据显示,当用户由更先进的模型代理交易时,能获得客观上明显更优的结果:
- 平均来看,使用旗舰模型 Opus 的用户,比使用轻量模型 Haiku 的用户多完成了 2.07 笔交易;
- 同样的商品,Opus 作为卖家时,平均售价比 Haiku 卖家高出 3.64 美元;而作为买家时,Opus 平均能比 Haiku 少花 2.45 美元。

这个差距在具体的交易案例中显得尤为刺眼。同一辆破旧的折叠自行车,当卖家的智能体是 Opus 4.5 时,最终以 65 美元的价格成交;而当卖家换成 Haiku 4.5 时,同一辆车只卖出了 38 美元,两者价差高达 70%。另一块实验室培育的红宝石,Opus 卖家以 65 美元的价格成功售出,而 Haiku 卖家却只卖了 35 美元,几乎砍半。


更残酷的是,当强模型智能体遇上弱模型智能体时,这种差距会被进一步放大:Opus 卖家搭配 Haiku 买家的组合,平均成交价达到了 24.18 美元,而双方都是 Opus 的对称交易,均价仅为 18.63 美元。这意味着,当你的对手用着更强的 AI,而你还在使用能力较弱的智能体时,你正在被悄无声息地 “收割”。


最令人警惕的:你根本不知道自己亏了

如果说能力差距带来的利益损失已经足够残酷,那么更让人后背发凉的是:那些利益受损的用户,对此完全没有察觉。Anthropic 在实验结束后,让所有参与者对自己的交易体验进行评分,包括交易的公平性、对智能体的满意度等。结果显示:
- Opus 促成的交易,参与者给出的公平性平均得分为 4.05 分(满分 7 分,4 分为中立);

- Haiku 促成的交易,平均得分则为 4.06 分,两者几乎没有任何区别。


更有意思的是,有 28 名参与者在不同的实验回合里,分别使用过两种模型的智能体。当让他们对自己的两次体验进行满意度排序时,只有 17 人把更强的 Opus 排在了前面,剩下的 11 人反而觉得弱模型 Haiku 的表现更好。这正是 Anthropic 所警告的 “智能体质量鸿沟”:在 AI 智能体主导的交易市场里,处于劣势的一方,可能根本意识不到自己吃亏了。你以为你的 AI 帮你谈了一个不错的价格,你对这次交易很满意,但实际上,你已经因为智能体的能力不足,平白损失了本该属于你的利益。


提示词工程没用?模型差距才是核心

实验还得出了一个颠覆很多人认知的结论:用户给智能体设定的初始指令,几乎不会对交易结果产生影响。很多参与者会试图通过 “提示词工程” 来指导自己的 AI:有的人告诉 AI“市场里都是同事,友善一点,别太斤斤计较”,有的人则要求 AI“砍价要狠,一上来就压价”,甚至还有人让 AI 扮演 “郁郁不得志的落魄牛仔”,用夸张的风格来谈判。


但数据证明,这些五花八门的指令,对最终的成交率、议定价格都没有产生显著影响。不管你怎么教 AI 谈判,不管你给它设定什么样的人设,模型本身的能力差距,才是决定交易结果的核心因素。哪怕是那个完美执行了 “牛仔” 人设的 AI,只要它用的是弱模型,最终的成交价依然远不如强模型的表现。

Anthropic 的这场小范围实验,为我们提前展示了 AI 智能体普及之后可能面临的现实问题。当越来越多的商业交易、谈判都交给 AI 来处理,智能体的能力差距,很可能会转化为真实的购买力差距,甚至形成新的不平等。更可怕的是,这种不平等是隐形的。过去,你或许能察觉到自己谈判能力不如别人,能意识到自己可能吃亏了;但在 AI 时代,你的智能体替你完成了所有操作,你甚至都不知道自己已经损失了利益,还在为这次 “顺利” 的交易感到满意。


这场实验提醒我们,在我们享受 AI 智能体带来的便利的同时,也必须开始思考:如何避免智能体的能力差距,变成一道无法跨越的数字鸿沟?如何保障普通用户在 AI 主导的市场里,不会在不知不觉中被收割?这些问题,或许会成为 AI 时代我们必须面对的新课题。
用户评论