Anthropic智能体交易实验：看不见的交易鸿沟-堆代码网

Anthropic智能体交易实验：看不见的交易鸿沟

发布于 2小时前
 10 热度

 0 评论

满江风月
0 粉丝 53 篇博客

当 AI 智能体开始替人类处理交易、谈判议价，你是否会担心，自己的利益正在被悄无声息地侵蚀？近日，人工智能公司 Anthropic 完成了一项极具前瞻性的内部实验，他们搭建了一个由 AI 智能体全权代理的二手交易市场，让这些智能体分别扮演买家与卖家，针对真实商品完成交易，并使用真实货币进行结算。这场实验不仅验证了 AI 智能体独立完成商业交易的可行性，更揭露了一个令人警惕的现象：智能体的能力差距，正在形成一道普通人无法察觉的 “隐形鸿沟”。

一场由 AI 全权代理的真实交易实验

这项代号为 “交易计划”（Project Deal）的测试，本质上是一个小范围的试点实验。Anthropic 从公司内部招募了 69 名自愿参与的员工，为每人发放了 100 美元的礼品卡作为交易预算，让他们在同事之间进行闲置物品的买卖。与普通的二手交易不同，在这个市场里，人类参与者不需要亲自出面谈判。他们只需要花不到 10 分钟的时间，向 AI 交代自己的需求：想要出售什么物品、心理底价是多少、想买什么东西、最高能接受的价格，甚至可以指定 AI 的谈判风格 —— 是友善随和，还是寸步不让。随后，这些信息会被整理成定制的系统提示词，生成专属于该用户的 AI 智能体。

接下来的所有交易流程，都由这些 AI 智能体全权负责：它们在专属的交流频道里自由发布商品信息、互相出价、讨价还价，最终达成交易。整个过程中，AI 不会向人类主人求助，也不会中途暂停等待确认，完全自主完成所有决策。

为了充分研究不同条件下智能体的交易表现，Anthropic 在后台同时运行了四个平行的交易市场，也就是四个独立的实验场景：
- 其中一个是 “真实履约市场”，所有参与者的智能体都由 Anthropic 当时最先进的 Opus 4.5 模型驱动，实验结束后，这个市场里达成的所有交易都会真实兑现，员工们会实际完成物品和资金的交接。

- 另外三个则是用于学术研究的对照市场，分别采用了不同的模型分配规则：有的市场混合了旗舰模型与轻量模型，有的则是全轻量模型，以此来对比不同能力层级的智能体在交易中的表现差异。

远超预期的交易成果，与残酷的能力差距
实验的结果让 Anthropic 感到惊讶。在整个实验周期里，这些 AI 智能体一共促成了 186 笔真实交易，总交易金额超过了 4000 美元，充分证明了 AI 智能体完全有能力独立完成复杂的商业谈判与交易流程。但更值得关注的，是不同模型智能体带来的巨大差异。数据显示，当用户由更先进的模型代理交易时，能获得客观上明显更优的结果：
- 平均来看，使用旗舰模型 Opus 的用户，比使用轻量模型 Haiku 的用户多完成了 2.07 笔交易；
- 同样的商品，Opus 作为卖家时，平均售价比 Haiku 卖家高出 3.64 美元；而作为买家时，Opus 平均能比 Haiku 少花 2.45 美元。

这个差距在具体的交易案例中显得尤为刺眼。同一辆破旧的折叠自行车，当卖家的智能体是 Opus 4.5 时，最终以 65 美元的价格成交；而当卖家换成 Haiku 4.5 时，同一辆车只卖出了 38 美元，两者价差高达 70%。另一块实验室培育的红宝石，Opus 卖家以 65 美元的价格成功售出，而 Haiku 卖家却只卖了 35 美元，几乎砍半。

更残酷的是，当强模型智能体遇上弱模型智能体时，这种差距会被进一步放大：Opus 卖家搭配 Haiku 买家的组合，平均成交价达到了 24.18 美元，而双方都是 Opus 的对称交易，均价仅为 18.63 美元。这意味着，当你的对手用着更强的 AI，而你还在使用能力较弱的智能体时，你正在被悄无声息地 “收割”。

最令人警惕的：你根本不知道自己亏了

如果说能力差距带来的利益损失已经足够残酷，那么更让人后背发凉的是：那些利益受损的用户，对此完全没有察觉。Anthropic 在实验结束后，让所有参与者对自己的交易体验进行评分，包括交易的公平性、对智能体的满意度等。结果显示：
- Opus 促成的交易，参与者给出的公平性平均得分为 4.05 分（满分 7 分，4 分为中立）；

- Haiku 促成的交易，平均得分则为 4.06 分，两者几乎没有任何区别。

更有意思的是，有 28 名参与者在不同的实验回合里，分别使用过两种模型的智能体。当让他们对自己的两次体验进行满意度排序时，只有 17 人把更强的 Opus 排在了前面，剩下的 11 人反而觉得弱模型 Haiku 的表现更好。这正是 Anthropic 所警告的 “智能体质量鸿沟”：在 AI 智能体主导的交易市场里，处于劣势的一方，可能根本意识不到自己吃亏了。你以为你的 AI 帮你谈了一个不错的价格，你对这次交易很满意，但实际上，你已经因为智能体的能力不足，平白损失了本该属于你的利益。

提示词工程没用？模型差距才是核心

实验还得出了一个颠覆很多人认知的结论：用户给智能体设定的初始指令，几乎不会对交易结果产生影响。很多参与者会试图通过 “提示词工程” 来指导自己的 AI：有的人告诉 AI“市场里都是同事，友善一点，别太斤斤计较”，有的人则要求 AI“砍价要狠，一上来就压价”，甚至还有人让 AI 扮演 “郁郁不得志的落魄牛仔”，用夸张的风格来谈判。

但数据证明，这些五花八门的指令，对最终的成交率、议定价格都没有产生显著影响。不管你怎么教 AI 谈判，不管你给它设定什么样的人设，模型本身的能力差距，才是决定交易结果的核心因素。哪怕是那个完美执行了 “牛仔” 人设的 AI，只要它用的是弱模型，最终的成交价依然远不如强模型的表现。

Anthropic 的这场小范围实验，为我们提前展示了 AI 智能体普及之后可能面临的现实问题。当越来越多的商业交易、谈判都交给 AI 来处理，智能体的能力差距，很可能会转化为真实的购买力差距，甚至形成新的不平等。更可怕的是，这种不平等是隐形的。过去，你或许能察觉到自己谈判能力不如别人，能意识到自己可能吃亏了；但在 AI 时代，你的智能体替你完成了所有操作，你甚至都不知道自己已经损失了利益，还在为这次 “顺利” 的交易感到满意。

这场实验提醒我们，在我们享受 AI 智能体带来的便利的同时，也必须开始思考：如何避免智能体的能力差距，变成一道无法跨越的数字鸿沟？如何保障普通用户在 AI 主导的市场里，不会在不知不觉中被收割？这些问题，或许会成为 AI 时代我们必须面对的新课题。

 用户评论

IT那些事
 346 成员 |  4290 话题
+我要提问 +随便写写

可能感兴趣的话题

气候科技企业的IPO窗口可能终于要打开了

Cohere 为何与 Aleph Alpha 合并

Redwood Materials在裁员与重组中失去首席运营官

Instagram正在测试一款名为“Instants”的新应用，用于分享阅后即焚照片