DeepSeek 以更低的成本训练出可以比肩 GPT-4o 的性能,不仅让缺乏算力的国产大模型看到了希望,甚至连国外网友也直呼真香。最近看到一众国外小哥分享了一款名为 browser-use 的智能体,它可以自动使用浏览器帮你完成一些简单任务。他们在 browser-use 中统一使用 DeepSeek 大模型

由于智能体会自主规划任务,所以 token 消耗不可控,这就要求大模型既要能打,又要价格便宜,成本可控。browser-use 这个智能体看上去挺有趣的,并且在 GitHub 上开源了,我也忍不住安装使用了一下。

安装特别简单,一条命令搞定。然后用它完成了一个简单的任务,搜索 ‘渡码’,并打开我的博客。

browser-use 的核心是通过 LLM 的推理能力分析浏览器页面的HTML内容和文本信息,输出可执行的指令,交给浏览器自动化工具(Playwright)执行。

这些带颜色的框,就是 browser-use 提取的页面信息。这个任务的代码也是非常简单,不到20行。

如果不想写代码,browser-use 也提供了一个webui,通过可视化方式配置任务。

不知道大家有没有关注到最近市面上涌现出一批新的Agent智能体,并且面向的都是可以自主决策、自动完成任务的真正智能体。
1.15日,OpenAI 发布首个 AI Agent 产品——Tasks,自动帮你在手机、电脑上创建提醒,如:“提醒我早发邮件给老板”。

Tasks 可能是更复杂的AI Agent产品 Operator 的雏形,我在之前的文章中提到过 Operator ,是一款可以操作电脑(Computer use)完成任务的智能体。
1.24日,清华、复旦和斯坦福的研究团队联合开发并开源了一款名为 Eko 的 Agent 开发框架,通过自然语言快速构建可用于生产的“虚拟员工”。被认为是对标 OpenAI 的 Operator 项目。
另外,MiniMax 近期开源了专为 AI Agent 设计的大模型,支持400万 token 的上下文,目的是满足Agent的持续记忆和多Agent复杂通信需求。当然很多朋友会觉得,现在的智能体只能完成简单的任务,显得有些鸡肋,完全不如自己动手操作。
但我们看看AI编程领域,大模型刚出来时候,很多模型连冒泡排序都写不对,而现在 WinSurf、Cursor 这样AI编程工具,让不会写代码的人都能开发项目。
智能体这一新趋势同样值得我们关注,去见证其一步步的演进与突破。