browser-use AI智能体安装和使用-堆代码网

browser-use AI智能体安装和使用

发布于 2个月前
 1295 热度

 0 评论

深山夕照
0 粉丝 56 篇博客

DeepSeek 以更低的成本训练出可以比肩 GPT-4o 的性能，不仅让缺乏算力的国产大模型看到了希望，甚至连国外网友也直呼真香。最近看到一众国外小哥分享了一款名为 browser-use 的智能体，它可以自动使用浏览器帮你完成一些简单任务。他们在 browser-use 中统一使用 DeepSeek 大模型

由于智能体会自主规划任务，所以 token 消耗不可控，这就要求大模型既要能打，又要价格便宜，成本可控。browser-use 这个智能体看上去挺有趣的，并且在 GitHub 上开源了，我也忍不住安装使用了一下。

安装特别简单，一条命令搞定。然后用它完成了一个简单的任务，搜索 ‘渡码’，并打开我的博客。

browser-use 的核心是通过 LLM 的推理能力分析浏览器页面的HTML内容和文本信息，输出可执行的指令，交给浏览器自动化工具（Playwright）执行。

这些带颜色的框，就是 browser-use 提取的页面信息。这个任务的代码也是非常简单，不到20行。

如果不想写代码，browser-use 也提供了一个webui，通过可视化方式配置任务。

不知道大家有没有关注到最近市面上涌现出一批新的Agent智能体，并且面向的都是可以自主决策、自动完成任务的真正智能体。
1.15日，OpenAI 发布首个 AI Agent 产品——Tasks，自动帮你在手机、电脑上创建提醒，如：“提醒我早发邮件给老板”。

Tasks 可能是更复杂的AI Agent产品 Operator 的雏形，我在之前的文章中提到过 Operator ，是一款可以操作电脑（Computer use）完成任务的智能体。
1.24日，清华、复旦和斯坦福的研究团队联合开发并开源了一款名为 Eko 的 Agent 开发框架，通过自然语言快速构建可用于生产的“虚拟员工”。被认为是对标 OpenAI 的 Operator 项目。

另外，MiniMax 近期开源了专为 AI Agent 设计的大模型，支持400万 token 的上下文，目的是满足Agent的持续记忆和多Agent复杂通信需求。当然很多朋友会觉得，现在的智能体只能完成简单的任务，显得有些鸡肋，完全不如自己动手操作。

但我们看看AI编程领域，大模型刚出来时候，很多模型连冒泡排序都写不对，而现在 WinSurf、Cursor 这样AI编程工具，让不会写代码的人都能开发项目。
智能体这一新趋势同样值得我们关注，去见证其一步步的演进与突破。

 用户评论

AI大模型
 112 成员 |  727 话题
+我要提问 +随便写写

可能感兴趣的话题

一种无人建模的企业风险：AI 正在取代它本需学习的专家

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层

中国AI视频生成模型震动好莱坞

实时智能体 RAG：基于Spark与 Iceberg彻底解决上下文退化问题