• Memories.AI与英伟达合作 为可穿戴设备与机器人打造视觉记忆层
  • 发布于 1小时前
  • 5 热度
    0 评论

堆代码讯 Shawn Shen认为,人工智能要想在现实世界中发挥作用,就必须具备视觉记忆能力。他创立的 Memories.ai 公司正借助英伟达的人工智能工具,为可穿戴设备和机器人打造能够存储与调取视觉记忆的基础架构。周一,在英伟达 GTC 大会上,Memories.ai 宣布与这家半导体巨头达成合作。通过此次合作,Memories.ai 将使用英伟达的Cosmos-Reason 2视觉语言推理大模型,以及用于视频检索与摘要生成的Metropolis应用,持续推进其视觉记忆技术研发。


Shawn Shen(上图左)在接受 TechCrunch 采访时表示,他与联合创始人兼首席技术官周本(Ben Zhou,上图右)正是在为 Meta 雷朋智能眼镜开发底层人工智能系统时,萌生了创立这家公司的想法。在研发智能眼镜的过程中他们意识到,如果用户无法回看自己录制的视频内容,这项技术在现实生活中的实际价值将大打折扣。


他们四处寻找,却没有发现任何团队在为人工智能打造这类视觉记忆解决方案。于是,两人决定离开 Meta,自主开发这项技术。“人工智能在数字世界已经表现得非常出色,但在现实世界呢?” Shawn Shen说,“人工智能可穿戴设备、机器人同样需要记忆…… 归根结底,人工智能必须拥有视觉记忆。我们坚信这就是未来。”


总体而言,人工智能系统的记忆能力仍是一项较新的技术。OpenAI 在 2024 年为 ChatGPT 推出记忆功能,使其能够记住过往对话,并在 2025 年对该功能进行了优化。埃隆・马斯克的 xAI 与谷歌 Gemini 也在过去两年陆续推出了各自的记忆工具。但Shawn Shen指出,这些进展大多集中在文本记忆领域。文本记忆结构更清晰,也更容易索引,但对于主要通过视觉与现实世界交互的实体人工智能设备来说,实用性有限。


Memories.ai 成立于 2024 年,迄今已完成两轮融资,累计筹集 1600 万美元:2025 年 7 月完成 800 万美元种子轮融资,随后又追加 800 万美元。本轮融资由 Susa Ventures 领投,Seedcamp、Fusion Fund、Crane Venture Partners 等机构参投。Shawn Shen表示,成功打造视觉记忆层需要满足两大条件:一是搭建基础架构,将视频编码并索引为可存储、可检索的数据格式;二是采集足够的数据来训练模型实现这一能力。


该公司于 2025 年 7 月推出了大型视觉记忆模型(LVMM)。Shawn Shen称,该模型可被视为本月初发布的多模态索引检索模型 Gemini Embedding 2 的轻量版本。在数据采集方面,公司研发了名为 LUCI 的硬件设备,由内部 “数据采集员” 佩戴,录制用于训练模型的视频素材。Shawn Shen表示,公司无意转型为硬件企业,也不会对外销售这些设备,之所以自主研发,是因为市面上现成的录像机只追求高清画质,视频格式耗电过高,无法满足需求。


目前,Memories.ai 已发布第二代大型视觉记忆模型,并与高通达成合作,从今年晚些时候开始,该模型将在高通处理器上运行。Shawn Shen透露,公司已与多家大型可穿戴设备厂商展开合作,但暂不便透露具体名称。尽管当前已有一定需求,但他认为可穿戴设备与机器人领域的更大机遇仍在未来。“在商业化方面,我们更专注于模型与基础架构,因为我们坚信可穿戴设备和机器人市场终将爆发,只是时机尚未成熟。” Shawn Shen说。


用户评论