今天,由人工智能先驱李飞飞创立的初创公司 World Labs 推出了其首个项目:一个能够通过单张图片生成类似视频游戏的 3D 场景的人工智能系统。
许多人工智能系统能够将照片转化为 3D 模型和环境,但 World Labs 现在是唯一一个可以互动和修改的。
“(我们的技术)让你能够进入任何一张图片,并在 3D 空间中探索它,”World Labs 在博客中写道。“除了输入的图片,其他一切都是生成的。”
World Labs 的系统将图片转换成可交互、可探索的 3D 场景。
这些由人工智能生成的场景,可以通过 World Labs 网站上的演示版进行探索,只要你有键盘和鼠标就可以体验,并且效果令人印象深刻,虽然这些场景略显卡通风格。它们是在浏览器中实时渲染的,并且具有可调节的模拟景深(DoF)和可控制的相机。
World Labs 的系统属于一种新兴的人工智能类别,称为 “世界模型”。这些模型中的许多可以模拟游戏和 3D 环境 —— 但常常存在伪影和一致性问题。例如,初创公司 Decart 的 Minecraft 模拟世界模型 Oasis,其分辨率较低,且很快 “忘记” 了关卡布局。相比之下,World Labs 的方法确保一旦生成,场景保持不变,并且遵循基本的物理法则,这意味着它们具有一定的坚实感和深度感。
World Labs 的系统还可以将交互式效果和动画应用于场景,例如改变物体的颜色和动态照明背景。
“大多数生成式 AI 工具制作的是 2D 内容,如图片或视频,”World Labs 写道。“而 3D 生成则能够提高控制性和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界的方式。”
现在,肯定还有改进的空间。World Labs 的场景并非完全可探索 —— 你的移动范围仅限于一个小范围。(尝试超出这个范围时,你会碰到边界。)偶尔也会出现渲染错误 —— 例如,物体以不自然的方式融合在一起。
不过,World Labs 表示,这只是一个 “早期预览”。
“我们正在努力提升我们生成世界的规模和逼真度,并且正在尝试为用户提供新的互动方式,”World Labs 在博客中写道。
World Labs 今年早些时候成立,已经从 Andreessen Horowitz(a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和 Eric Schmidt 等投资者那里筹集了 2.3 亿美元的风险投资。该公司估值超过 10 亿美元,计划在 2025 年推出首款产品。
除了互动场景,World Labs 还计划开发一些可能对专业人士(如艺术家、设计师、开发者、电影制作人和工程师)有用的工具。其目标客户包括视频游戏开发者和电影制作公司。
“我们已经具备创建虚拟互动世界的能力,但这需要数亿美元的投资和大量开发时间,”World Labs 联合创始人 Justin Johnson 在最近的一期 a16z 播客中表示。“(世界模型)将使你不仅能得到一张图片或一个片段,而是一个完全模拟的、生动的、互动的 3D 世界。”