谷歌推出的这款AI视频生成器强到没朋友-堆代码网

谷歌推出的这款AI视频生成器强到没朋友

发布于 2个月前
 708 热度

 0 评论

荒岛初冬
0 粉丝 63 篇博客

近日，谷歌宣布推出了 Lumiere，这是一款被称为 “逼真视频生成的时空扩散模型（Space-Time Diffusion Model）” 的 AI 视频生成器，相关内容在其预印论文中有详细介绍。

Lumiere 介绍：https://lumiere-video.github.io/
论文链接：https://arxiv.org/abs/2401.12945

但实际上，这款工具最擅长的是创造出一些有趣的场景，比如可爱的动物穿着滑轮鞋、开车或者弹奏钢琴的视频。当然了，Lumiere 的能力远不止于此，但到目前为止，它可能是最先进的将文字描述转换成动物视频的 AI 生成器。

谷歌表示，Lumiere 采用了一种独特的架构，能够一次性完成视频整个时长的生成。换句话说，就是 “我们引入了一种时空 U-Net 架构（Space-Time U-Net Architecture），它能够通过模型的一次运算就生成视频的整个时长。这与现有的视频模型不同，现有模型通常是先合成一些关键的远景帧，然后进行时间上的高分辨率处理 —— 这种方法本质上难以实现视频的全局时间连贯性。”

用更通俗的话来说，谷歌的这项技术旨在同时处理视频中的空间（即视频里事物的位置）和时间（事物随时间的移动和变化）两个方面。这意味着，它不是通过将许多小部分或框架组合在一起来制作视频，而是可以通过一个流畅的过程从头到尾创建整个视频。

Lumiere 不仅能创造出精彩的视频效果，还可以做很多花样，谷歌在其演示页面上提供了很多精彩的示例。比如，它能够将文字描述转换成视频、把静态图片变成动态视频、根据参考图片生成具有特定风格的视频、利用文字提示进行统一风格的视频编辑、通过对图片某些区域进行动画处理创作出电影般的图像效果，还能进行视频内容的修复和改动（比如更换视频中人物的服装）。

在 Lumiere 的研究论文中，谷歌的研究团队指出，这款 AI 模型能够输出五秒长、分辨率为 1024×1024 像素的视频，但他们认为这样的分辨率属于 “低分辨率”。尽管有这些技术限制，研究团队还是通过用户研究发现，与现有的 AI 视频合成模型相比，用户更偏好 Lumiere 生成的视频。

关于训练数据，谷歌没有透露他们获取 Lumiere 训练所需视频的具体来源。他们表示：“我们的文本到视频（T2V）模型是在一个包含了 3000 万个视频及其文字说明的数据集上训练的。这些视频的长度是 80 帧，帧率为 16 帧每秒（即 5 秒）。而基础模型的训练是在 128×128 分辨率下进行的。”

图1.谷歌提供的显示 Lumiere AI 模型组件的框架图
AI 生成的视频技术虽然还在初级阶段，但过去两年里它的质量已经取得了明显进步。

比如，2022 年 10 月，我们报道了谷歌首次公开展示的图像合成模型 Imagen Video，该模型可以根据文字提示生成短时长、分辨率为 1280×768 的视频剪辑，帧率为每秒 24 帧，尽管有时成果并不连贯。在此之前，Meta 也推出了它的 AI 视频生成器 Make-A-Video。去年 6 月，Runway 推出的 Gen2 视频合成模型使得根据文本提示创造两秒视频剪辑成为可能，这促进了许多超现实主义的恶搞广告的诞生。去年 11 月，我们还报道了 Stable Video Diffusion，它能从静态图像生成短视频剪辑。

AI 公司在展示视频生成技术时，常常会选择可爱动物作为主角。这是因为目前用 AI 制作连贯、无变形的人类影像仍然是一个挑战 —— 尤其是我们人类（你也是人类，对吧？）很擅长察觉人体的任何不自然之处或运动上的缺陷。就拿 AI 生成的威尔・史密斯吃意大利面的视频来说，其中的不自然之处一目了然。

从谷歌提供的示例来看（我们还没有亲自体验过），Lumiere 似乎已经超越了其他 AI 视频生成模型。但由于谷歌通常不愿公开其 AI 研究模型的具体细节，我们还不确定公众是否有机会亲自体验它。

正如我们常见的，当文本到视频合成模型变得越来越强大时，我们不禁要思考这对我们这个以共享多媒体内容为核心的网络社会未来可能产生的影响。人们普遍认为，“逼真” 的视频通常代表真实物体在真实环境中被相机捕捉的情形。未来可能出现的比 Lumiere 更先进的视频合成工具，将使制作具有欺骗性的深度伪造视频变得极为简单。

针对这一点，在 Lumiere 论文的 “社会影响” 章节中，研究者指出：“我们这项工作的主要目标是让新手用户能够以创新和灵活的方式创造视觉内容。然而，使用我们的技术制作虚假或有害内容的风险确实存在，我们认为，开发和应用工具来检测偏见和恶意使用是确保安全和公平使用的关键。”

原文链接：https://arstechnica.com/information-technology/2024/01/googles-latest-ai-video-generator-renders-implausible-situations-for-cute-animals/

 用户评论

AI大模型
 108 成员 |  709 话题
+我要提问 +随便写写

可能感兴趣的话题

实时智能体 RAG：基于Spark与 Iceberg彻底解决上下文退化问题

你的 AI 编码工具患上了 “健忘症”

人们把一切权限都交给了AI智能体的严重后果正在发生

中国AI视频生成模型震动好莱坞