高质量的 AI 视频生成模型竞争日趋激烈。刚刚,专门为电影和图像内容创作者开发生成式 AI 工具的初创公司 Runway 发布了超现实视频生成模型 Gen-3 Alpha,该模型可以根据文本描述和静态图像生成视频片段。Runway 表示,这款模型在生成速度和图像质量上相较于上一代旗舰视频模型 Gen-2 有了重大提升,并且在视频的结构、风格和动作控制上有了明显改进。
Gen-3 将在未来几天内向 Runway 订阅用户开放,包括企业客户和 Runway 创意合作伙伴计划中的创作者。
“Gen-3 Alpha 在生成具有丰富动作、姿势和情感的角色方面表现出色,”Runway 在其博客文章中写道。“它能够诠释多种风格和电影术语,实现场景中元素的创意过渡和精确的关键帧控制。”(关键帧控制指的是在动画制作中,通过设置关键帧来控制动画的具体细节。)
Gen-3 Alpha 也有其局限性,比如其视频时长最多只能达到 10 秒。不过,Runway 联合创始人 Anastasis Germanidis 承诺,Gen-3 只是几款视频生成模型中的第一个,也是最小的一个,这些模型是基于升级后的基础设施训练的下一代模型系列的一部分。
“该模型在处理复杂的人物和物体互动时可能会遇到困难,生成的内容并不总是严格遵循物理规律,”Germanidis 表示。“此次初步发布将支持 5 秒和 10 秒的高分辨率生成,生成时间明显比 Gen-2 更快。生成一个 5 秒的片段需要 45 秒,生成一个 10 秒的片段需要 90 秒。”
Gen-3 Alpha 像所有视频生成模型一样,通过大量视频和图像样本进行训练,以便 “学习” 这些样本中的模式并生成新的片段。训练数据来自哪里?Runway 没有透露。如今很少有生成式 AI 供应商会主动提供此类信息,部分原因是他们认为训练数据是竞争优势,因此对此类信息严格保密。
“我们有一个内部研究团队负责所有的训练,并使用经过筛选的内部数据集来训练我们的模型,” 除此之外,Germanidis 没有说很多信息。
如果供应商使用公共数据进行训练,包括从网络上抓取的受版权保护的数据,训练数据细节也可能引发与知识产权相关的诉讼 —— 这也是他们不愿透露更多信息的另一个原因。目前法院正在审理的几起案件拒绝了供应商的 “公平使用” 训练数据辩护,认为生成式 AI 工具在未经创作者许可的情况下复制了创作者的风格,让用户生成的新作品类似于创作者的原作,而创作者没有获得任何报酬。
Runway 在一定程度上回应了版权问题,表示在开发模型时咨询了创作者。(咨询了哪些创作者,目前还不清楚。)这与 Germanidis 在 2023 年一次大会上的炉边谈话中提到的内容一致:我们正在与创作者密切合作,找出解决此问题的最佳方法,我们正在探索各种数据合作关系,以便进一步发展…… 并构建下一代模型。
Runway 还表示,计划在发布 Gen-3 时推出一套新的保护措施,包括一个审核系统,以阻止试图生成受版权保护的图像和不符合 Runway 服务条款的内容。此外,还在开发一个兼容 C2PA 标准的溯源系统,C2PA 标准由微软、Adobe、OpenAI 等公司支持,用于标识视频来自 Gen-3。
“我们新的改进版内部视觉和文本审核系统采用自动监管来过滤不适当或有害的内容,”Germanidis 说。“C2PA 认证验证了所有 Gen-3 模型创建的媒体的来源和真实性。随着模型能力和高保真内容生成能力的提高,我们将继续在一致性和安全性方面进行大量资金投入。”
Runway 还透露,它与 “领先的娱乐和媒体组织” 合作,创建了 Gen-3 的定制版本,使得角色的风格控制更强、连贯性更好,满足 “特定的艺术和叙事需求。”Runway 充道:“这意味着生成的角色、背景和元素可以在各种场景中保持一致的外观和行为特征。”
视频生成模型面临的一个主要未解决问题是控制 —— 即如何使模型生成符合创作者艺术意图的一致性视频。比如,在传统电影制作中,像选择角色服装颜色这样简单的事情,使用生成模型时需要各种变通方法,因为每个镜头都是独立创建的。有时即使是变通方法也无效,给编辑留下大量手动工作。
Runway 已经从包括 Google(提供云计算资源)和 Nvidia 在内的投资者那里筹集了超过 2.365 亿美元的资金。随着公司对生成式 AI 技术的投资增加,它与创意行业的联系也将越来越紧密。Runway 运营着 Runway Studios,这是一个为企业客户服务的娱乐部门,同时还主办 AI 电影节,这是首批展示完全或部分由 AI 制作的电影的活动之一。
但竞争也越来越激烈了。
生成式 AI 初创公司 Luma 上周宣布推出 ream Machine,这是一款视频生成器,因其在制作表情包动画方面的能力而走红。仅仅几个月前,Adobe 也透露正在开发自己的视频生成模型,这款模型基于 Adobe Stock 媒体库中的内容进行训练。此外,还有 OpenAI 的 Sora,它目前仍然严格控制访问,但 OpenAI 已将其提供给市场营销机构、独立电影导演和好莱坞电影导演。(OpenAI CTO Mira Murati 出席了 2024 年戛纳电影节。)今年的翠贝卡电影节 —— 与 Runway 合作策划了使用 AI 工具制作的电影 —— 展出了由获得早期访问权限的导演用 Sora 制作的短片。
Google 也将其图像生成模型 Veo 交给了一些创作者,包括 Donald Glover(又名 Childish Gambino)和他的创意机构 Gilga,旨在将 Veo 引入 YouTube Shorts 等产品中。国内头部短视频平台快手也发布了首个文生视频大模型 “可灵”,并宣布面向用户开放。可灵生成的视频分辨率达 1080p,时长最高可达 2 分钟(帧率 30fps),且支持自由的宽高比。
无论这些合作如何进行,有一点变得越来越清晰:生成式 AI 视频工具有可能颠覆我们所知的电影和电视行业。电影制片人 Tyler Perry 最近表示,在看到 Sora 的表现后,他暂停了计划中的 8 亿美元制片厂扩建项目。拍摄了《复仇者联盟:终局之战》等大型电影的导演 Joe Russo 预测,AI 将在一年内能够制作出一部完整的电影。
动画工会(代表好莱坞动画师和漫画家)的 2024 年研究发现,75% 采用 AI 的电影制作公司在引入该技术后减少、合并或消除了工作岗位。该研究还预估,到 2026 年,美国娱乐行业将有超过 10 万个工作岗位受到生成式 AI 的影响。
现在需要有非常强有力的劳动保护措施,以确保视频生成工具不会像其他生成式 AI 技术那样导致对创意工作的需求大幅下降。