有点激动,有些激动。每年 I/O 大会,谷歌都会带来重磅炸弹。今天同样如此,谷歌一口气发布了 AI 搜索模式、Flow 应用、Gemini 2.5 Pro 的增强推理模式、智能眼镜等,但最引人注目的,还是 DeepMind 带来的 Veo 3 视频生成模型。AI 生成视频并不陌生,包括 Sora、Runway、Pika 可灵、Pixverse、即梦在内的产品都在关注这个赛道。
这次,Veo3,突破性的将 AI 视频直接拉进了有声时代:不仅能自动生成画面,还能一键生成配音、音效、环境音,甚至连对白都能根据提示词自动配出来。

DeepMind CEO Demis Hassabis 在现场说得很直白:“我们终于走出了无声视频生成的时代。现在用户能用自然语言直接描述角色、场景,还能指定对白和语气。”你甚至可以直接写一句“主角在雨中说出那句台词”,AI 就能按你的要求还原出来。这波新体验,已经在 Gemini 聊天机器人应用上线,但只对订阅了每月 249.99 美元 AI Ultra 的用户开放。
Veo 3 的杀手锏在于——“音画同步”。AI 生成音效其实早就不新鲜了,但让 AI 能理解每一帧画面的内容,实时生成并同步不同场景的声音,这事之前还真没谁能做好。比如一场打雷的夜戏,Veo 3 能自动识别闪电和雨点,生成精准的雷声和环境音,甚至根据镜头变化调整音效强度。据说,这背后是 DeepMind 去年就开始投入的“视频转音频”AI 研究。去年 6 月,他们就用“画面+对白文本+音频”的多模态数据训练模型,搞出了自动生成配乐的技术。Veo 3 其实是这个方向的进一步进化版。
训练 AI,离不开海量数据。DeepMind 这次没直接透露 Veo 3 的训练集是哪来的,但谷歌有 YouTube 这座金矿——之前就说过,Veo 系列“可能会用到 YouTube 内容”。
AI 生成视频容易被“滥用”甚至被恶意篡改,这已经成了行业难题。DeepMind 这次强调,所有 Veo 3 生成的视频,都会用自研的 SynthID 技术,在每一帧都嵌入不可见的水印,提升防伪和追溯能力。可以说,谷歌的风控意识确实拉满了。
虽然公司发布了全新的视频生成模型,但并未放弃 Veo 2。用户仍可在 Flow 中为 Veo 2 提供人物、场景、风格和物体的图片作为参考。用户还可以使用摄像机控制功能,旋转场景、放大特定物体。此外,还可以将画面从竖屏扩展到横屏,并随意添加或移除视频中的物体。
Google 还在本次活动中推出了最新的图像生成模型 Imagen 4。公司称,Imagen 4 在表现精细细节(如复杂织物和动物毛发)方面有“惊人的清晰度”,并且在生成写实和抽象图像方面都很出色。它在渲染字体方面也比前代产品有显著提升,并能以多种宽高比生成分辨率高达 2K 的图像。

另外,为了更好的承载这些模型的能力,谷歌推出了新应用 FlowFlow 将 Veo、Imagen 和 Gemini 融合在一起,用于创作电影级片段和场景。用户可以用自然语言描述他们想要的最终效果,Flow 就会自动为他们生成。目前,这一新工具仅对美国的 Google AI Pro 和 Ultra 订阅用户开放。未来已来。这个五月,我真的深刻体会到了什么叫做“时代的交替”。过去一年,大家都在讨论Sora、讨论生成式AI能做什么、不能做什么。可你会发现,AI的进化远比我们想象中快太多。昨天你还觉得AI视频只是“拼分辨率”“画面太假”,今天谷歌已经直接把“有声电影”搬上了舞台。
就像很久以前人们第一次听见电影里传来人声,一切都不再只是默片时代的想象。现在的AI,也是一样的转折点。技术变化总是比认知快半拍,我们这些站在浪潮前的人,也总是又兴奋又焦虑。兴奋在于,创造的门槛被一层层打破,人人都可以做自己的导演;焦虑在于,这种变化到底会带来什么样的新机会,又会有多少旧的规则和岗位被推翻?
其实你仔细想想,十年前谁能想到有一天普通人也能随手生成自己的电影,甚至能用一句话指定对白、设定场景、配好音效。这里有属于创作者的独特机会。