Veo 3视频生成模型新突破：将 AI 视频直接拉进了有声时代-duidaima 堆代码

Veo 3视频生成模型新突破：将 AI 视频直接拉进了有声时代

发布于 2个月前
 805 热度

 1 评论

果酱
22 粉丝 70 篇博客

有点激动，有些激动。每年 I/O 大会，谷歌都会带来重磅炸弹。今天同样如此，谷歌一口气发布了 AI 搜索模式、Flow 应用、Gemini 2.5 Pro 的增强推理模式、智能眼镜等，但最引人注目的，还是 DeepMind 带来的 Veo 3 视频生成模型。AI 生成视频并不陌生，包括 Sora、Runway、Pika 可灵、Pixverse、即梦在内的产品都在关注这个赛道。

这次，Veo3，突破性的将 AI 视频直接拉进了有声时代：不仅能自动生成画面，还能一键生成配音、音效、环境音，甚至连对白都能根据提示词自动配出来。

DeepMind CEO Demis Hassabis 在现场说得很直白：“我们终于走出了无声视频生成的时代。现在用户能用自然语言直接描述角色、场景，还能指定对白和语气。”你甚至可以直接写一句“主角在雨中说出那句台词”，AI 就能按你的要求还原出来。这波新体验，已经在 Gemini 聊天机器人应用上线，但只对订阅了每月 249.99 美元 AI Ultra 的用户开放。

Veo 3 的杀手锏在于——“音画同步”。AI 生成音效其实早就不新鲜了，但让 AI 能理解每一帧画面的内容，实时生成并同步不同场景的声音，这事之前还真没谁能做好。比如一场打雷的夜戏，Veo 3 能自动识别闪电和雨点，生成精准的雷声和环境音，甚至根据镜头变化调整音效强度。据说，这背后是 DeepMind 去年就开始投入的“视频转音频”AI 研究。去年 6 月，他们就用“画面+对白文本+音频”的多模态数据训练模型，搞出了自动生成配乐的技术。Veo 3 其实是这个方向的进一步进化版。

训练 AI，离不开海量数据。DeepMind 这次没直接透露 Veo 3 的训练集是哪来的，但谷歌有 YouTube 这座金矿——之前就说过，Veo 系列“可能会用到 YouTube 内容”。

AI 生成视频容易被“滥用”甚至被恶意篡改，这已经成了行业难题。DeepMind 这次强调，所有 Veo 3 生成的视频，都会用自研的 SynthID 技术，在每一帧都嵌入不可见的水印，提升防伪和追溯能力。可以说，谷歌的风控意识确实拉满了。

虽然公司发布了全新的视频生成模型，但并未放弃 Veo 2。用户仍可在 Flow 中为 Veo 2 提供人物、场景、风格和物体的图片作为参考。用户还可以使用摄像机控制功能，旋转场景、放大特定物体。此外，还可以将画面从竖屏扩展到横屏，并随意添加或移除视频中的物体。

Google 还在本次活动中推出了最新的图像生成模型 Imagen 4。公司称，Imagen 4 在表现精细细节（如复杂织物和动物毛发）方面有“惊人的清晰度”，并且在生成写实和抽象图像方面都很出色。它在渲染字体方面也比前代产品有显著提升，并能以多种宽高比生成分辨率高达 2K 的图像。

另外，为了更好的承载这些模型的能力，谷歌推出了新应用 FlowFlow 将 Veo、Imagen 和 Gemini 融合在一起，用于创作电影级片段和场景。用户可以用自然语言描述他们想要的最终效果，Flow 就会自动为他们生成。目前，这一新工具仅对美国的 Google AI Pro 和 Ultra 订阅用户开放。未来已来。这个五月，我真的深刻体会到了什么叫做“时代的交替”。过去一年，大家都在讨论Sora、讨论生成式AI能做什么、不能做什么。可你会发现，AI的进化远比我们想象中快太多。昨天你还觉得AI视频只是“拼分辨率”“画面太假”，今天谷歌已经直接把“有声电影”搬上了舞台。

就像很久以前人们第一次听见电影里传来人声，一切都不再只是默片时代的想象。现在的AI，也是一样的转折点。技术变化总是比认知快半拍，我们这些站在浪潮前的人，也总是又兴奋又焦虑。兴奋在于，创造的门槛被一层层打破，人人都可以做自己的导演；焦虑在于，这种变化到底会带来什么样的新机会，又会有多少旧的规则和岗位被推翻？

其实你仔细想想，十年前谁能想到有一天普通人也能随手生成自己的电影，甚至能用一句话指定对白、设定场景、配好音效。这里有属于创作者的独特机会。

 用户评论

且醉
AI大模型的发展速度真的是日新月异啊，基本一个月就有新的东西出来
2025/5/24 8:31:00   [ 0 ]  [ 0 ] 回复

IT那些事
 338 成员 |  3585 话题
+我要提问 +随便写写

可能感兴趣的话题

最近失眠了，中年男人太难了

"非常规人工智能公司"确认完成巨额4.75亿美元种子轮融资

iOS 26代码泄露透露苹果智能家居中枢细节

iOS 26内测版本揭示了苹果AirTag 2的四项新功能