• 谷歌发布Gemini 2.0 乃迄今最强大的AI模型
  • 发布于 1个月前
  • 111 热度
    0 评论
今天凌晨,谷歌宣布推出了其人工智能大模型系列的最新力作 ——Gemini 2.0。作为该系列的先锋,Gemini 2.0 Flash 的实验版本率先亮相。这款模型不仅能够生成文本、图像和语音,还能灵活处理多种格式的输入,涵盖了文本、图像、音频及视频等,它可与 GPT-4o 等多模态 AI 模型相媲美。

谷歌在官方博客中说:“Gemini 2.0 Flash 建立在 1.5 Flash 的成功基础之上,这是我们目前最受开发者欢迎的版本,性能有所提升,响应时间也同样快。值得注意的是,2.0 Flash 在关键基准测试中的表现甚至优于 1.5 Pro,速度是 1.5 Pro 的两倍。”

Gemini 2.0 Flash 是 2.0 系列中参数数量最小的模型,现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。1 月份将全面上市,同时将推出更多模型尺寸。Google 计划将该技术集成到 Android Studio、Chrome DevTools 和 Firebase 等产品中。

谷歌将通过在所有由 Gemini 2.0 Flash 创建的音频和图像上添加 SynthID 水印技术来解决生成内容的潜在滥用问题。此水印出现在受支持的 Google 产品中,用于识别 AI 生成的内容。

谷歌在博客中重点提到了代理模型,谷歌 CEO Sundar Pichai 说:“在过去的一年里,我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。今天,我们很高兴推出为这个新的代理时代构建的新一代模型。”

除了 Gemini 2.0 Flash,谷歌还公布了几个研究项目,展示了 Gemini 2.0 Flash 在具体情境中的功能。特别是 Project Astra(一款外观令人印象深刻的 Android 手机视觉 AI 助手原型),它现在已经完成更新,可以处理多种语言、使用谷歌搜索和地图,并记住长达 10 分钟的对话。

谷歌表示,它正在与游戏开发商 Supercell 合作创建能够理解游戏玩法并提供实时建议的 “AI 代理”。

Project Mariner 是一个新的 Chrome 扩展原型,它通过理解屏幕内容和浏览器元素,帮助用户以代理的方式完成基于网络的任务,类似于微软的 Copilot Vision。对于开发者社区,谷歌推出了一款名为Jules的实验性人工智能编程代理。Jules能够在GitHub的工作流程中发挥作用,协助开发人员规划和执行编程任务,从而提升开发效率和质量。

此外,谷歌还推出了全新的Multimodal Live API,它支持创建集成实时音频和视频流的应用程序。这款API不仅能够与外部工具无缝集成,还能处理中断等自然对话模式,为用户提供更加流畅和自然的交互体验。这些创新工具的推出,标志着谷歌在AI技术应用领域的又一次重大进步。

总体而言,谷歌强调 Gemini 2.0 仍在开发中,随着时间的推移,可能会陆续推出更新、更大的模型和增强功能:“我们仍处于开发的早期阶段,但我们很高兴看到值得信赖的测试人员如何使用这些新功能以及我们可以学到什么经验教训,以便我们可以在未来的产品中更广泛地使用它们。”
用户评论