• 谷歌推出全新Gemini大模型 一个新的时代必将开启
  • 发布于 2个月前
  • 145 热度
    0 评论
谷歌 CEO Sundar Pichai 宣布,我们正迈入一个全新的 AI 时代 ——Gemini 时代。Gemini 是谷歌推出的最新 LLM,Pichai 在今年六月份的 I/O 开发者大会上首次透露了这一消息,现在它终于向公众亮相。

听 Pichai 和谷歌 DeepMind 的 CEO Demis Hassabis 描述,Gemini 的出现代表了 AI 模型的一个巨大飞跃,未来它将影响谷歌几乎所有产品。“最令人振奋的是”,Pichai 表示,“我们只需改进一个底层技术,就能立即让所有产品受益。”

Gemini 不仅仅是一个单一的 AI 模型。它有一个轻量级版本,命名为 Gemini Nano,专为安卓设备设计,可以离线运行。还有一个更强大的版本,命名为 Gemini Pro,它很快就会为谷歌的许多 AI 服务提供支持,并且从今天起成为 Bard 的核心。此外,还有一个更为高级的版本,名为 Gemini Ultra,这是谷歌迄今为止开发的最强大的 LLM,主要用于数据中心和企业级应用。

谷歌目前以几种方式推出这一模型:Bard 现在由 Gemini Pro 提供支持,Pixel 8 Pro 用户将通过 Gemini Nano 获得一些新功能(Gemini Ultra 明年推出)。从 12 月 13 日起,开发者和企业客户可以通过 Google Cloud 中的 Google Generative AI Studio 或 Vertex AI 来使用 Gemini Pro。目前 Gemini 只支持英语,但其他语言的支持很快会跟上。

Pichai 表示,这个模型最终将融入谷歌的搜索引擎、广告产品、Chrome 浏览器等多个领域,影响全球。它代表着谷歌的未来方向,而且来得正是时候。

一年零一周前,OpenAI 推出了 ChatGPT,该产品和公司迅速成为 AI 领域的焦点。而现在,谷歌 —— 这家创造了当前 AI 浪潮众多基础技术的公司,长期以来一直宣称自己是一个 “以 AI 为先” 的组织,却在 ChatGPT 的惊艳表现和 OpenAI 技术迅速主导行业面前显得措手不及且尴尬 —— 现在终于准备好反击了。

那么,我们来谈谈大家都关注的问题:OpenAI 的 GPT-4 与谷歌的 Gemini 的比较。谷歌显然考虑这个问题有段时间了。“我们对两个系统进行了彻底的并排分析和基准测试,”Hassabis 说。谷歌进行了 32 个公认的基准测试来对比这两个模型,从像 Multi-task Language Understanding 基准这样的全面测试,到比较两个模型在生成 Python 代码方面的能力。“在这 32 个基准测试中,我认为我们在其中 30 个上有明显优势,”Hassabis 面带微笑地说到。“有些测试非常具体,有些则更为全面。”

在这些基准测试中(实际上它们大多数相差无几),Gemini 最显著的优势在于其理解和交互视频以及音频的能力。这是谷歌专门设计的:从一开始,多模态就是 Gemini 计划的一部分。与 OpenAI 分别为图像和声音创建 DALL-E 和 Whisper 不同,谷歌从一开始就构建了一个多感官模型。“我们一直对非常通用的系统特别感兴趣,”Hassabis 说。他特别关注的是如何融合这些不同模式 —— 从各种输入和感官中收集尽可能多的数据,然后以同样多样的方式给出回应。

现在,Gemini 最基础的模型仅支持文本输入和输出,但更高级的模型如 Gemini Ultra 可以处理图像、视频和音频。Hassabis 表示,“它的功能将变得更加广泛。”“还包括动作和触感这类东西 —— 更偏向机器人技术领域。” 他说,随着时间的推移,Gemini 将获得更多感知能力,变得更加敏感,并在这个过程中变得更准确、更接地气。“这些模型会更好地理解它们周围的世界。” 当然,这些模型仍会产生幻觉,也存在偏见和其他问题。但 Hassabis 认为,它们了解得越多,表现就会越好。

然而,基准测试毕竟只是基准测试,Gemini 能力的真正考验最终将来自日常用户,他们期望使用它进行创意头脑风暴、信息查询、代码编写等多种任务。谷歌特别看好编程领域,将其视为 Gemini 的强项;公司推出了一种名为 AlphaCode 2 的新代码生成系统,据称其性能超过了 85% 的编程比赛参与者,远超原始 AlphaCode 的 50%。但 Pichai 指出,用户会发现这个模型改善了几乎所有它所触及的领域。

对谷歌来说同样重要的是,Gemini 显然是一个更高效的模型。它在谷歌自家的 Tensor Processing Units 上训练,运行速度更快,成本更低,优于谷歌之前的模型,比如如 PaLM。除了新模型,谷歌还推出了 TPU 系统的新版本 TPU v5p,这是专为数据中心设计的计算系统,用于训练和运行大规模模型。

在与 Pichai 和 Hassabis 的对话中可以清楚地看出,他们认为 Gemini 的发布不仅是一个更大项目的开端,同时也是一次重大的阶段性进步。Gemini 是谷歌期盼已久的模型,是公司多年来一直致力于构建的目标,甚至可能是在 OpenAI 和 ChatGPT 成为全球焦点之前就应该推出的模型。

自从 ChatGPT 推出后,谷歌宣布进入 “紧急状态”,一直被认为是在努力追赶。但公司似乎仍在努力坚守其 “大胆且负责任” 的理念。Hassabis 和 Pichai 都表示,他们不愿意为了赶上趋势而急于行动,尤其是在我们接近最终的 AI 梦想 —— 通用人工智能(AGI)时。

AGI 是指一种自我改进、比人类更聪明、有潜力改变世界的 AI。“当我们接近 AGI 时,情况会有所不同,”Hassabis 说。“这是一种主动性技术,因此我们需要谨慎,但同时也要保持乐观的态度来面对。”

谷歌表示,它一直在努力确保 Gemini 的安全性和负责任性,这不仅通过内部和外部测试实现,还包括红队操作。Pichai 强调,对于以企业用户为主的产品来说,确保数据安全和可靠性尤其重要,而这也正是许多生成式 AI 盈利的领域。

但 Hassabis 承认,推出一款最先进的 AI 系统的风险之一在于,它可能会出现一些之前无法预测的问题和安全漏洞。“这就是为什么你需要发布产品,” 他说,“以便观察和学习。” 谷歌对 Ultra 版本的发布采取了极为谨慎的态度。Hassabis 将其比作一个受控的测试版,为谷歌最强大、最自由的模型提供了一个 “更安全的实验区”。基本上,如果 Gemini 中存在着某种可能破坏婚姻的隐藏人格,谷歌正在努力在用户之前发现它。

多年来,Pichai 和谷歌其他高管一直充满激情地谈论 AI 的潜力。Pichai 本人曾多次表示,AI 对人类的影响将超过火或电。在这个初代版本中,Gemini 模型可能不会改变世界。在最好的情况下,它可能只是帮助谷歌在构建杰出的生成式 AI 的竞赛中赶上 OpenAI。(在最坏的情况下,Bard 依然乏味平庸,而 ChatGPT 继续领先。)但 Pichai、Hassabis 和谷歌的其他同事似乎认为这只是开启真正伟大事物的开始。正如互联网使谷歌成为科技巨头一样,Gemini 可能会带来更大的变革。
用户评论