谷歌推出全新Gemini大模型一个新的时代必将开启-duidaima 堆代码

谷歌推出全新Gemini大模型一个新的时代必将开启

发布于 2个月前
 366 热度

 0 评论

晴格与猫
0 粉丝 55 篇博客

谷歌 CEO Sundar Pichai 宣布，我们正迈入一个全新的 AI 时代 ——Gemini 时代。Gemini 是谷歌推出的最新 LLM，Pichai 在今年六月份的 I/O 开发者大会上首次透露了这一消息，现在它终于向公众亮相。

听 Pichai 和谷歌 DeepMind 的 CEO Demis Hassabis 描述，Gemini 的出现代表了 AI 模型的一个巨大飞跃，未来它将影响谷歌几乎所有产品。“最令人振奋的是”，Pichai 表示，“我们只需改进一个底层技术，就能立即让所有产品受益。”

Gemini 不仅仅是一个单一的 AI 模型。它有一个轻量级版本，命名为 Gemini Nano，专为安卓设备设计，可以离线运行。还有一个更强大的版本，命名为 Gemini Pro，它很快就会为谷歌的许多 AI 服务提供支持，并且从今天起成为 Bard 的核心。此外，还有一个更为高级的版本，名为 Gemini Ultra，这是谷歌迄今为止开发的最强大的 LLM，主要用于数据中心和企业级应用。

谷歌目前以几种方式推出这一模型：Bard 现在由 Gemini Pro 提供支持，Pixel 8 Pro 用户将通过 Gemini Nano 获得一些新功能（Gemini Ultra 明年推出）。从 12 月 13 日起，开发者和企业客户可以通过 Google Cloud 中的 Google Generative AI Studio 或 Vertex AI 来使用 Gemini Pro。目前 Gemini 只支持英语，但其他语言的支持很快会跟上。

Pichai 表示，这个模型最终将融入谷歌的搜索引擎、广告产品、Chrome 浏览器等多个领域，影响全球。它代表着谷歌的未来方向，而且来得正是时候。

一年零一周前，OpenAI 推出了 ChatGPT，该产品和公司迅速成为 AI 领域的焦点。而现在，谷歌 —— 这家创造了当前 AI 浪潮众多基础技术的公司，长期以来一直宣称自己是一个 “以 AI 为先” 的组织，却在 ChatGPT 的惊艳表现和 OpenAI 技术迅速主导行业面前显得措手不及且尴尬 —— 现在终于准备好反击了。

那么，我们来谈谈大家都关注的问题：OpenAI 的 GPT-4 与谷歌的 Gemini 的比较。谷歌显然考虑这个问题有段时间了。“我们对两个系统进行了彻底的并排分析和基准测试，”Hassabis 说。谷歌进行了 32 个公认的基准测试来对比这两个模型，从像 Multi-task Language Understanding 基准这样的全面测试，到比较两个模型在生成 Python 代码方面的能力。“在这 32 个基准测试中，我认为我们在其中 30 个上有明显优势，”Hassabis 面带微笑地说到。“有些测试非常具体，有些则更为全面。”

在这些基准测试中（实际上它们大多数相差无几），Gemini 最显著的优势在于其理解和交互视频以及音频的能力。这是谷歌专门设计的：从一开始，多模态就是 Gemini 计划的一部分。与 OpenAI 分别为图像和声音创建 DALL-E 和 Whisper 不同，谷歌从一开始就构建了一个多感官模型。“我们一直对非常通用的系统特别感兴趣，”Hassabis 说。他特别关注的是如何融合这些不同模式 —— 从各种输入和感官中收集尽可能多的数据，然后以同样多样的方式给出回应。

现在，Gemini 最基础的模型仅支持文本输入和输出，但更高级的模型如 Gemini Ultra 可以处理图像、视频和音频。Hassabis 表示，“它的功能将变得更加广泛。”“还包括动作和触感这类东西 —— 更偏向机器人技术领域。” 他说，随着时间的推移，Gemini 将获得更多感知能力，变得更加敏感，并在这个过程中变得更准确、更接地气。“这些模型会更好地理解它们周围的世界。” 当然，这些模型仍会产生幻觉，也存在偏见和其他问题。但 Hassabis 认为，它们了解得越多，表现就会越好。

然而，基准测试毕竟只是基准测试，Gemini 能力的真正考验最终将来自日常用户，他们期望使用它进行创意头脑风暴、信息查询、代码编写等多种任务。谷歌特别看好编程领域，将其视为 Gemini 的强项；公司推出了一种名为 AlphaCode 2 的新代码生成系统，据称其性能超过了 85% 的编程比赛参与者，远超原始 AlphaCode 的 50%。但 Pichai 指出，用户会发现这个模型改善了几乎所有它所触及的领域。

对谷歌来说同样重要的是，Gemini 显然是一个更高效的模型。它在谷歌自家的 Tensor Processing Units 上训练，运行速度更快，成本更低，优于谷歌之前的模型，比如如 PaLM。除了新模型，谷歌还推出了 TPU 系统的新版本 TPU v5p，这是专为数据中心设计的计算系统，用于训练和运行大规模模型。

在与 Pichai 和 Hassabis 的对话中可以清楚地看出，他们认为 Gemini 的发布不仅是一个更大项目的开端，同时也是一次重大的阶段性进步。Gemini 是谷歌期盼已久的模型，是公司多年来一直致力于构建的目标，甚至可能是在 OpenAI 和 ChatGPT 成为全球焦点之前就应该推出的模型。

自从 ChatGPT 推出后，谷歌宣布进入 “紧急状态”，一直被认为是在努力追赶。但公司似乎仍在努力坚守其 “大胆且负责任” 的理念。Hassabis 和 Pichai 都表示，他们不愿意为了赶上趋势而急于行动，尤其是在我们接近最终的 AI 梦想 —— 通用人工智能（AGI）时。

AGI 是指一种自我改进、比人类更聪明、有潜力改变世界的 AI。“当我们接近 AGI 时，情况会有所不同，”Hassabis 说。“这是一种主动性技术，因此我们需要谨慎，但同时也要保持乐观的态度来面对。”

谷歌表示，它一直在努力确保 Gemini 的安全性和负责任性，这不仅通过内部和外部测试实现，还包括红队操作。Pichai 强调，对于以企业用户为主的产品来说，确保数据安全和可靠性尤其重要，而这也正是许多生成式 AI 盈利的领域。

但 Hassabis 承认，推出一款最先进的 AI 系统的风险之一在于，它可能会出现一些之前无法预测的问题和安全漏洞。“这就是为什么你需要发布产品，” 他说，“以便观察和学习。” 谷歌对 Ultra 版本的发布采取了极为谨慎的态度。Hassabis 将其比作一个受控的测试版，为谷歌最强大、最自由的模型提供了一个 “更安全的实验区”。基本上，如果 Gemini 中存在着某种可能破坏婚姻的隐藏人格，谷歌正在努力在用户之前发现它。

多年来，Pichai 和谷歌其他高管一直充满激情地谈论 AI 的潜力。Pichai 本人曾多次表示，AI 对人类的影响将超过火或电。在这个初代版本中，Gemini 模型可能不会改变世界。在最好的情况下，它可能只是帮助谷歌在构建杰出的生成式 AI 的竞赛中赶上 OpenAI。（在最坏的情况下，Bard 依然乏味平庸，而 ChatGPT 继续领先。）但 Pichai、Hassabis 和谷歌的其他同事似乎认为这只是开启真正伟大事物的开始。正如互联网使谷歌成为科技巨头一样，Gemini 可能会带来更大的变革。

 用户评论

AI大模型
 100 成员 |  654 话题
+我要提问 +随便写写

可能感兴趣的话题

我用gemini直接从0撸了个系统出来

现在是不是也没什么人想去深入学习 AI 的源码级知识了

大家来谈谈你们用cursor开发项目的情况

各位现在有什么好用的AI大模型推荐？