• 马斯克计划下周发布Grok-1.5 推理能力接近GPT-4
  • 发布于 1个月前
  • 61 热度
    0 评论
在开源 Grok-1 还不到 2 周后,Elon Musk 领导的 xAI 公司宣布了其专有 LLM Grok-1.5 的升级版。

预计在下周发布的 Grok-1.5,在推理和问题解决能力上有了明显提升,性能即将达到包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 在内的其他知名开源和闭源 LLM 的水平。该模型也能处理较长的上下文,但还不及 Gemini 1.5 Pro,Gemini 1.5 Pro 能处理高达 100 万 Token 的上下文。

Musk 指出,Grok-1.5 将支撑 xAI 在 X 平台上推出的挑战 ChatGPT 的聊天机器人。同时,他也提到 Grok-1.5 的后续版本 Grok-2 目前仍在训练中。他表示,下一个版本应当能在所有方面超越当前的 AI 技术,但具体发布时间尚未透露。

Grok-1.5 有哪些新特点?
去年 11 月,xAI 发布了 Grok-1,这款 AI 仿照《银河系漫游指南》而设计,能回答几乎所有问题,帮助人类寻求理解和知识 —— 无论背景或政治立场如何。在 GSM8K、HumanEval 和 MMLU 等一系列基准测试中,Grok-1 的表现超越了 Llama-2-70B 和 GPT-3.5。现在,随着 Grok-1.5 的发布,公司在先前工作的基础上做出了巨大改进,在所有重要的基准测试中,包括编程和数学任务方面,都实现了显著提升。

xAI 在博客中提到:“在我们的测试中,Grok-1.5 在 MATH 基准测试中取得了 50.6%的成绩,在 GSM8K 基准测试中达到了 90%,这两个测试涵盖了从小学到高中的广泛数学竞赛题目。另外,在评估代码生成和解决问题能力的 HumanEval 基准测试中,它的得分为 74.1%。”

在评价 AI 模型对多样化任务的语言理解能力的 MMLU 基准测试中,这款新模型得分为 81.3%,大幅领先于 Grok-1 的 73%。

除此之外,xAI 还确认,Grok-1.5 的上下文窗口达到了 128,000 个 Token(Token 指的是文字、图片、视频、音频或代码的整个部分或子部分)。这使得模型能一次性处理和理解大量信息 —— 达到 Grok-1 的 16 倍,使其更适合分析、总结和从长篇文档中提取信息。它甚至能够处理更长、更复杂的提示,同时保持遵循指令的能力。

追赶 OpenAI 和 Anthropic
在追赶 OpenAI 和 Anthropic 的过程中 Grok-1.5 凭借其提升的推理和问题解决能力,不仅在各项基准测试中超越了它的前代,也在逐渐接近目前市场上的主流开源和闭源模型,包括 Gemini 1.5 Pro、GPT-4 和 Claude 3。

例如,在 MMLU 测试中,Grok-1.5 以 81.3% 的成绩超过了新推出的 Mistral Large,但仍稍逊于 Gemini 1.5 Pro(83.7%)、GPT-4(2023 年 3 月的数据为 86.4%)和 Claude 3 Opus(86.8%)。在 GSM8K 基准测试上也出现了类似的情况,xAI 的模型略落后于 Google、OpenAI 和 Anthropic 的产品。

特别值得一提的是,在 HumanEval 基准测试中,Grok-1.5 似乎占据了优势,它超越了除 Claude 3 Opus 外的所有模型。xAI 希望继续这些改进,并通过 Grok-2 实现更多的性能提升。据 Musk 所说,Grok-2 有望在所有方面超越现有的 AI。目前,这个模型正在进行训练。

科技顾问 Brian Roemmele 表示,基于他对 Grok-1 的使用经验,他认为 Grok-2“一旦发布,将成为最强大的 LLM AI 平台之一,它将在几乎所有方面超越 OpenAI。”

关于 Grok-1.5 的发布情况
xAI 计划在下周开始 Grok-1.5 的上线部署。公司表示,这款模型最初将面向早期测试者和已在 X 平台使用 Grok 聊天机器人的用户,这些用户将能够实时访问平台上的所有帖子。Grok-1.5 的发布将分阶段进行,期间公司将对模型进行优化,并陆续引入多项新功能 —— 很可能包括一个新的 “解放模式”—— 同时逐步向更多用户开放。

当 Musk 在 X 平台推出 Grok 时,这被看作是提升 Grok 和 X 平台使用率的策略。他最初通过将 AI 集成到平台的 “Premium+” 订阅中,定价为每月 16 美元。然而,就在几天前,这位亿万富翁宣布,该聊天机器人也将对所有支付每月 8 美元的 Premium 订阅用户开放。

他在最新的一次更新中还确认,某些等级的认证订阅者将免费获得 Premium 和 Premium + 的订阅福利,其中包括使用 Grok。

原文链接:https://venturebeat.com/ai/elon-musk-announces-grok-1-5-nearing-gpt-4-level-performance/

马斯克真是一个天才,他的产品总能给人带来惊喜,对于 Grok-1.5 你有什么期待,欢迎进入 AI 大模型实验室微信群一起聊聊。
用户评论