马斯克计划下周发布Grok-1.5 推理能力接近GPT-4-堆代码网

马斯克计划下周发布Grok-1.5 推理能力接近GPT-4

发布于 2个月前
 612 热度

 0 评论

君子坦荡荡
1 粉丝 49 篇博客

在开源 Grok-1 还不到 2 周后，Elon Musk 领导的 xAI 公司宣布了其专有 LLM Grok-1.5 的升级版。

预计在下周发布的 Grok-1.5，在推理和问题解决能力上有了明显提升，性能即将达到包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 在内的其他知名开源和闭源 LLM 的水平。该模型也能处理较长的上下文，但还不及 Gemini 1.5 Pro，Gemini 1.5 Pro 能处理高达 100 万 Token 的上下文。

Musk 指出，Grok-1.5 将支撑 xAI 在 X 平台上推出的挑战 ChatGPT 的聊天机器人。同时，他也提到 Grok-1.5 的后续版本 Grok-2 目前仍在训练中。他表示，下一个版本应当能在所有方面超越当前的 AI 技术，但具体发布时间尚未透露。

Grok-1.5 有哪些新特点？
去年 11 月，xAI 发布了 Grok-1，这款 AI 仿照《银河系漫游指南》而设计，能回答几乎所有问题，帮助人类寻求理解和知识 —— 无论背景或政治立场如何。在 GSM8K、HumanEval 和 MMLU 等一系列基准测试中，Grok-1 的表现超越了 Llama-2-70B 和 GPT-3.5。现在，随着 Grok-1.5 的发布，公司在先前工作的基础上做出了巨大改进，在所有重要的基准测试中，包括编程和数学任务方面，都实现了显著提升。

xAI 在博客中提到：“在我们的测试中，Grok-1.5 在 MATH 基准测试中取得了 50.6％的成绩，在 GSM8K 基准测试中达到了 90％，这两个测试涵盖了从小学到高中的广泛数学竞赛题目。另外，在评估代码生成和解决问题能力的 HumanEval 基准测试中，它的得分为 74.1%。”

在评价 AI 模型对多样化任务的语言理解能力的 MMLU 基准测试中，这款新模型得分为 81.3%，大幅领先于 Grok-1 的 73%。

除此之外，xAI 还确认，Grok-1.5 的上下文窗口达到了 128,000 个 Token（Token 指的是文字、图片、视频、音频或代码的整个部分或子部分）。这使得模型能一次性处理和理解大量信息 —— 达到 Grok-1 的 16 倍，使其更适合分析、总结和从长篇文档中提取信息。它甚至能够处理更长、更复杂的提示，同时保持遵循指令的能力。

追赶 OpenAI 和 Anthropic
在追赶 OpenAI 和 Anthropic 的过程中 Grok-1.5 凭借其提升的推理和问题解决能力，不仅在各项基准测试中超越了它的前代，也在逐渐接近目前市场上的主流开源和闭源模型，包括 Gemini 1.5 Pro、GPT-4 和 Claude 3。

例如，在 MMLU 测试中，Grok-1.5 以 81.3% 的成绩超过了新推出的 Mistral Large，但仍稍逊于 Gemini 1.5 Pro（83.7%）、GPT-4（2023 年 3 月的数据为 86.4%）和 Claude 3 Opus（86.8%）。在 GSM8K 基准测试上也出现了类似的情况，xAI 的模型略落后于 Google、OpenAI 和 Anthropic 的产品。

特别值得一提的是，在 HumanEval 基准测试中，Grok-1.5 似乎占据了优势，它超越了除 Claude 3 Opus 外的所有模型。xAI 希望继续这些改进，并通过 Grok-2 实现更多的性能提升。据 Musk 所说，Grok-2 有望在所有方面超越现有的 AI。目前，这个模型正在进行训练。

科技顾问 Brian Roemmele 表示，基于他对 Grok-1 的使用经验，他认为 Grok-2“一旦发布，将成为最强大的 LLM AI 平台之一，它将在几乎所有方面超越 OpenAI。”

关于 Grok-1.5 的发布情况
xAI 计划在下周开始 Grok-1.5 的上线部署。公司表示，这款模型最初将面向早期测试者和已在 X 平台使用 Grok 聊天机器人的用户，这些用户将能够实时访问平台上的所有帖子。Grok-1.5 的发布将分阶段进行，期间公司将对模型进行优化，并陆续引入多项新功能 —— 很可能包括一个新的 “解放模式”—— 同时逐步向更多用户开放。

当 Musk 在 X 平台推出 Grok 时，这被看作是提升 Grok 和 X 平台使用率的策略。他最初通过将 AI 集成到平台的 “Premium+” 订阅中，定价为每月 16 美元。然而，就在几天前，这位亿万富翁宣布，该聊天机器人也将对所有支付每月 8 美元的 Premium 订阅用户开放。

他在最新的一次更新中还确认，某些等级的认证订阅者将免费获得 Premium 和 Premium + 的订阅福利，其中包括使用 Grok。

原文链接：https://venturebeat.com/ai/elon-musk-announces-grok-1-5-nearing-gpt-4-level-performance/

马斯克真是一个天才，他的产品总能给人带来惊喜，对于 Grok-1.5 你有什么期待，欢迎进入 AI 大模型实验室微信群一起聊聊。

 用户评论

AI大模型
 111 成员 |  716 话题
+我要提问 +随便写写

可能感兴趣的话题

一种无人建模的企业风险：AI 正在取代它本需学习的专家

实时智能体 RAG：基于Spark与 Iceberg彻底解决上下文退化问题

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层

为何我会忍不住为小型开源AI模型开发商Arcee加油