• 苹果在小模型上还是非常领先的
  • 发布于 1个月前
  • 71 热度
    0 评论
在 AI 领域,小模型技术越来越流行,因为这些模型可以直接在个人设备上运行,无需依赖云端的大型数据中心。Apple 最近推出了 OpenELM 项目,它包括一系列小巧的 AI 语言模型,这些模型足够小,可以直接在智能手机上运行。目前,这些模型主要用于概念验证和研究,但未来可能成为 Apple 设备上 AI 产品的基础。

Apple 的新型 AI 模型被统一命名为 OpenELM(开源高效语言模型),目前在遵守 Apple 特定的示例代码许可(Apple Sample Code License)下可以在 Hugging Face 平台上使用。虽然这种许可具有一定的使用限制,可能不完全符合通常意义上的 “开源” 定义,但是你可以获取到 OpenELM 的源代码。

链接:https://huggingface.co/apple/OpenELM

微软的 Phi-3 模型目标与 OpenELM 类似:即在小型 AI 模型中实现有效的语言理解和处理能力,这些模型可以在本地设备上运行。例如,Phi-3-mini 的模型有 38 亿参数量,而 Apple 的 OpenELM 模型则更小,八种不同模型的参数范围在 2.7 亿到 30 亿之间。对比之下,Meta 的 Llama 3 系列中最大的模型拥有 700 亿参数,而 OpenAI 的 GPT-3 模型在 2020 年推出时,参数量达到了 1750 亿。参数量是衡量 AI 模型复杂性和能力的一种方式。近年来的研究趋势是让小模型达到几年前大模型的能力水平。

OpenELM 的八种模型分为两类:四种预训练模型(即模型的原始、下一个 Token 版本)和四种经过指令调优的模型(为指令跟随优化,更适合开发 AI 助手和聊天机器人使用):

OpenELM-270M:https://huggingface.co/apple/OpenELM-270M
OpenELM-450M:https://huggingface.co/apple/OpenELM-450M
OpenELM-1_1B:https://huggingface.co/apple/OpenELM-1_1B
OpenELM-3B:https://huggingface.co/apple/OpenELM-3B
OpenELM-270M-Instruct:https://huggingface.co/apple/OpenELM-270M-Instruct
OpenELM-450M-Instruct:https://huggingface.co/apple/OpenELM-450M-Instruct
OpenELM-1_1B-Instruct:https://huggingface.co/apple/OpenELM-1_1B-Instruct
OpenELM-3B-Instruct:https://huggingface.co/apple/OpenELM-3B-Instruct

这些模型的最大处理窗口为 2048 Token。它们在几个公开的数据集上进行了训练,包括精炼后的 Web 数据集、RedPajama 的子集和 Dolma v1.6 的子集,据 Apple 称,这些数据集合计约有 1.8 万亿 Token。Token 是 AI 处理语言时使用的数据的碎片化表示。

Apple 采用了一种称为 “逐层缩放” 的策略,这种策略可以更高效地在模型的各层之间分配参数,这不仅节省了计算资源,还在使用更少 Token 的情况下提升了模型的性能。据 Apple 发布的白皮书显示,这种策略使 OpenELM 在精确度上比 Allen AI 的 OLMo 1B 模型提高了 2.36%,而且只需要一半的预训练 Token。

OpenELM 与类似的其他小型 AI 语言模型的比较表,摘自 Apple 的 OpenELM 研究论文
Apple 还发布了用于训练 OpenELM 的 CoreNet 库代码,并提供了可以复现模型权重的训练配方,这在大型科技公司中尚属罕见。如 Apple 在其论文摘要中所述,确保 LLM 的可复制性和透明性,对于推动开放式研究、确保研究结果的可靠性及探索数据和模型偏见等问题至关重要。

通过发布源代码、模型权重和训练材料,Apple 希望能够 “赋能并丰富开放研究社区”。同时,Apple 也提醒,由于模型是在公开的数据集上训练的,因此存在模型在响应用户输入时可能产生不准确、有害、有偏见或令人反感输出的风险。

尽管 Apple 还没有将这些新的 AI 语言模型技术整合到其消费者设备中,但预计在 6 月的 WWDC 上公布的 iOS 18 更新将包括新的 AI 功能,这些功能利用设备上的处理来确保用户隐私。此外,Apple 可能会考虑与 Google 或 OpenAI 合作,处理那些更复杂的、需要在设备外进行的 AI 处理任务,以此来大幅提升 Siri 的功能。

原文链接:https://arstechnica.com/information-technology/2024/04/apple-releases-eight-small-ai-language-models-aimed-at-on-device-use/

小模型,开源模型会成为大公司下一步重点关注方向吗?你怎么看,欢迎进入 AI 大模型实验室微信群一起聊聊。
用户评论