苹果在小模型上还是非常领先的-duidaima 堆代码

苹果在小模型上还是非常领先的

发布于 2个月前
 371 热度

 0 评论

那一抹残阳
0 粉丝 29 篇博客

在 AI 领域，小模型技术越来越流行，因为这些模型可以直接在个人设备上运行，无需依赖云端的大型数据中心。Apple 最近推出了 OpenELM 项目，它包括一系列小巧的 AI 语言模型，这些模型足够小，可以直接在智能手机上运行。目前，这些模型主要用于概念验证和研究，但未来可能成为 Apple 设备上 AI 产品的基础。

Apple 的新型 AI 模型被统一命名为 OpenELM（开源高效语言模型），目前在遵守 Apple 特定的示例代码许可（Apple Sample Code License）下可以在 Hugging Face 平台上使用。虽然这种许可具有一定的使用限制，可能不完全符合通常意义上的 “开源” 定义，但是你可以获取到 OpenELM 的源代码。

链接：https://huggingface.co/apple/OpenELM

微软的 Phi-3 模型目标与 OpenELM 类似：即在小型 AI 模型中实现有效的语言理解和处理能力，这些模型可以在本地设备上运行。例如，Phi-3-mini 的模型有 38 亿参数量，而 Apple 的 OpenELM 模型则更小，八种不同模型的参数范围在 2.7 亿到 30 亿之间。对比之下，Meta 的 Llama 3 系列中最大的模型拥有 700 亿参数，而 OpenAI 的 GPT-3 模型在 2020 年推出时，参数量达到了 1750 亿。参数量是衡量 AI 模型复杂性和能力的一种方式。近年来的研究趋势是让小模型达到几年前大模型的能力水平。

OpenELM 的八种模型分为两类：四种预训练模型（即模型的原始、下一个 Token 版本）和四种经过指令调优的模型（为指令跟随优化，更适合开发 AI 助手和聊天机器人使用）：

OpenELM-270M：https://huggingface.co/apple/OpenELM-270M
OpenELM-450M：https://huggingface.co/apple/OpenELM-450M
OpenELM-1_1B：https://huggingface.co/apple/OpenELM-1_1B
OpenELM-3B：https://huggingface.co/apple/OpenELM-3B
OpenELM-270M-Instruct：https://huggingface.co/apple/OpenELM-270M-Instruct
OpenELM-450M-Instruct：https://huggingface.co/apple/OpenELM-450M-Instruct
OpenELM-1_1B-Instruct：https://huggingface.co/apple/OpenELM-1_1B-Instruct
OpenELM-3B-Instruct：https://huggingface.co/apple/OpenELM-3B-Instruct

这些模型的最大处理窗口为 2048 Token。它们在几个公开的数据集上进行了训练，包括精炼后的 Web 数据集、RedPajama 的子集和 Dolma v1.6 的子集，据 Apple 称，这些数据集合计约有 1.8 万亿 Token。Token 是 AI 处理语言时使用的数据的碎片化表示。

Apple 采用了一种称为 “逐层缩放” 的策略，这种策略可以更高效地在模型的各层之间分配参数，这不仅节省了计算资源，还在使用更少 Token 的情况下提升了模型的性能。据 Apple 发布的白皮书显示，这种策略使 OpenELM 在精确度上比 Allen AI 的 OLMo 1B 模型提高了 2.36%，而且只需要一半的预训练 Token。

OpenELM 与类似的其他小型 AI 语言模型的比较表，摘自 Apple 的 OpenELM 研究论文
Apple 还发布了用于训练 OpenELM 的 CoreNet 库代码，并提供了可以复现模型权重的训练配方，这在大型科技公司中尚属罕见。如 Apple 在其论文摘要中所述，确保 LLM 的可复制性和透明性，对于推动开放式研究、确保研究结果的可靠性及探索数据和模型偏见等问题至关重要。

通过发布源代码、模型权重和训练材料，Apple 希望能够 “赋能并丰富开放研究社区”。同时，Apple 也提醒，由于模型是在公开的数据集上训练的，因此存在模型在响应用户输入时可能产生不准确、有害、有偏见或令人反感输出的风险。

尽管 Apple 还没有将这些新的 AI 语言模型技术整合到其消费者设备中，但预计在 6 月的 WWDC 上公布的 iOS 18 更新将包括新的 AI 功能，这些功能利用设备上的处理来确保用户隐私。此外，Apple 可能会考虑与 Google 或 OpenAI 合作，处理那些更复杂的、需要在设备外进行的 AI 处理任务，以此来大幅提升 Siri 的功能。

原文链接：https://arstechnica.com/information-technology/2024/04/apple-releases-eight-small-ai-language-models-aimed-at-on-device-use/

小模型，开源模型会成为大公司下一步重点关注方向吗？你怎么看，欢迎进入 AI 大模型实验室微信群一起聊聊。

 用户评论

IT那些事
 318 成员 |  3064 话题
+我要提问 +随便写写

可能感兴趣的话题

Soham Parekh, 同时为十几家创业公司打工的牛人

微软在Azure AI Foundry中正式上线Deep Research公开预览版

AI人才的薪水真的高的超出想象了

小红书App帖子的图片都是明文传输的，网络提供者可以完全看到你浏览的实际内容