微软为什么要走不一样的AI模型路线？-duidaima 堆代码

微软为什么要走不一样的AI模型路线？

发布于 2个月前
 451 热度

 0 评论

旧城回眸
0 粉丝 30 篇博客

微软最近宣布推出了它最新的 AI 模型 —— 一系列既小巧又灵活的模型，专门针对特定的应用场景。就在本月初，微软首次推出了 Phi-1，这是他们所谓的小语言模型（SLM）中的第一个版本。这些模型与之前的 LLM 相比，参数数量大大减少。例如，用于构建 ChatGPT 的 GPT-3 LLM 拥有 1750 亿个参数，而 OpenAI 最新的 LLM，GPT-4，则有大约 1.7 万亿个参数。继 Phi-1 之后，微软又推出了 Phi-1.5，其参数数量为 13 亿。

Phi-2 则是一个具有 27 亿参数的语言模型，据该公司称，它的性能甚至能超越那些参数数量是它 25 倍的 LLM。

微软不仅是 ChatGPT 的开发者 OpenAI 的主要股东，还是其合作伙伴。ChatGPT 自一年多前发布以来，已成为 Microsoft Copilot 生成式 AI 助手的核心技术。生成式 AI （genAI）应用所使用的 LLM，比如 ChatGPT 或 Bard，由于其庞大的体量，不仅消耗大量处理器资源，而且在针对特定用途的训练过程中既费时又昂贵。相比之下，那些更小巧、更专注于特定行业或商业需求的模型往往能提供更加精准的解决方案。

Gartner Research 副总裁兼杰出分析师 Avivah Litan 指出：“迟早，GPU 芯片的性能增长将无法跟上模型规模的扩大。” 她认为，不断制造更大模型的策略并不可行。

目前，一个新的趋势正在形成：缩小 LLM 的规模，以降低成本并使其能够针对特定领域任务进行训练，比如为金融服务的客户提供在线聊天机器人或用于总结电子健康记录的生成式 AI 应用。专门针对特定数据训练的小型、特定领域的语言模型有望挑战当前市场上领先的 LLM，比如 OpenAI 的 GPT-4、Meta AI 的 LLaMA 2 或 Google 的 PaLM 2。

Ernst & Young 全球 AI 咨询负责人 Dan Diasio 指出，目前 GPU 订单积压严重。芯片短缺不仅给制造 LLM 的科技公司带来困难，对于那些希望调整模型或构建自己的专有 LLM 的用户公司来说也是一个问题。

Diasio 还说：“因此，微调和构建专门的企业级 LLM 的成本非常高，这促使行业趋向于开发知识增强包和构建包含专业知识的提示库。”

微软以其紧凑的规模，正在将 Phi-2 定位为 “研究者的理想实验场”，适用于机械解释性、安全性提升或在多种任务上进行微调实验等领域的探索。Phi-2 已在 Azure AI Studio 的模型目录中提供。

Chalmers University 前 AI 研究工程师、创业公司 Iris.ai CTO 兼联合创始人 Victor Botev 表示：“如果我们想让每家企业 —— 不仅仅是那些市值亿万英镑的跨国公司 —— 都采用 AI，那么它必须具有成本效益。”

Botev 指出，微软发布的 Phi-2 具有重大意义。“微软成功地用一个更小的模型挑战了传统的扩展规则，这个模型专注于处理‘教科书级别’的数据。这表明，AI 的发展不仅仅在于增加模型的规模，” 他说。

“尽管我们还不清楚这个模型使用了什么样的数据以及如何训练，但确实存在一系列创新，能让模型用更少的资源更多的事情。”

各种规模的 LLM 都是通过一种称作提示工程的过程来训练的 —— 将查询和正确响应输入模型中，以便算法能更准确地做出反应。现在，市场上甚至有出售提示列表的地方。

例如 ChatGPT 的 100 个最佳提示：https://beebom.com/best-chatgpt-prompts/

但是，LLM 接收的数据越多，产生错误和不准确输出的可能性就越大。生成式 AI 工具本质上是下一个词的预测器，这意味着输入的错误信息可能导致错误的结果。（LLM 已经出现过一些显著的错误，甚至可能产生 “幻觉”，即下一个词生成器脱轨，产生离奇的回应。）

“如果数据本身结构良好且有助于推理，那么模型产生幻觉的可能性就会减少。”Botev 表示，“编程语言也可以作为训练数据，因为它比纯文本更基于逻辑推理。

“我们必须使用特定领域的、结构化的知识，确保语言模型在事实基础上摄取、处理和复现信息。” 他继续说，“更进一步，知识图谱可以评估并展示语言模型得出其输出的步骤，基本上生成了一条可能的思考链。在这种训练中减少解释的空间，意味着模型更可能被引导得出事实上的准确答案。

“像 Phi-2 这样具有高性能的小型模型代表了未来的发展方向。”

原文链接：https://www.computerworld.com/article/3711701/microsoft-unveils-phi-2-the-next-of-its-smaller-more-nimble-genai-models.html

 用户评论

AI大模型
 101 成员 |  672 话题
+我要提问 +随便写写

可能感兴趣的话题

智谱AI联合清华大学开源了最新视觉大模型GLM-4.5V

人不能同时踩两个坑，但 OpenAI 做到了

AI 正在放大技术选型的风险：为什么我们更应该“选择无聊的技术”

科普文：什么场景适合做 AI Agent 应用？