在快速发展的 AI 领域里,语言模型的体积往往是其能力的象征。但现在,一个微妙且重要的变化正在发生。虽然像 GPT-4 这类 LLM 曾经主宰了 AI 界,展现出在自然语言理解和生成上的非凡能力,但现在,一直被 LLM 遮掩的 SLM 正在崭露头角,成为多种 AI 应用程序中的强有力工具。这一变化是 AI 发展的一个重要转折点,它挑战了长期以来 “越大越好” 的传统观念。
在 AI 系统的发展中,专注于理解和生成人类语言的主要是 LLM。这些模型在翻译、摘要撰写和问答等方面优势明显,超越了之前的小型模型。但是,LLM 的成功也有其代价:高能耗、巨大的内存需求和昂贵的计算成本。而且,随着这些模型体积的不断增长,GPU 创新的相对滞后进一步加剧了这些挑战,似乎暗示了扩展的潜在上限。
为此,研究人员越来越多的将注意力转移到更小的语言模型上来,这些模型在特定场景下提供了更高效、更灵活的选择。举个例子,Turc 等人在 2019 年的一项研究中显示,将从 LLM 提炼出的知识转移到小型模型中,能在大幅降低计算需求的同时,保持相似的性能。此外,应用如迁移学习等技术,使得这些模型能够有效地适应特定任务,在情感分析和翻译等领域取得了可媲美乃至更优的成果。
近期的进展进一步突显了较小模型的潜力。DeepMind 的 Chinchilla、Meta 的 LLaMa 模型、Stanford 的 Alpaca 和 Stability AI 的 StableLM 系列等都是值得关注的例子。这些模型虽小,却在某些任务中能与 GPT-3.5 等大型模型相媲美,甚至超越。例如,Alpaca 模型在针对 GPT-3.5 查询响应进行专门调整后,就能以明显降低的成本达到类似的性能。这些发展表明,较小模型在效率和效果上正在 AI 领域中逐渐占据一席之地。
一.技术进步及其深远影响
小语言模型(SLM)开发的新兴技术
近期的研究突出了几项创新技术,这些技术显著提升了 SLM 模型的性能。Google 的 UL2R(超轻量级 2 次训练)和 Flan 方法是典型例子。UL2R 通过在持续预训练中加入混合去噪器目标,提高了模型在多项任务上的表现。而 Flan 则通过在广泛的指令式任务上微调模型,提升了性能和易用性。
此外,Yao Fu 等人的一篇论文表明,在适当训练和微调后,小模型在数学推理等特定任务上表现出色。这些发现强调了 SLM 在专门应用中的潜力,挑战了 LLM 的泛化能力。
高效数据利用的重要性
在 SLM 领域,高效利用数据已成为关键主题。Timo Schick 等人的论文《SLM 也是少样本学习者》提出了一种结合不平衡数据集的专门掩蔽技术,以提升 SLM 的性能。这种策略突出了创新方法在最大化 SLM 能力方面的重要性。
SLM 的优势
SLM 的魅力在于其高效性和多功能性。它们提供更快的训练和推理速度,减少了碳排放和水足迹,适用于资源受限的设备,如手机。这种适应性在一个优先考虑 AI 可访问性和在多种设备上的性能的行业中变得越来越重要。
行业创新与发展
行业向更小、更高效模型的转变在最近的发展中得到了体现。Mistral 的 Mixtral 8x7B(一种稀疏专家混合模型)和微软的 Phi-2 是该领域的重要突破。Mixtral 8x7B 虽规模较小,但在某些基准测试上已经能媲美 GPT-3.5。Phi-2 更是一步到位,能在只有 27 亿参数的手机上运行。这些模型凸显了行业越来越重视用更少资源实现更多的目标。
微软的 Orca 2 进一步证明了这一趋势。在原有 Orca 模型的基础上,Orca 2 提升了 SLM 的推理能力,推动了 AI 研究的边界。总之,SLM 的崛起代表了 AI 领域的一个范式转变。随着这些模型不断进化并展现出它们的能力,它们不仅挑战了 LLM 的主导地位,也重新塑造了我们对 AI 领域可能性的理解。
二.采用 SLM 的动因
SLM 受到越来越多关注的原因主要有三:效率高、成本低、易于定制。这些特点使得 SLM 在多种应用场景下,成为 LLM 的理想替代者。
效率:关键驱动因素
SLM 由于参数较少,相比于庞大的模型,它们在计算上更高效。这种效率体现在更快的推理速度、较低的内存和存储需求,以及更少的训练数据需求上。因此,SLM 不仅运行更快,而且更节约资源,特别适合那些对速度和资源利用有严格要求的应用场景。
成本效益
例如 GPT-4 这样的 LLM 需要大量计算资源来训练和部署,导致成本显著提高。而 SLM 则可以在更普遍的硬件上进行训练和运行,使得它们对更多企业来说既可获得又经济实惠。它们较低的资源需求还为边缘计算带来了新机遇,在此类计算中,模型需要在功率较低的设备上高效运行。
可定制性:战略上的优势
SLM 相比 LLM 的一个重要优势是其高度的可定制性。不像 LLM 那样提供广泛但泛化的能力,SLM 可以针对具体的领域和应用进行定制。这种适应性得益于更快的迭代周期和针对特殊任务的微调能力。这种灵活性使得 SLM 在那些需要特定、有针对性性能的小众应用中特别有价值,这些应用中专业性能比通用能力更受重视。
三.在保持能力的前提下缩小模型的规模
在当前的 AI 研究中,一个核心主题是如何在不牺牲能力的情况下减小语言模型的规模。关键问题是:语言模型能缩小到多小,同时仍保持其有效性?
确定模型规模的下限
近期研究显示,即使是参数只有 100 万到 1000 万的模型也能掌握基本的语言处理能力。例如,一个只有 800 万参数的模型在 2023 年的 GLUE 基准测试中就达到了大约 59% 的准确率。这表明,即便是相对较小的模型,在某些语言处理任务中也能展现出有效性。
模型性能在达到大约 2 亿到 3 亿参数的规模时似乎会达到一个高原期,这表明进一步增加模型规模的效益逐渐减少。这个高原期为商业部署的 SLM 提供了一个平衡能力和效率的理想点。
训练高效的 SLM
在开发高效的 SLM 过程中,几种关键的训练方法发挥了重要作用。转移学习(Transfer learning)使模型在预训练阶段就掌握了广泛的能力,随后可以针对特定应用进行优化。自我监督学习(Self-supervised learning),尤其适用于 SLM,强调让模型从每个数据样本中深入学习,以充分激活训练过程中的模型潜力。
架构的选择同样关键。例如,高效的 Transformers 能够在大大减少参数的情况下,保持与基准模型相似的性能。这些技术的结合使得创建既小巧又强大的语言模型成为可能,适用于多种应用场景。该领域的一个最新突破是 “逐步蒸馏” 机制的引入。这种新方法在减少数据需求的同时提高了性能。
“逐步蒸馏” 方法不只是利用 LLM 作为提供学习标签的来源,更将其作为能进行推理的 Agent。这个方法通过使用 LLM 生成的自然语言解释来证明其预测,这些解释作为对 SLM 的额外训练指导。通过这种方式,SLM 能够更高效地学习到任务相关的知识,从而减少对大量训练数据的依赖。
开发者框架和特定领域的模型
诸如 Hugging Face Hub、Anthropic Claude、Cohere for AI 和 Assembler 这样的开发平台正使得开发者更加容易地创建定制化的 SLM。这些平台提供了一系列工具,用于训练、部署和监控 SLM,使得语言 AI 技术更广泛地应用于各个行业。
特定领域的 SLM 在金融等行业具有独特优势,这些行业对准确性、保密性和响应速度有极高要求。这些模型可以针对特定任务进行定制,通常比 LLM 更高效、更安全。
四.展望未来
探索 SLM 不仅是技术上的尝试,也是朝着更可持续、高效和可定制的 AI 解决方案的战略转变。随着 AI 的持续进步,对更小、更专业化模型的关注可能会增加,为 AI 技术的开发和应用带来新的机遇和挑战。