Meta新成立的超级智能实验室扔出的一篇论文让大模型RAG推理速度狂飙30倍-duidaima 堆代码

Meta新成立的超级智能实验室扔出的一篇论文让大模型RAG推理速度狂飙30倍

发布于 1个月前
 186 热度

 0 评论

夜踏笙歌
0 粉丝 32 篇博客

Meta新成立的超级智能实验室（Meta Superintelligence Labs，MSL）扔出第一篇论文，直接把检索增强生成（RAG）应用的推理速度干到了30倍以上。这篇论文叫《REFRAG：Rethinking RAG based Decoding》，让大语言模型在做RAG任务时，学会了抓重点，提炼摘要，大大减少计算量和反应时间，而且准确率不变。

Meta的超级智能实验室
6月30日，Meta超级智能实验室正式成立，总部设在加利福尼亚州的门洛帕克。实验室的目标非常明确，就是搞超级智能。新实验室成立，其实是扎克伯格真的急了。时间往前倒两个月，也就是4月，Meta发布了自家的Llama 4模型。据彭博社报道，扎克伯格对这个模型的表现相当不满意，甚至要求员工为此加班加点。

扎克伯格不高兴，后果很严重。扎克伯格意识到，他必须亲自下场抓AI了。他创建了一个WhatsApp群聊，拉上公司高管，开始满世界挖人。为了招人，扎克伯格可以说是下了血本。他看上了Scale AI这家公司，不仅砸几十亿美元投资，还把它的创始人和首席执行官Alexandr Wang直接挖过来。据《纽约时报》爆料，扎克伯格还给OpenAI和Google的员工开出了上亿美元的薪酬包挖他们。然后，扎克伯格正式宣布成立Meta超级智能实验室，Alexandr Wang出任首席AI官。

Meta AI（前身为基础人工智能研究，FAIR）和其他几个部门，包括一个新成立的叫TBD Lab的团队，全部被划归到这个新的超级智能实验室旗下。8月份，实验室内部又进行了一次重组，分成了四个小组：
TBD Lab：由Wang亲自带队，负责管Meta所有的大语言模型。
FAIR：继续做它的人工智能研究老本行。
Products and Applied Research：由Friedman领导，负责把AI技术落地到消费者产品里。
MSL Infra：由Aparna Ramani负责，专门搞基础设施，确保模型能稳定运行。

Meta超级智能实验室从诞生之日起，就承载了扎克伯格和Meta在AI领域的野心和希望。REFRAG，就是这个明星团队交出的第一份答卷。

REFRAG的聪明之处
大语言模型能通过RAG，利用外部知识库来回答问题，这在多轮对话或者智能体应用里特别有用。但你给模型喂的参考资料（也就是上下文）越长，它的反应就越慢，对内存的消耗也越大。这就导致了一个两难的局面：想要知识丰富，就得牺牲效率；想要效率高，就得减少参考资料，但影响回答质量。Meta的研究人员发现，这种低相似度的上下文，在模型的注意力机制里会形成一种特殊的“块对角”模式。就是模型在处理这些上下文时，大部分计算力都花在了分析一些互不相关的文本块上。

基于这个观察，他们想，能不能在解码生成答案的过程中，把这些不必要的计算给砍掉呢？REFRAG框架应运而生。

它的核心思想非常直接：别再把检索来的段落原文一股脑儿地喂给解码器了，而是先用一个轻量级模型把这些段落压缩成一个个“摘要”，也就是“块嵌入”（block embedding），然后再把这些浓缩后的摘要喂给解码器。

当用户输入一个问题和一堆上下文时，REFRAG会先把长长的上下文切成一个个小块。然后，一个轻量级的编码器模型（比如Roberta）会出马，为每个小块生成一个紧凑的嵌入表示，就像是给每一段内容写了个摘要。这些摘要（块嵌入）随后被转换成解码器模型（比如LLaMA）能理解的格式，和问题的嵌入表示一起，被送进解码器，最终生成答案。

因为在RAG里，上下文通常比问题本身长得多，所以用摘要代替原文，解码器的输入序列长度一下子就缩短了好几倍。输入短了，计算量自然就下来了，延迟和内存占用也就跟着降下来了。

这种做法有三大好处：
1.解码器的输入变短了，处理速度自然就快了。
2.这些“摘要”（块嵌入）在检索阶段就可以提前算好，避免了重复计算。
3.注意力机制的计算复杂度，从跟总字数的平方成正比，变成了跟“摘要”数量的平方成正比，这是一个巨大的优化。

更妙的是，REFRAG支持在任意位置压缩文本块，并且保持了解码器的自回归特性。它不仅能处理单个问题，还能很好地支持需要来回对话的多轮应用和智能体应用。为了让模型更智能，REFRAG还引入了一个强化学习策略。这个策略会动态地判断，什么时候需要看原文细节，什么时候看个摘要就足够了，从而在效率和精度之间找到最佳平衡点。那么，怎么训练模型学会这套操作呢？

研究人员用了一种叫“持续预训练”（Continual Pre-training，CPT）的方法。他们设计了一个“重建任务”：让编码器读取一段原文并生成摘要，然后要求解码器只看摘要，把原文给重建出来。这个任务的目标，就是逼着编码器学会如何在信息损失最小的情况下压缩文本，同时让解码器学会如何从摘要中解压缩出原始信息。

这个任务听起来简单，做起来很难。因为文本块的组合是指数级增长的，想用一个固定长度的嵌入来完美表示所有可能性，挑战巨大。为了解决这个难题，他们用上了“课程学习”的方法。就像教小孩子一样，先从简单的开始。一开始，只让模型学习重建一个文本块。学会了，再增加到两个，然后三个，循序渐进。通过逐步增加难度，模型就能平稳地掌握这项复杂技能。经过这一系列精心设计，REFRAG最终成型。它不需要修改大模型的底层架构，也不需要增加新的解码器参数，就能实现高效解码。

REFRAG的性能表现
研究人员在RAG、多轮对话和长文档摘要等多种任务上，对REFRAG进行了全面的测试。他们使用的基础模型是LLaMA-2-7B，训练数据来自一个叫Slimpajama的开源数据集，主要用了里面的书籍和学术论文部分，因为这些文本比较长。性能比较的结果非常惊人。

REFRAG在压缩率为8倍（REFRAG8）和16倍（REFRAG16）的情况下，几乎在所有设置中都稳定地超过了其他基线模型，包括之前最先进的CEPE模型，而且延迟更低。而且，REFRAG在Time-to-First-Token（TTFT）这个关键延迟指标上，实现了高达30.85倍的加速，是CEPE的3.75倍。同时，它还能把模型的有效上下文窗口扩展16倍，吞吐量提升了6.78倍。

所有这些性能的巨大提升，都没有以牺牲模型准确性为代价，困惑度（衡量模型性能的指标，越低越好）基本没有损失。

这张加速效果图显示，在16384这样中长长度的上下文里，REFRAG（k=16）的TTFT加速达到了16.53倍，吞吐量加速达到了6.78倍，都远远超过了CEPE。当压缩率提高到32倍时，TTFT加速甚至达到了惊人的32.99倍，同时性能还能和CEPE打个平手。研究人员还测试了它在真实RAG应用中的表现。

他们设计了两种场景：一种是“强检索器”，也就是检索到的文档质量很高，跟问题很相关；另一种是“弱检索器”，模拟真实世界中检索系统可能出错，找来一堆不太相关的文档。在强检索器场景下，REFRAG用同样的文档数量，性能和原始的LLaMA打平，但速度快了5.26倍。如果把省下来的时间用来多读几篇文档（比如REFRAG读8篇，LLaMA读1篇），在延迟相同的情况下，REFRAG的平均准确率还能提升1.22%。

在弱检索器这个更接近现实的场景下，REFRAG的优势更明显。因为它能用更快的速度处理更多的上下文，所以有更大的机会从一堆不太相关的文档里沙里淘金，找到有用的信息。在延迟相同的情况下，它的准确率平均提升了1.93%。在多轮对话这种需要记住前面聊了什么的场景里，REFRAG同样表现出色。

传统的LLaMA模型因为有4000个token的上下文窗口限制，聊得久了就得把前面的对话历史给截断，容易“失忆”。而REFRAG通过压缩技术，即使在很长的对话历史和大量的检索文档下，也能保持稳健的性能，不会丢失关键信息。Meta超级智能实验室的第一份作品，是非常有含金量的。它为那些对延迟敏感、知识密集的应用场景部署大语言模型，提供了一个非常实用和可扩展的解决方案。

参考资料：
https://arxiv.org/abs/2509.01092
https://en.wikipedia.org/wiki/Meta_Superintelligence_Labs
https://arxiv.org/abs/2005.11401
https://www.marktechpost.com/2025/09/07/meta-superintelligence-labs-introduces-refrag-scaling-rag-with-16x-longer-contexts-and-31x-faster-decoding

 用户评论

AI大模型
 105 成员 |  699 话题
+我要提问 +随便写写

可能感兴趣的话题

Perplexity新增AI购物功能并集成PayPal结账服务

Anthropic重磅研究：只需250个文档，就能给任意大模型投毒

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2

Coinbase强制员工用AI写代码，结果安全漏洞暴增1000%