Meta 对 DeepSeek 的回应来了:Llama 4 发布,包括具备长上下文处理能力的 Scout 和 Maverick 模型,且拥有 2 万亿参数的庞然大物 Behemoth 也即将推出。
(来源:https://ai.meta.com)2025 年 1 月,随着 DeepSeek R1 在研究人员和企业中迅速普及,据报道 Meta 在得知这个新的 R1 模型的训练成本只是许多其他领先模型的一小部分,却仅花费几百万美元(相当于 Meta 给其一些 AI 团队负责人的薪酬)就超越了这些模型时,陷入了恐慌状态。
在那之前,Meta 的整个生成式 AI 战略一直基于以其“Llama”品牌发布一流的开源模型,供研究人员和公司自由使用并在此基础上进行开发。至少,对于那些月用户数少于 7 亿的用户来说是这样,若月用户数超过这个数字,则需要联系 Meta 获取特殊的付费许可条款。
然而,DeepSeek R1 在预算少得多的情况下却展现出惊人的出色性能,据称这震动了 Meta 的领导层,并促使其进行某种反思。就在 2024 年 12 月,也就是一个月前,Meta 刚刚发布了上一版本的 Llama 3.3,但在当时它显得有些过时。
现在我们知道了那次反思的成果:当地时间 4 月 5 日,Meta 创始人兼 CEO 扎克伯格在他的 Instagram 账号上宣布推出新的 Llama 4 系列模型,其中两款——拥有 4000 亿参数的 Llama 4 Maverick 和拥有 1090 亿参数的 Llama 4 Scout——现已可供开发者在 llama.com 和 AI 代码共享社区 Hugging Face 上下载、使用或进行微调。
同样在 4 月 5 日,拥有 2 万亿参数的大型模型 Llama 4 Behemoth 也发布了预览版,不过 Meta 的博客文章称该模型仍在训练中,并未透露其可能的发布时间。需要注意的是,参数指的是控制模型行为的设置,一般来说参数越多意味着模型在各方面更强大、更复杂。
这些模型的一个主要特点是它们都是多模态的,经过针对文本、视频和图像的训练,因此能够接收和生成这些内容。
另一个特点是它们拥有较长的上下文窗口——Llama 4 Maverick 为 100 万个 tokens,Llama 4 Scout 为 1000 万个 tokens——分别相当于大约 1500 页和 15000 页的文本内容,并且模型在一次输入/输出交互中就能处理这些内容。这意味着理论上用户可以上传或粘贴多达 7500 页的文本内容,并从 Llama 4 Scout 获得同样多的回复,这对于医学、科学、工程、数学、文学等信息密集型领域来说非常实用。
据了解,这三个模型都采用了“专家混合(MoE)”架构方法,这种方法在 OpenAI 和 Mistral 早期发布的模型中得到了推广,本质上是将多个专门处理不同任务、主题和媒体格式的较小模型(即“专家”模型)组合成一个更大的统一模型。据说每个 Llama 4 模型都是 128 个不同专家模型的混合体,并且运行效率更高,因为在处理每个 tokens 时,只需特定任务所需的专家模型加上一个“共享”专家模型,而无需让整个模型对每个 tokens 都进行处理。
虽然所有参数都存储在内存中,但在运行这些模型时,只有总参数的一个子集被激活。这通过降低模型运行成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个英伟达 H100 DGX 主机上运行,不仅便于部署,也可以通过分布式推理实现最高效率。
Llama 4 Scout 和 Llama 4 Maverick 现已向公众开放,可供自行部署,不过 Meta 尚未公布其官方基础设施的托管 API 或定价等级。相反,Meta 专注于通过开放下载以及与 WhatsApp、Messenger、Instagram 和网页版的元 AI 进行集成来进行分发。
Meta 估计,Llama 4 Maverick 的推理成本为每 100 万个 tokens 0.19 美元至 0.49 美元(输入和输出比例为 3:1)。根据社区基准测试,这使得它比像 GPT-4o 这样的专有模型便宜得多,据估计 GPT-4o 的成本为每 100 万个 tokens 4.38 美元。
Llama 4 的三个模型尤其是 Maverick 和 Behemoth,都被设计用于推理、编码和逐步解决问题,不过它们似乎没有表现出像 OpenAI 的“o”系列或 DeepSeek R1 等专门推理模型那样的思维链。
相反,它们似乎旨在更直接地与“经典”的非推理大语言模型和多模态模型竞争,比如 OpenAI 的 GPT-4o 和 DeepSeek 的 V3。但是,Llama 4 Behemoth 除外,它似乎确实对 DeepSeek R1 构成了威胁。
此外,对于 Llama 4,Meta 构建了专注于增强推理能力的定制训练后流程,例如:
- 在有监督的微调过程中,去除超过 50% 的“简单”提示。
- 采用不断增加难度提示的持续强化学习循环。
- 使用“k 次尝试通过”评估和课程采样来加强在数学、逻辑和编码方面的性能。
- 采用一种名为 MetaP 的新技术,让工程师可以在模型上调整超参数(如每层的学习率),并将其应用于其他不同规模和 tokens 类型的模型,同时保持模型预期的行为。
MetaP 可被用于在一个模型上设置超参数,然后应用于许多其他类型的模型,从而提高训练效率。这样可以节省大量的时间和金钱,从而可以在较小的模型上进行实验。
在训练像 Behemoth 这样的大型模型时,这一点尤其关键,Behemoth 使用 32000 个 GPU 和 FP8 精度,在超过 30 万亿个 tokens 上实现了每个 GPU 390 TFLOPs 的运算能力,其训练数据是 Llama 3 的两倍多。换句话说:研究人员可以大致告诉模型他们希望它如何运行,并将这种设置应用于不同规模的模型,以及不同形式的媒体上。
在 Instagram 上的发布视频中,扎克伯格表示 Meta 的“目标是打造世界领先的 AI,将其开源,并让所有人都能使用,从而使全世界的人都受益…… 我早就说过,我认为开源 AI 将成为领先的模型,而随着 Llama 4 的推出,这正在成为现实。”
Meta 的博客文章称 Llama 4 Scout“是同类中世界上最好的多模态模型,比所有上一代 Llama 模型都更强大”。这些的确都是非常强大的模型,与同参数规模的其他模型相比,它们处于领先地位,但不一定创造了新的性能纪录。尽管如此,Meta 还是热衷于宣扬 Llama 4 系列模型的“超越性”。
使用参数最高的基准测试模型 Llama 4 Behemoth,并将其与 DeepSeek R1 最初发布的 R1-32B 模型图表以及 OpenAI o1 模型进行比较之后发现,虽然 DeepSeek R1 和 OpenAI o1 在几个指标上领先于 Behemoth,但 Llama 4 Behemoth 仍然具有很强的竞争力,在其同类推理排行榜上处于领先或接近领先的位置。
Meta 还通过引入 Llama Guard、Prompt Guard 和 CyberSecEval 等工具来强调模型的一致性和安全性,以帮助开发者检测不安全的输入/输出或对抗性提示,并实施生成式攻击性代理测试(GOAT)来进行自动化的红队测试。
该公司还声称 Llama 4 在“政治偏见”方面有显著改善,并表示“(领先的大语言模型)在有争议的政治和社会话题上历来倾向于左派观点”,而 Llama 4 在迎合右派观点方面表现得更好……”这与扎克伯格在 2024 年选举后对美国总统特朗普及其政党的支持相一致。
此外,Meta 的 Llama 4 模型在多模态和推理任务中融合了效率、开放性和高端性能。
随着 Scout 和 Maverick 现已向公众开放,以及 Behemoth 作为最先进的教师模型进行了预览,Llama 生态系统有望成为 OpenAI、Anthropic、DeepSeek 和谷歌等公司顶级专有模型的有力开源替代品。
参考资料:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
https://www.theverge.com/news/644171/llama-4-released-ai-model-whatsapp-messenger-instagram-direct