🗒️从里程碑到灾难:Llama 4的AI革命,为何遭全网吐槽?

type
status
date
slug
summary
tags
category
icon
password
Meta Llama 4 近期正式发布。然而,此次发布不仅带来了模型性能上的显著提升,也几乎同时引发了行业内外的广泛关注和巨大争议。
 
一方面是 Llama 4 系列所采用的新技术,如宣称拥有近两万亿总参数的旗舰模型(Llama 4 Behemoth)以及全新的混合专家(MoE)架构;另一方面,围绕其“开源”性质的质疑、对其声称性能表现的批评,以及数据使用和评测方法相关的指控也随之而来。
 
Llama 4 的发布,究竟是代表了 AI 开源进程中的一个新里程碑,还是一场以开放为名、实则服务于特定商业目标的策略?
 

Llama 4 模型家族概览

 
Meta 本次并未进行简单的模型升级,而是推出了一套 Llama 4 模型组合,目前已确认的核心成员包括两款已发布模型和一款仍在训练中的内部模型:
notion image
Llama 4 Scout 是一款基于混合专家(MoE)架构的模型。在每次推理(处理请求)时,它会激活 170 亿(17B) 参数。它内部拥有 16 个“专家”(子网络模块),而模型的总参数量约为 1090 亿。 Scout 的设计极其注重运行效率。Meta 表示它可以在单个英伟达 H100 GPU 上通过 Int4 量化技术高效运行,这极大地降低了高性能模型的使用门槛。其最引人瞩目的特点是其指令微调版本(Instruct)支持高达 1000 万(10M)token 的惊人上下文长度,使其在处理超长文档、代码库分析或需要长期记忆的对话任务中拥有前所未有的潜力。特别需要指出的是,Scout 原生支持多模态输入,能够同时处理文本和图像信息,并非仅限于文本。 Llama 4 Maverick同样基于 MoE 架构,同样在推理时激活 170 亿(17B) 参数。但它配备了多达 128 个“专家”,总参数量高达 4000 亿,显然是定位更高、能力更强的旗舰级模型。 Maverick 在需要更强推理、编码和创作能力的场景下表现更优。它同样原生支持多模态(可处理文本以及多达 5-8 张图像输入),非常适合视觉问答、图像描述生成等复杂任务。其指令微调版支持 100 万(1M)token 的上下文窗口。根据 Meta 的信息,Maverick 的出色性能还得益于从内部更强大的 Behemoth 模型进行的知识蒸馏(distillation),相当于站在了巨人的肩膀上。 Llama 4 Behemoth这是 Meta 迄今为止构建的规模最大、能力最强的模型,目前仍在训练和完善中,并未向公众发布。它同样采用 MoE 架构(据称为 16 专家),但其规模惊人:每次推理会激活高达 2880 亿(288B) 参数,而模型的总参数量据称接近 2 万亿(~2T)! Behemoth 不仅代表了 Meta 在 AI 技术前沿的探索和实力上限,目前也在内部扮演着“教师”的角色,通过蒸馏等方式将其“知识”传授给 Scout 和 Maverick,帮助提升这两个已发布模型的性能。

核心技术亮点解析

Llama 4 之所以能引发如此大的关注,绝非仅仅是参数量的堆砌,其背后蕴含着 Meta 在 AI 架构和训练策略上的多项关键技术革新。理解这些,才能真正把握 Llama 4 的核心竞争力:

混合专家架构 (MoE)

Llama 4 是 Llama 家族中首次采用 混合专家(Mixture-of-Experts, MoE)架构 的模型。Meta 将其定位为一种旨在平衡“大型模型所拥有的广博知识容量”与“小型模型所具备的高效推理能力”的创新设计。其核心思想是将模型的神经网络层细分为多个更小、更专业的“专家”(Expert)子网络。
工作机制:在处理每一个输入 token 时,模型内部一个被称为“门控网络”(Gating Network 或 Routing Mechanism)的组件会进行智能判断和路由,仅选择并激活(activate)一小部分(据官方或半官方信息透露通常是 Top-2,即 2 个)最适合处理当前信息的专家来参与运算。而非像传统的“密集”(Dense)模型那样,需要调动几乎全部参数。
核心优势:这种“稀疏激活”(Sparse Activation)机制是 MoE 的精髓所在。它使得 Llama 4 可以在总参数量上达到惊人的规模(如 Scout 的 109B、Maverick 的 400B 乃至 Behemoth 的近 2T),以存储更丰富的知识;但在实际执行任务时,活跃参数量却能保持在相对较低的水平(如 Scout 和 Maverick 均为 17B)。Meta 声称,这带来了多重好处:显著降低推理成本和延迟(更快、更便宜),提高服务的并发能力(服务更多用户),并通过专家的特化分工实现更优异的性能表现和更强的任务适应性

原生多模态能力

与许多先训练好纯文本模型、后续再通过微调等方式“打补丁”添加视觉理解能力的传统做法不同,Llama 4 从设计之初就强调“原生多模态”(Native Multimodality)。
实现方式:“早期融合”(Early Fusion)。与许多模型先主要基于文本进行预训练,之后再通过微调等手段“嫁接”视觉或其他模态能力的做法不同,Llama 4 据称采用了“早期融合”技术。这意味着,在预训练阶段的早期,不同类型的数据信息(如文本 token 和 图像/视觉 token,甚至可能涉及视频信息)就被整合到一个统一的模型骨干网络(unified model backbone)中进行联合学习和处理。
 
这种架构使得 Llama 4 能够更深入、更本质地理解图像内容与文本指令之间的复杂关联。它可以同时处理包含多张图片(据称最多可达 5-8 张)的查询,完成精准的视觉问答(VQA)、图像描述生成、图表数据分析等任务,为开发更智能、交互更自然的 AI 应用(如多模态助手、定制化教育内容等)打开了大门。

超长上下文窗口

Llama 4 在处理信息长度上的突破同样惊人:Maverick 支持 100 万 token,而 Scout 更是达到了令人难以置信的 1000 万(10M)token 上下文长度(相当于约 1.5 万页文档)。
实现如此极端的上下文长度,特别是在 Scout 上,据称采用了名为 “iRoPE 架构” 的关键技术。虽然具体细节复杂,但这可能涉及到交错式注意力层(interleaved attention layers)无需位置编码(positional embeddings) 以及在推理时对注意力得分进行温度缩放(temperature scaling) 等方法,其核心目标是增强模型在处理远超其预训练长度的超长序列时的泛化能力和稳定性
 
Meta 声称,即使在如此长的上下文长度下,Llama 4 在经典的“大海捞针”(Needle-in-a-Haystack, NiH)等长文本信息抽取测试中依然能保持很高的准确率。这意味着其超长上下文能力并非“理论值”,而是具有实际应用价值的,能够真正赋能以前无法想象的应用场景,如整本书籍内容分析、大型复杂代码库理解、贯穿数周乃至数月的对话记忆等。
除了架构上的创新,Llama 4 的卓越性能还得益于 Meta 在训练方法上的持续探索和投入。例如,采用更先进的 FP8 低精度格式进行训练以提升效率;运用 MetaP 超参数扩展(hyperparameter scaling) 等复杂技术来优化大规模训练过程;在包含文本、图像乃至视频的海量(数十万亿 token 级别)且多样化的数据集上进行预训练;并结合了轻量化监督微调(SFT)、强化学习(RL,可能包含课程学习、动态过滤等复杂策略)以及直接偏好优化(DPO) 等多种先进的后训练(Post-training)技术,以更好地将模型的能力与人类的指令和偏好对齐。

社区反馈与实际表现争议

 
尽管 Meta 在发布时展示了亮眼的 benchmarks,但 Llama 4 推向社区后,实际测试中的表现以及围绕其评测过程的争议,很快给这波发布蒙上了一层阴影,引发了“期望越大,失望越大”的讨论。

长上下文能力实际表现存疑

Llama 4 Scout 宣称的 1000 万 token 上下文处理能力无疑是其最大卖点之一。然而,一些初步的社区测试和分析指出,在超长文本场景下,模型的实际信息召回能力可能远未达到理想状态。有报道称其在处理长达数万乃至数十万 token 时,关键信息的提取准确率会显著下降这使得“千万级上下文”更像是一个理论上限或“PPT 创新”,其实际可用性,特别是在需要高精度信息检索的严肃场景下,被打上了一个大大的问号。有评论直接指出 Llama 4 在长上下文任务上表现“磕磕绊绊”(stumbles)。

编码能力未达部分用户预期

 
虽然 Meta 的 benchmarks 显示 Llama 4 Maverick 在编码能力上有所提升,但部分开发者在特定测试(如 aider 等代码助手场景)中反馈其表现远不如预期。有极其负面的声音将其编码能力与竞争对手(如 DeepSeek-V3,据称在同一测试中表现优异)相比,讽刺其仅达到“实习生水平”。这表明,至少在某些实际的、复杂的编码辅助任务中,Llama 4 的表现可能并不稳定,未能满足部分核心用户的期待。

多模态能力的实际效果与局限

 
Llama 4 的原生多模态能力是另一大亮点,但实测中的体验似乎也打了折扣。有用户反馈其图像理解的精细度相较于顶尖模型(如 GPT-4o)仍有差距。更关键的是,有信息指出其强大的多模态功能在实际使用中可能主要在英语环境下效果最佳,在处理非英语语言(如中文)的图文指令时,理解能力和回答意愿会显著下降,且其视觉能力在欧盟等地区可能因需遵循《AI 法案》等法规而受到额外限制。这无疑削弱了其“多语言多模态”的吸引力。

评测“作弊”疑云与信任危机

 
围绕 Llama 4 最大的争议之一,指向了其 benchmarks 的可信度。有匿名爆料(甚至据称来自内部员工)和社区分析指出,Meta 可能在 Llama 4 的训练后期,“污染”了训练数据,即混入了用于公开评测排行榜(如 LMSYS Chatbot Arena)的测试集数据。这种做法会直接导致模型在特定榜单上得分虚高,是一种被行业唾弃的“应试作弊”行为。
虽然 Meta 高管(如生成式 AI 副总裁 Ahmad Al-Dahle)公开否认了故意使用测试集进行训练的指控,称其“毫无根据”,但他们承认在 LM Arena 平台上使用了性能更好的未发布实验版本
的 Maverick,这与公开发布、供开发者下载的版本存在显著行为差异。这一“偷梁换柱”的操作无疑为“作弊”传闻火上浇油,严重损害了 Llama 4 评测结果的公信力。加之 Meta 对其具体的数据清洗和去重流程讳莫如深,更让外界疑虑重
 

关键节点的高层人事变动

 
就在 Llama 4 发布前夕(2025 年 4 月初),在 Meta AI 研究部门 FAIR 担任高管近八年、备受尊敬的 AI 研究副总裁 Joelle Pineau 宣布将于 5 月离职。尽管她在公开声明中将离职归因于“AI 竞赛加速和 Meta 方向演变,是时候为他人创造空间”,并未直接提及对 Llama 4 项目的不满,但在如此关键的节点发生高层人事变动,难免引发外界对于 Meta AI 内部策略、研究方向甚至团队稳定性的猜测。
 

“开源”标签引发的争议与生态门槛

 
Meta 一直将 Llama 系列标榜为“开源”,但 Llama 4 的发布,让这个标签的含金量受到了前所未有的拷问,其所谓的“开放生态”似乎也布满了门槛和陷阱。
 
“伪开源”的分层授权
Llama 4 采用的是 Meta 自定义的《Llama 4 社区许可证》,而非 OSI(开源促进会)认可的标准开源协议。这份协议明确规定:
 
大型企业需授权: 虽然普通开发者和中小型企业可以免费使用甚至商用,但对于月活跃用户数(MAU)超过 7 亿的“巨头”公司,使用 Llama 4 必须向 Meta 单独申请商业授权。这直接将大型潜在用户挡在了自由使用门外。
 
(潜在)竞争对手限制: 虽然本次搜索未直接确认禁止“竞争对手员工”接触模型,但此类定制许可证往往会包含限制条款,其对竞争格局的影响不言而喻。 这种区别对待的做法,被批评为是利用“开放”吸引基础用户和开发者生态,同时又对大型商业应用和竞争对手设限,本质上是一种商业策略而非真正的开放共享。
 
强制品牌绑定与生态控制
 
命名限制: 基于 Llama 4 开发的衍生模型,可能被要求在名称中包含“Llama”相关字样。
界面标注: 使用 Llama 4 的应用或服务,可能需要在界面显著位置标注“Built with Llama”标识。 这些条款被 OSI 等组织批评为试图进行品牌绑定和生态控制,与开源精神强调的自由修改、分发和使用的核心理念相悖,被斥为“伪开源”(Pseudo-open source)。
 
高昂的硬件门槛
 
尽管 Meta 强调 Scout 可在单卡 H100 上运行,Maverick 可在单台 H100 DGX 主机上运行,看似降低了门槛。但现实是,一片英伟达 H100 GPU 的市场价格高达 3 万美元甚至更高。这对于广大的个人开发者、学术研究者和初创小团队而言,仍然是一个难以逾越的经济障碍。部署和微调 Llama 4 的实际成本远非“亲民”。
与此形成鲜明对比的是,同期一些其他的开源模型(如 DeepSeek 系列)采用了更宽松、更符合开源精神的 MIT 等许可证,且部分模型更注重在消费级硬件上的适配性。这种对比使得 Meta Llama 4 的“开源诚意”受到了广泛质疑。
 
Meta Llama 4 的发布,无疑是 2025 年上半年全球 AI 领域最具爆炸性的话题之一。它携带着 MoE 架构、原生多模态、超长上下文等诸多技术光环而来,展示了 Meta 在追赶乃至试图引领 AI 前沿的决心与实力。
 
然而,正如本文所梳理的,围绕 Llama 4 的不仅仅是技术参数的提升,更有来自社区关于其实际性能表现、评测方法透明度以及“开源”模式真实性的诸多疑问和批评。
未来,Llama 4 能否真正达到其宣称的高度,Meta 又将如何回应和解决相关的争议,不仅关乎该模型家族自身的命运,也可能对整个行业在模型发布、基准评测以及开源实践等方面的规范产生影响。其后续发展值得业界持续关注。
Loading...

© 懵到深处自然准 1999-2025