(SeaPRwire) –   Meta 发布了 Muse Spark,这是其 Meta Superintelligence Labs 生产的首个 AI 模型。该实验室是 Meta 去年成立的新 AI 研究部门,并投入了数十亿美元用于人员配置和设备购置。

根据 Meta 发布的基础设施测试结果,该模型在许多任务上可与来自 OpenAI、Anthropic 和 Google 的领先 AI 模型相媲美,尽管它并未在所有领域都超越它们。尽管如此,如果基准测试结果在经过独立专家测试后依然成立,Muse Spark 似乎让 Meta 重新回到了 AI 竞赛中。此前,Meta 在 2025 年 4 月发布的上一个 AI 模型 Llama 4 被广泛批评为失败之作。

然而,Meta 过去曾被发现操纵发布的 AI 模型基准测试结果,使其看起来比大多数用户实际可用的版本更强大。Meta 的 Llama 4 基准测试就属于这种情况,该公司后来承认使用了针对特定任务进行微调的未发布专用版本模型来提高这些领域的基准分数,而向所有用户提供的通用版本表现则不尽如人意。

还有一个问题。除了该公司自身的产品生态系统外,很少有人能使用这款新的 Meta 模型。与 Meta 之前的 AI 模型不同——那些模型以“开放权重”(open weight)形式发布,意味着任何人都可以免费下载并在自己的设备上运行,并根据需要进行修改和微调——Muse Spark 目前主要作为 Meta 的内部工具。

该模型目前为该公司独立 Meta AI 应用及 meta.ai 上的 Meta AI 助手提供支持。该公司表示,将在未来几周内将其推广到 WhatsApp、Instagram、Facebook、Messenger 以及 Meta 的 Ray-Ban AI 眼镜中。公司还表示,将通过应用程序编程接口(API)向选定的合作伙伴提供该模型的“私人预览版”。这使得 Muse Spark 比 Meta 竞争对手提供的付费专有模型更具封闭性。(Meta 在一篇博客文章中表示,希望开源该模型的未来版本。)

Muse Spark 是 Meta 的首个推理模型,这意味着它可以按部就班地处理过程,如果初始方法无效,则会使用不同的策略。该公司之前的模型旨在根据模型的训练产生即时答案。Muse Spark 也是一个多模态模型,可以输入和输出文本及图像。根据 Meta 发布的一篇技术博客文章,该模型还支持使用其他软件工具,并能帮助协调多个子智能体(subagents)的工作。

在宣布新模型的博客文章中,Meta 将 Muse Spark 描述为“设计小巧快速,但足以推理科学、数学和健康领域的复杂问题”。它将该模型描述为一系列新模型中的首个,Muse Spark 被用于验证 Meta 正在使用的架构和训练方案,随后公司将把这一方案扩展到同系列中更大、更强大的模型上。

该模型还具有“沉思”或“思考”模式,在这种模式下,它可以启动子智能体来并行推理任务的不同部分。Meta 在其发布的一篇关于新模型的技术博客中表示,这种模式允许 Muse Spark “与 Gemini Deep Think 和 GPT Pro 等前沿模型的极端推理模式竞争”。

随发布一同公布的基准测试结果描绘了一个具有竞争力但并不占主导地位的模型形象。例如,在旨在测试博士级推理能力的 GPQA Diamond 基准测试中,Muse Spark 得分为 89.5%,略低于 Gemini 3.1 Pro 的 94.3%,以及 Anthropic 的 Claude Opus 4.6 和 OpenAI 的 GPT-5.4 分别取得的 92.7% 和 92.8%。在领先的健康基准测试 HealthBench Hard 上,Muse Spark 以 42.8% 的得分击败了所有竞争模型,表现远优于 Opus 4.6 或 Gemini 3.1 Pro,并略优于 GPT-5.4。

Meta 承认了性能差距。其技术博客文章指出,公司继续“在目前存在性能差距的领域进行投资,特别是长周期智能体系统和编码工作流”。

Muse Spark 的发布是 Meta 在 Llama 4 惨败后进行全面重组以来最切实的成果。2025 年 6 月,Meta 斥资 143 亿美元收购了 Scale AI 49% 的无投票权股份,并聘请其联合创始人兼首席执行官 Alexandr Wang 担任 Meta 首位首席 AI 官。

Wang 被委以领导新成立的 Meta Superintelligence Labs 部门的重任。Wang 和 Zuckerberg 展开了一场人才抢夺战,向竞争对手 AI 实验室的 AI 研究人员提供薪酬方案,据报道,计入股权后薪酬高达数亿美元。该公司还承诺投入数千亿美元建设 AI 计算基础设施,以支持其新的 AI 计划。 

此后,即使在 Muse Spark 开发期间,也发生了进一步的重组。2026 年 3 月,Meta 成立了一个新的应用 AI 工程组织,由曾任职于 Meta 的 Reality Labs 虚拟和增强现实部门的副总裁 Maher Saba 领导。Saba 直接向 Meta 首席技术官 Andrew Bosworth 汇报。Saba 的部门与 Wang 的 Superintelligence Labs 并肩工作,构建一份内部备忘录中所描述的“帮助我们的模型变得更好、更快的数据引擎”。此举被广泛解读为 Zuckerberg 在分散风险——确保在 Wang 追求长期超智能研究的同时,以产品为中心的 AI 开发能够继续进行。

在一篇技术博客文章中,Meta 表示在过去的九个月里,其团队从头开始重建了 AI 技术栈,包括对模型架构、优化和数据策展的改进。该公司声称,这些进步使其能够以比 Meta 之前的模型 Llama 4 Maverick “低一个数量级以上的计算量”实现相同的能力。Meta 还表示,其强化学习流水线现在可以提供“平稳、可预测的收益”,而 Muse Spark 是迈向深思熟虑的“扩展阶梯”的第一步,每一代产品都验证了前一代,随后公司再训练更大的模型。

在安全性方面,Meta 表示 Muse Spark 在部署前根据公司更新的安全框架进行了广泛评估。该模型在潜在生物武器工程方面的安全性报告了令人印象深刻的结果——在一项基准测试中,它拒绝了 98% 被基准测试设计者判定为可能帮助他人开发生物武器的请求。

然而,博客文章还提到,第三方评估机构 Apollo Research 发现 Muse Spark 表现出了 Apollo 观察到的所有模型中最高的“评估意识”率,经常将测试场景识别为“对齐陷阱”。Meta 表示,其自身的后续调查发现了初步证据,表明这种意识可能会影响模型在少数对齐评估子集上的行为,但结论是这“不是发布的阻碍因素”。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。