本钱直降 50 倍纯蒸馏模型 呈现直接 SFT,数据已悉数开源

2025-07-04 10:35:42 


a-m-team 又发新论文了 。纯蒸A呈

这个团队上星期刚刚在 Hugging Face 低沉开源了32B稠密模型 ,馏模但在多项要害推理评测中打败了 DeepSeek-R1,型S现直悉数并与超大规模的接S据已 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 平起平坐,本钱倍数因而赢得了海内外的直降不少重视。

今日,开源a-m-team 发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的纯蒸A呈论文 ,介绍了 R1 之后下一代推理模型的馏模小发展。

在这篇论文中,型S现直悉数研讨团队发现依据 AM-Thinking-v1 的接S据已问答数据“纯蒸馏”(即只用SFT)练习出的“学生模型”,居然在多个高难推理使命上挨近乃至到达当时最优水平(SOTA) ,本钱倍数不只超越了Qwen3-32B ,直降乃至挨近了 Qwen3-235B 这样大一个数量级的开源模型表现。

纯蒸馏模型 SOTA 出现
!纯蒸A呈<strong></strong>直接 SFT 成本直降 50 倍	,数据已全部开源

论文链接:https://arxiv.org/pdf/2505.14464 。

在大模型才能比赛继续推动的今日 ,如何故更低的练习本钱获得更强的推理才能,成为开源社区面对的中心应战之一。

比较于 SFT+RL 的练习方法 ,只用 SFT 意味着着数十倍的本钱减缩——也就是说 ,没有强化学习才能的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地 ,能够大幅提高使用功率 、下降落地本钱。

这意味着开源社区未来能以更低的练习本钱 ,获得更强的推理才能 。而这项作业建立的前提条件是 ,需求能有杰出的数据源。

换言之,假设数据源能驱动蒸馏模型的成长 ,那么蒸馏也将不仅仅一个简简略单的智能“紧缩”动作  ,而是会有潜力成为在开源社区生态中螺旋成长的系统性工程  。


什么样的数据源更有用?


蒸馏(Distillation)作为一种低本钱、高功率的练习方法,已被广泛用于模型紧缩与才能搬迁。一般状况下,依据GRPO 或许 PPO 的 RL 练习,但一个被长时间忽视的问题是:你的蒸馏源选对了吗 ?

a-m-team 近期开源了一套依据 AM-Thinking-v1 和 Qwen3-235B-A22B 两个顶尖大模型生成的推理蒸馏数据集。经过对 189 万条高质量推理使命的并行蒸馏比照剖析发现 :

依据 AM-Thinking-v1 蒸馏练习出的学生模型在多个高难推理使命上挨近乃至到达当时最优水平(SOTA);

这份开源数据集为低本钱构建强推理才能模型供给了厚实支撑;

用相同的学生模型、练习装备  、benchmark 套件比照练习成果;

开源其间两份(AM-Thinking-v1 和 Qwen3-235B-A22B)的数据以供社区验证 。

正如本篇论文一语双关的主标题 ,“Not All Correct Answers Are Equal”——不同的模型,假如生成类似正确的答案 ,但并不代表他们都有相同的价值。因为依据这个正确答案背面的数据源质量、结构存在差异 ,天然对后续练习的奉献或许存在明显差异。

a-m-team研讨以自家最新发布的AM-Thinking-v1为例 ,依据其团队研讨,以AM-Thinking-v1为教师模型练习出来的纯蒸馏模型 ,比较于Qwen3-235B-A22和DeepSeek-R1的蒸馏模型在功能上有着明显的抢先优势 。

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍�,数据已全部开源

不只如此,AM蒸馏进程中的丢失曲线也是最低的 ,这点其实从图一的评分摆放中也可见一斑。如下图所示 ,AM长时间坚持了远低于其他模型的基准损耗 。

纯蒸馏模型 SOTA 出现
!直接 SFT 成本直降 50 倍
,数据已全部开源

损耗低的背面是 AM 团队自身供给了更合适学习的高质量的数据。

a-m-team 团队对从三个不同的大规模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的练习数据进行了详细剖析后,以为这种分数差异来或许自于他们在数据结构上的优势。

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍
,数据已全部开源

首要 ,AM的token 长度散布愈加多样。

如下图专门展现了数学实例的词元跨度散布状况 。成果标明 ,AM-Thinking-v1 的数学数据出现出高度涣散的散布状况,出现了更多的短序列 。

这意味着,AM的呼应跨度广——它既能生成简练的1024 token以内回复 ,也能输出超越 10240 token 的杂乱推理链,这种“长短结合”的散布为模型的自适应才能供给了数据支撑 。

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源

其次 ,AM 模型数据源的困惑度更低,数据质量更高。

研讨称  ,AM 的均匀Perplexity(PPL)数值为2.5 ,低于Qwen3.0和DeepSeek R1 2.9 ,标明 AM 的数据在言语流畅性 、连贯性等方面更优 ,这或许代表其合适用于练习结构化 reasoning 进程 。

纯蒸馏模型 SOTA 出现
!直接 SFT 成本直降 50 倍�,数据已全部开源

而因为更好的数据结构,除了跑分抢先外,生成行为也更契合“人类推理形式”。

研讨者宣称 ,在较难的使命中(如下图AIME2024\2025),AM 蒸馏模型会主动生成更长 reasoning 进程,而在较简略使命(如下图中 MATH500)中则坚持简明 。

这意味着模型坚持了一个较好的长调度才能 。

纯蒸馏模型 SOTA 出现�!直接 SFT 成本直降 50 倍,数据已全部开源


从不服跑个分 ,到不服蒸个馏 ?


a-m-team宣告开源了它的蒸馏数据 ,首要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset 。其间每条数据都包括 :

规范化 prompt;

契合验证规范的  +  格局推理链;

精准分使命分类(数学、代码、科学、指令、多轮对话等);

验证分数(均高于 0.9)及主动评分信息。

研讨者期望,这份数据集不只能助力社区低本钱达到强推理才能,更能够为后续 RLHF、CoT 微调 、可控生成等高档才能构建供给根底。一起,AM团队也正在试水更广泛的模型改善和使用场景。

正如AM团队在一篇剖析文章中指出,“蒸馏数据的挑选不再是技能细节 ,而是决议功能上限的要害因素。”优质的蒸馏数据源未来或许将直接影响练习功率和功能上限。

而关于模型观察者来说,AM团队在本次论文中旗帜鲜明地提出了“Not All Correct Answers Are Equal” ,其实也是对现阶段模型的一种全新反思结构:

尤其在评分差异与用户感知逐步脱节,许多从业者对评分审美疲劳的今日,什么样的开源大模型才更能够被称作抢先的 ?蒸馏背面表现的数据结构或许会是一个全新的视角 。

近来,我们都在感叹 :DeepSeek 的 R1 之后,大模型现已好久没有新的技能突破了 。但实际证明 ,静静在仔细研讨技能的团队还在不断创新和获得奉献。

((大众号:))。


原创文章 ,未经授权制止转载 。概况见转载须知。

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍�
,数据已全部开源

发表评论


表情