搜索

南宁橱柜台面胶 Stable-DiffCoder越自回归模型! 扩散模型在代码生成取得新突破

发布日期:2026-02-16 19:49 点击次数:185

保温护角专用胶厂

来源丨机器之心南宁橱柜台面胶

编辑丨市平台

扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特而备受关注,如能加速的非自回归并行生成特,能直接起草编辑的特,能数据增强的特。然而,其模型能力往往落后于同等规模的自回归(AR)模型。

近日,华中科技大学和字节跳动联出了 Stable-DiffCoder。这不仅仅是个新的扩散代码模型,是次关于 「扩散训练能否提升模型能力上限」 的度探索。

Stable-DiffCoder 在复用 Seed-Coder 架构、数据的条件下,通过引入 Block Diffusion 持续预训练(CPT)及系列稳定优化策略,成功实现了能反。在 多个 Code 主流榜单上(如 MBPP,BigCodeBench 等),它不仅击败了其 AR 原型,在 8B 规模下越了 Qwen2.5-Coder ,Qwen3,DeepSeek-Coder 等众开源模型,证明了扩散训练范式本身就是种强大的数据增强手段。

论文标题:Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Github 链接: https://github.com/ByteDance-Seed/Stable-DiffCoder

模型链接: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder

01 扩散过程难以学习样本知识

扩散过程虽然表面上可以扩充很多数据,可以作为个数据增强的手段,但是实际上会引入很多噪声甚至错误知识的学习。

02 token 理的知识和流程设计

论文通过建模这个知识的学习来解释这个现象:

因此,如果用纯双向的扩散过程,在 mask 比例较大的时候,当前 token 见到的 c 变小,不干净的概率变大,致 K(c)变大,难以映射到清晰的规则。同时其会产生会产生各种各样的 c,平均每个 c 的学习量会减小。另外,还要保证训练采样的 c 跟理用的 c 是致的,才能好的使用训练学习的知识。

接下来论文通过在 2.5B 的模型设计实验来进步阐释并证明这个结论。论文从个 AR model 初始化南宁橱柜台面胶 ,然后训练段新的知识。论文设计了 3 个训练式来探索:

AR->BiDLLM: 用 AR 的式继续训练,在 100k step 的时候 CPT 成双向的 DLLM。

ARDLLM->BiDLLM: 用 AR 的结构,但是使用纯双向的采样模式来训练。然后 100k step CPT 成 BiDLLM。

BiDLLM:使用纯双向的 DLLM 训练。

奥力斯    保温护角专用胶批发    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

可以发现,后果是(1)>(2)>(3),这也符前面的理论。不用随机的「MASK」的(1)案对于知识有快的压缩速度,并且转换成 BiDLLM 也保持着佳能,这可以证明在要的学好个 DLLM,可以用 AR 或者小 block size 的 block diffusion 来进行知识压缩。另外有趣的是,在 block=32 时(1)和(2)的表现比(3)差,但是在 100k 之后表现比(3)好。100k 之前可以说明,PVC管道管件粘结胶AR 采样的 c 跟 block size=32 理过程的 c 不太匹配,但是由于 AR 压缩了大量有用的知识,稍微 CPT 下就能适配这种理过程。同时也可以说明,AR 这种结构的先验,可能适 prompt+response 这种从左侧开始理的过程。

因此我们将训练流程设计为,先用 AR 压缩遍知识,然后用 AR 退火的前个 checkpoint 继续 CPT 成小 block 的 block diffusion,来探索 diffusion 过程的数据增强能力。

03 稳定的 DLLM warmup 策略持续预训练设计

扩散模型的持续预训练通常对参数的设计(如学习率)非常敏感,容易出现 grad norm 的异常变,这也会受到各种训练架构的影响。为了保持各种训练架构的学习稳定,以及繁杂的调参过程,团队设计了种适配的 warmup 策略。

DLLM 的 CPT 过程不稳定主要受到下面 3 个原因影响:

Attention 从单向变成双向

Mask 变多致任务变得很难

为了对齐 ELBO,会在交叉熵前面乘上加权系数。比如只 mask 了个 token,会等价于只计了这个 token 的 loss,会大幅增大这个 token 对于梯度的影响,进而影响 grad norm 和 loss。

由于退火 attention 的式难以灵活适配 flash attention 等架构,该团队针对(2)(3)来设计 warmup 过程。具体的,在 warmup 阶段将 mask 比例上界逐渐 warmup 到大值,从而使得开始任务从易变难。

04 Block-wise 截断的噪声调度

05 实验结果:多个代码 benchmark 在 8B 左右的模型保持先

1.对于 Base 模型

Stable-DiffCoder-8B-Base 在代码生成,多代码语言生成,代码理上表现出。过系列 AR 和 diffusion-based 的模型。另外可以发现模型在稀疏代码语言上(如 C#,PHP 等,预训练中数据较少),相比于 AR baseline 得到了大幅增强,可以证明 DLLM 的训练过程起到了定的数据增强的果。同时在代码理能力上也得到了增强。

2.对于 Instruct 模型

Stable-DiffCoder-8B-Instruct 在代码生成,代码编辑,代码理等任务上做了综评测,并有着优越的表现。其中在常用的任务(humaneval,mbpp)上大幅过原有 AR baseline 和其他 8B 左右的 DLLM model。在测试集闭源的 MHPP 达到 qwen32B 的水平,BigCodeBench 上是过系列模型并仅次于 DeepSeek236B 的模型。同时在代码编辑 CanItEdit 任务上是有着惊艳的果。

06 总结与展望

Stable-DiffCoder 的发布,破了 「扩散模型只能做并行加速」 的刻板印象。它证明了:扩散训练范式本身就是种佳的表征学习手段。通过理的课程设计及稳定优化,扩散模型可以在代码理解和生成质量上越传统的 AR 模型。

对于未来的大模型演进,Stable-DiffCoder 提示了条新路径:也许我们不需要抛弃 AR南宁橱柜台面胶 ,而是将 AR 作为的知识压缩器,再利用 Diffusion 作为 「强化剂」,进步模型的智能上限。

相关词条:铝皮保温施工     隔热条设备     钢绞线    玻璃棉卷毡    保温护角专用胶
查看更多