你的位置：任丘市奥力斯涂料厂 > 联系奥力斯 >

那曲橱柜台面胶字节会师何恺明！开源连续扩散语言模型Cola DLM

点击次数：110 发布日期：2026-05-19

大语言模型真的只能走"预测下个 token "的路子吗？那曲橱柜台面胶

继何恺明之后，字节也给出了同样的回答：NO。

并且，两边都不约而同地盯上了同个向——在连续语义空间中建模语言。

关键的是，字节这次直接开源开到底，论文、代码、模型权重、中文博客通通释出。

帮大快速回忆下。就在上周，何恺明团队出个扩散语言模型 ELF ——

它跳过 token 层，把整个生成过程留在连续 embedding 空间里完成，仅用 105M 参数就跑赢众主流扩散语言模型，次证明连续路线在语言生成上真有潜力。

而字节这次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进步佐证了这趋势。

他们同样选择跳出离散 token 的束缚，把生成过程交给连续空间，结果是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自回归模型和主流离散 DLM 稳定的 scaling 趋势。

然而，正当你以为这不过是又个"把图像扩散模型搬进语言域"的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，结果做了个 diffusion language model？

字节：Token ≠语义，表征才是真正的主角

事实上，真正的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

奥力斯保温护角专用胶批发联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

在字节看来，真正重要的是表征，Token 这种 tokenizer 工程和历史演化的产物，仅仅是表征被实现出来的种形式而已。他们还大胆给出了个暴论：

Token 是人类语言系统的表层载体，不是语义本身。

简单看个例子你就懂了，比如我们用不同的话表达同个意思：

我今天很开心。

今天我心情很好。

今天过得挺愉快。

token 差了大堆，但语义还是那个。

放在以前，主流大模型通常会把这些不同说法，当成几套不同的表达分别去学——明明背后是同个语义，模型偏偏要在 token 这个表层挨个对齐。

所以字节的判断是，如果模型内部存在种稳定、抽象的"语义状态"，那这些本质相同、只是说法不同的句子，其实没要被分别记忆，而是可以在内部收敛到相近的表示。因此本质上而言：

Cola DLM 的 diffusion 不是在恢复 token，而是在 transport 个 latent prior。

怎么" transport 个 latent prior "？字节选择直接把语义和实现分层。

具体法论指路论文 3.1.1，这里我们简单翻译过来就是：

Cola DLM 的生成模型，本质上只有两部分。个 latent prior，负责生成"潜在语义"；个 decoder，负责把这些语义翻译成具体文字。看上去就像是把"生成句话"拆成了两件相对立的事。

而且关键在于，整个 diffusion/flow matching 过程，其实都发生在 latent 空间里，而不是 token 空间里。

就是说，Cola DLM 干的不是把堆脏 token 慢慢去噪成干净 token，而是先在连续语义空间里，把团随机语义慢慢组织成有意义的潜在表达，后再统翻译成文字。

所以在它的生成路径里，其实根本没有 token 的逐步生成过程，token 只在后步才出现，前面学的都是"语义怎么形成"。

这也是 Cola DLM 和很多扩散语言模型大的不同。

很多 DLM，本质上还是围绕 token 在做"修修补补"，比如恢复被 mask 的 token、逐步离散文本。但 Cola DLM 直接把 diffusion 从"文字层"搬到了"语义层"，diffusion 不再负责"生成 token "，而是负责"组织语义"。在字节看来：

这不是包装上的差异那曲橱柜台面胶，而是改变了 diffusion 在模型里到底干什么。

Cola DLM 背后关键细节

法论我们知道了，那 Cola DLM 真正"和传统连续 DLM 拉开差距"的地到底在哪？

答案，就藏在几个很工程化但很关键的设计选择里。

关键 1：latent 不是简单的 embedding 替代品

先是 latent 是怎么来的。很多人听"连续语言模型"，反应是——不就是在 word embedding 上做扩散嘛。

但 Cola DLM 偏偏没这么做，它门搭了套 Text VAE：

Encoder：把离散文本压缩成连续 latent（相当于提取"语义指纹"）；

Decoder：把 latent 再回文本。

差别在哪？token embedding 还是和 token 绑定的，每个 token 个向量，本质上还是 token 序列。

而 Cola DLM 要的 latent，是个可以连续变化、可被概率建模的随机变量。

这样来，模型处理的对象就不再是"下个 token "，而是"整段文本对应的语义状态"。

关键 2：prior 不是普通的 diffusion

Cola DLM 用的不是大熟悉的"加噪→去噪"那种 diffusion，而是个叫 block-causal DiT+Flow Matching 的组。

组看不懂不要紧，知道这个组做的事就行了：

从个简单分布（比如斯）出发；

在连续时间里学习个 vector field（向量场）；

把这个分布"运输"成真实数据对应的 latent 分布。

说白了就是，不靠反复去噪，而是直接学条"优路径"，把噪声平滑地引向有意义的语义。

妙的是，它在这个语义路径上还引入了 block 结构——

块内并行搞定局部语义的快速组织，块间按因果顺序保证整体逻辑不乱。

整体相当于在语义层重新搭了套生成框架，"局部快、整体顺"，两样都没丢。

关键 3：训练时角分工明确

连续扩散语言模型有个常见问题：

语义表示 latent 很容易被 diffusion 带偏，后退化成个"穿了马甲的 token "，即表面是连续向量，但骨子里还是在记词，根本没形成真正的语义抽象。

所以 Cola DLM 的做法是——把两个任务分开。

Encoder/Decoder：只管"怎么把文字变成语义表示，再变回来"；

Prior（DiT+FM）：只管"怎么从噪声生成语义表示"。

而且训练时，Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也跟着学？因为旦让 Encoder 去适应 diffusion，它就会为了降低 loss 而偷懒，把语义表示悄悄滑向"好预测的 token 形式"，后又回到老路上。

字节想要的是个稳定的语义空间，而不是个被任务污染的中介层。所以他们反其道而行之，让 prior 去适应语义空间，而不是让语义空间讨好 prior。

此外，他们还加了个语义约束（BERT-style mask loss），止 encoder 在重建时"语义坍塌"。

实验证明，万能胶生产厂家没有这个约束，latent 确实会为了降 loss 而漂走。

关键 4：把训练目标拆成了三块可以分别诊断的子任务

如果说前面三点像工程上的巧思那曲橱柜台面胶，而这四点就是 Cola DLM 在理论上的硬功夫。

字节把训练目标拆成了三个可以单看、单诊断的子任务：

重建能力：给了 latent，Decoder 能不能把原文出来？

压缩能力：这个语义表示到底压缩了多少原文信息？

拟能力：Prior 能不能学出 latent 的真实分布？

这样拆的好处在于，传统自回归把所有东西都糊在个"预测下个词"的损失函数里。

生成果不好时，你根本不知道是哪里出了问题，不知道是理解错了、记忆不够，还是生成路径歪了。

而 Cola DLM 把账得清清楚楚，哪里不行分别看指标就知道。

这也它能跑出稳定 scaling 趋势的底层原因——

不是瞎蒙，而是每个环节都能单诊断、单优化。

后鉴于篇幅原因，这里我们直接放上字节 Cola DLM 研究的成果省流版（详细内容指路博客）：

同个追问，两种答案

而说到这里，我们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在起看。

很有意思的是，两份工作几乎同期，都在挑战个被默认了二十年的假设——

语言模型须建立在离散 token 上。

为什么这个假设开始受到质疑？

面，自回归大模型走到今天，"预测下个 token "这条路的瓶颈越来越明显——理慢、长程依赖弱、训练目标和真实生成质量之间存在结构 gap。

另面，扩散模型在图像、生成上的成功，让大开始反思：离散 token 真的是语言智能须依附的载体吗？还是只是历史选择的种习惯？

这两年扩散语言模型的探索（LLaDA、Dream-7B、MDLM 等）已经把这个问题拉到了台面上，但大多数工作还停留在"离散派"——还是在 token 上做扩散。

直到 ELF 和 Cola DLM 出现，两边几乎同时给出了同个答案——不绑在 token 上。

只不过具体解法上有所不同。

我也去对比了两项研究之前的区别，用图片展示如下：

简单说，ELF 像个人从头干到尾，在原长度 embedding 空间里反复琢磨，到后步才落笔成字。

Cola DLM 则像两个分工部门，语义部先讨论"要表达什么"，文字部再负责"具体怎么写"。

两条路线法上虽然不同，但底层关切致——

让建模发生在适语言本质的表示空间里，不要被" token= 语义"这个默认框架限定。

本质上而言，它们其实是同个问题的两种回答。

而这也代表着种趋势——是时候重新认识连续扩散语言模型了。

过去两年，扩散语言模型的舞台几乎直由"离散派"占据。但 ELF 和 Cola DLM 这前后两次出手，让"连续路线"次以种严肃、可被对比、可被复现的姿态站到了台前。

值得注意的是，Cola DLM 还顺手指出了件大的事——长期以来"统多模态"卡住的核心障碍之，就是文本是离散的，而图像、、音频偏连续。

如果想让它们真正进入同个" latent 世界"，须有个把文本映射到连续语义 latent 的接口。

而 Cola DLM 恰好扮演了这样的角。而这，或许才是字节这次出手的真正野心——

不是在扩散语言模型的赛道里再添名选手，而是为语言模型造座桥，把它接入连续多模态的世界。

当然，Cola DLM 团队自己也很克制，他们在博客后写道：

Cola DLM 只是这条路上的次早期尝试，但这条路本身值得继续走下去。

作者介绍

后按照惯例介绍下这项研究的作者。

整个团队由字节跳动 Seed 团队主，集结了来自港大、人大、北大、北邮、澳国立多所校的研究者，覆盖语言建模、扩散模型、生成等多个向。

署名 Hongcan Guo（郭泓灿），目前是北邮人工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

研究兴趣集中在生成模型与理模型的数学基础和学习动力学，Cola DLM 的博客正是出自他手。

通讯作者 Yan Zeng（曾妍）则是字节 Seed 内部的"大牛"人物，她是字节爆款生成模型 Seedance 系列的研发负责人。有资料显示，这位西安交大校友 2021 年以校招生身份加入字节后，仅用了五年就从法工程师晋升至 4-2 职。

这次 Cola DLM 里很多"分层潜变量 +diffusion prior "的思路，与生成域长期采用的 latent diffusion 路线存在明显相通之处。

团队里还有位很有意思的"跨界选手"—— Shen Nie。他是人大瓴 AI 学院李崇轩组的代表研究者，同时也是离散扩散语言模型 LLaDA 的作者。而 LLaDA 恰恰也是 Cola DLM 在论文里比较的条离散扩散路线。

某种意义上，这件事本身就挺有意思：位离散扩散路线的代表人物，也参与到了连续 latent 路线的研究里。某种程度上也说明，Cola DLM 这次真正想讨论的，已经不只是"扩散怎么生成文本"，而是底层的：

文本智能到底应该建立在什么样的状态空间之上？

其他几位核心作者同样来头不小。

Hengshuang Zhao 是香港大学计机系助理教授，曾在 MIT CSAIL、牛津 Torr Vision Group 做博士后，长期活跃于计机视觉与生成建模域。

Qiushan Guo 则来自港大 MMLab 羅平组，同时也是字节 Seedream 图像生成模型的重要研发成员之。

其他署名作者还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

实际上，如果把整份作者名单放在起看，其实会发现个非常有意思的现象——

字节这次做语言模型，某种程度上几乎是把" / 视觉生成"那套核心思路整体带了进来：

做 latent diffusion 的、做生成的、做图像 prior 的、做离散 DLM 的，后起重新思考"文本到底该怎么建模"。

这或许也是为什么 Cola DLM 整体看上去，会和传统语言模型路线呈现出非常不同的气质。

因为它从开始关注的，就不只是"如何好地生成文本"，而是在尝试把语言重新放回连续语义空间里，变成种能够与图像、、音频自然对齐的模态。

而这，也许才是 Cola DLM 值得关注的地：

当文本不再只是 token 序列，而成为连续世界中的种语义状态后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

AIGC 产业峰会全阵容发布！� �查看议程

从底层架构到爆款应用，从软件到硬件，从创作到投资 ... 这次，我们希望聚齐AI 赛道的实战派，聊透 AI 到底怎么落地、怎么赚钱、怎么改变工作。

5 月 20 日，北京 · 金茂万丽酒店，@所有人，马上 AI 起来！� �

键关注 � � 点亮星标

科技前沿进展每日见

相关词条:不锈钢保温塑料管材设备预应力钢绞线玻璃棉板厂家 pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定那曲橱柜台面胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇：潍坊橡塑胶 46岁温岚ICU醒来先道歉！哭着说工作全搞，败症有多可怕？上一篇：白沙家具封边胶英国下任准相在国债遭抛售后试图维稳情绪，英国国债行情趋于平稳

任丘市奥力斯涂料厂

那曲橱柜台面胶字节会师何恺明！开源连续扩散语言模型Cola DLM

推荐资讯

热点资讯/a>

最新资讯

友情链接：

产品中心

新闻资讯

联系奥力斯

任丘市奥力斯涂料厂

那曲橱柜台面胶 字节会师何恺明！开源连续扩散语言模型Cola DLM

推荐资讯

热点资讯/a>

最新资讯

友情链接：

产品中心

新闻资讯

联系奥力斯

那曲橱柜台面胶字节会师何恺明！开源连续扩散语言模型Cola DLM