任丘市奥力斯涂料厂

任丘市奥力斯涂料厂

你的位置:任丘市奥力斯涂料厂 > 联系奥力斯 >

那曲橱柜台面胶 字节会师何恺明!开源连续扩散语言模型Cola DLM

点击次数:110 发布日期:2026-05-19
防火门专用胶厂

大语言模型真的只能走"预测下个 token "的路子吗?那曲橱柜台面胶

继何恺明之后,字节也给出了同样的回答:NO。

并且,两边都不约而同地盯上了同个向——在连续语义空间中建模语言。

关键的是,字节这次直接开源开到底,论文、代码、模型权重、中文博客通通释出。

帮大快速回忆下。就在上周,何恺明团队出个扩散语言模型 ELF ——

它跳过 token 层,把整个生成过程留在连续 embedding 空间里完成,仅用 105M 参数就跑赢众主流扩散语言模型,次证明连续路线在语言生成上真有潜力。

而字节这次带来的 Cola DLM(Continuous Latent Diffusion Language Model),则进步佐证了这趋势。

他们同样选择跳出离散 token 的束缚,把生成过程交给连续空间,结果是:

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下,Cola DLM 展现出了比自回归模型和主流离散 DLM 稳定的 scaling 趋势。

然而,正当你以为这不过是又个"把图像扩散模型搬进语言域"的故事时,字节却告诉你:错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊??不是为了 diffusion,结果做了个 diffusion language model?

字节:Token ≠语义,表征才是真正的主角

事实上,真正的主角藏在这句话的后半段:

Cola DLM 的 motivation 从来不是 diffusion,而是representation(表征)。

奥力斯    保温护角专用胶批发    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

在字节看来,真正重要的是表征,Token 这种 tokenizer 工程和历史演化的产物,仅仅是表征被实现出来的种形式而已。他们还大胆给出了个暴论:

Token 是人类语言系统的表层载体,不是语义本身。

简单看个例子你就懂了,比如我们用不同的话表达同个意思:

我今天很开心。

今天我心情很好。

今天过得挺愉快。

token 差了大堆,但语义还是那个。

放在以前,主流大模型通常会把这些不同说法,当成几套不同的表达分别去学——明明背后是同个语义,模型偏偏要在 token 这个表层挨个对齐。

所以字节的判断是,如果模型内部存在种稳定、抽象的"语义状态",那这些本质相同、只是说法不同的句子,其实没要被分别记忆,而是可以在内部收敛到相近的表示。因此本质上而言:

Cola DLM 的 diffusion 不是在恢复 token,而是在 transport 个 latent prior。

怎么" transport 个 latent prior "?字节选择直接把语义和实现分层。

具体法论指路论文 3.1.1,这里我们简单翻译过来就是:

Cola DLM 的生成模型,本质上只有两部分。个 latent prior,负责生成"潜在语义"; 个 decoder,负责把这些语义翻译成具体文字。 看上去就像是把"生成句话"拆成了两件相对立的事。

而且关键在于,整个 diffusion/flow matching 过程,其实都发生在 latent 空间里,而不是 token 空间里。

就是说,Cola DLM 干的不是把堆脏 token 慢慢去噪成干净 token,而是先在连续语义空间里,把团随机语义慢慢组织成有意义的潜在表达,后再统翻译成文字。

所以在它的生成路径里,其实根本没有 token 的逐步生成过程,token 只在后步才出现,前面学的都是"语义怎么形成"。

这也是 Cola DLM 和很多扩散语言模型大的不同。

很多 DLM,本质上还是围绕 token 在做"修修补补",比如恢复被 mask 的 token、逐步离散文本。但 Cola DLM 直接把 diffusion 从"文字层"搬到了"语义层",diffusion 不再负责"生成 token ",而是负责"组织语义"。在字节看来:

这不是包装上的差异那曲橱柜台面胶,而是改变了 diffusion 在模型里到底干什么。

Cola DLM 背后关键细节

法论我们知道了,那 Cola DLM 真正"和传统连续 DLM 拉开差距"的地到底在哪?

答案,就藏在几个很工程化但很关键的设计选择里。

关键 1:latent 不是简单的 embedding 替代品

先是 latent 是怎么来的。很多人听"连续语言模型",反应是——不就是在 word embedding 上做扩散嘛。

但 Cola DLM 偏偏没这么做,它门搭了套 Text VAE:

Encoder:把离散文本压缩成连续 latent(相当于提取"语义指纹");

Decoder:把 latent 再回文本。

差别在哪?token embedding 还是和 token 绑定的,每个 token 个向量,本质上还是 token 序列。

而 Cola DLM 要的 latent,是个可以连续变化、可被概率建模的随机变量。

这样来,模型处理的对象就不再是"下个 token ",而是"整段文本对应的语义状态"。

关键 2:prior 不是普通的 diffusion

Cola DLM 用的不是大熟悉的"加噪→去噪"那种 diffusion,而是个叫 block-causal DiT+Flow Matching 的组。

组看不懂不要紧,知道这个组做的事就行了:

从个简单分布(比如斯)出发;

在连续时间里学习个 vector field(向量场);

把这个分布"运输"成真实数据对应的 latent 分布。

说白了就是,不靠反复去噪,而是直接学条"优路径",把噪声平滑地引向有意义的语义。

妙的是,它在这个语义路径上还引入了 block 结构——

块内并行搞定局部语义的快速组织,块间按因果顺序保证整体逻辑不乱。

整体相当于在语义层重新搭了套生成框架,"局部快、整体顺",两样都没丢。

关键 3:训练时角分工明确

连续扩散语言模型有个常见问题:

语义表示 latent 很容易被 diffusion 带偏,后退化成个"穿了马甲的 token ",即表面是连续向量,但骨子里还是在记词,根本没形成真正的语义抽象。

所以 Cola DLM 的做法是——把两个任务分开。

Encoder/Decoder:只管"怎么把文字变成语义表示,再变回来";

Prior(DiT+FM):只管"怎么从噪声生成语义表示"。

而且训练时,Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也跟着学?因为旦让 Encoder 去适应 diffusion,它就会为了降低 loss 而偷懒,把语义表示悄悄滑向"好预测的 token 形式",后又回到老路上。

字节想要的是个稳定的语义空间,而不是个被任务污染的中介层。所以他们反其道而行之,让 prior 去适应语义空间,而不是让语义空间讨好 prior。

此外,他们还加了个语义约束(BERT-style mask loss),止 encoder 在重建时"语义坍塌"。

实验证明,万能胶生产厂家没有这个约束,latent 确实会为了降 loss 而漂走。

关键 4:把训练目标拆成了三块可以分别诊断的子任务

如果说前面三点像工程上的巧思那曲橱柜台面胶,而这四点就是 Cola DLM 在理论上的硬功夫。

字节把训练目标拆成了三个可以单看、单诊断的子任务:

重建能力:给了 latent,Decoder 能不能把原文出来?

压缩能力:这个语义表示到底压缩了多少原文信息?

拟能力:Prior 能不能学出 latent 的真实分布?

这样拆的好处在于,传统自回归把所有东西都糊在个"预测下个词"的损失函数里。

生成果不好时,你根本不知道是哪里出了问题,不知道是理解错了、记忆不够,还是生成路径歪了。

而 Cola DLM 把账得清清楚楚,哪里不行分别看指标就知道。

这也它能跑出稳定 scaling 趋势的底层原因——

不是瞎蒙,而是每个环节都能单诊断、单优化。

后鉴于篇幅原因,这里我们直接放上字节 Cola DLM 研究的成果省流版(详细内容指路博客):

同个追问,两种答案

而说到这里,我们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在起看。

很有意思的是,两份工作几乎同期,都在挑战个被默认了二十年的假设——

语言模型须建立在离散 token 上。

为什么这个假设开始受到质疑?

面,自回归大模型走到今天,"预测下个 token "这条路的瓶颈越来越明显——理慢、长程依赖弱、训练目标和真实生成质量之间存在结构 gap。

另面,扩散模型在图像、生成上的成功,让大开始反思:离散 token 真的是语言智能须依附的载体吗?还是只是历史选择的种习惯?

这两年扩散语言模型的探索(LLaDA、Dream-7B、MDLM 等)已经把这个问题拉到了台面上,但大多数工作还停留在"离散派"——还是在 token 上做扩散。

直到 ELF 和 Cola DLM 出现,两边几乎同时给出了同个答案——不绑在 token 上。

只不过具体解法上有所不同。

我也去对比了两项研究之前的区别,用图片展示如下:

简单说,ELF 像个人从头干到尾,在原长度 embedding 空间里反复琢磨,到后步才落笔成字。

Cola DLM 则像两个分工部门,语义部先讨论"要表达什么",文字部再负责"具体怎么写"。

两条路线法上虽然不同,但底层关切致——

让建模发生在适语言本质的表示空间里,不要被" token= 语义"这个默认框架限定。

本质上而言,它们其实是同个问题的两种回答。

而这也代表着种趋势——是时候重新认识连续扩散语言模型了。

过去两年,扩散语言模型的舞台几乎直由"离散派"占据。但 ELF 和 Cola DLM 这前后两次出手,让"连续路线"次以种严肃、可被对比、可被复现的姿态站到了台前。

值得注意的是,Cola DLM 还顺手指出了件大的事——长期以来"统多模态"卡住的核心障碍之,就是文本是离散的,而图像、、音频偏连续。

如果想让它们真正进入同个" latent 世界",须有个把文本映射到连续语义 latent 的接口。

而 Cola DLM 恰好扮演了这样的角。而这,或许才是字节这次出手的真正野心——

不是在扩散语言模型的赛道里再添名选手,而是为语言模型造座桥,把它接入连续多模态的世界。

当然,Cola DLM 团队自己也很克制,他们在博客后写道:

Cola DLM 只是这条路上的次早期尝试,但这条路本身值得继续走下去。

作者介绍

后按照惯例介绍下这项研究的作者。

整个团队由字节跳动 Seed 团队主,集结了来自港大、人大、北大、北邮、澳国立多所校的研究者,覆盖语言建模、扩散模型、生成等多个向。

署名 Hongcan Guo(郭泓灿),目前是北邮人工智能学院大四本科生,从 2025 年 6 月起在字节 Seed 实习。

研究兴趣集中在生成模型与理模型的数学基础和学习动力学,Cola DLM 的博客正是出自他手。

通讯作者 Yan Zeng(曾妍)则是字节 Seed 内部的"大牛"人物,她是字节爆款生成模型 Seedance 系列的研发负责人。有资料显示,这位西安交大校友 2021 年以校招生身份加入字节后,仅用了五年就从法工程师晋升至 4-2 职。

这次 Cola DLM 里很多"分层潜变量 +diffusion prior "的思路,与生成域长期采用的 latent diffusion 路线存在明显相通之处。

团队里还有位很有意思的"跨界选手"—— Shen Nie。他是人大瓴 AI 学院李崇轩组的代表研究者,同时也是离散扩散语言模型 LLaDA 的作者。而 LLaDA 恰恰也是 Cola DLM 在论文里比较的条离散扩散路线。

某种意义上,这件事本身就挺有意思:位离散扩散路线的代表人物,也参与到了连续 latent 路线的研究里。某种程度上也说明,Cola DLM 这次真正想讨论的,已经不只是"扩散怎么生成文本",而是底层的:

文本智能到底应该建立在什么样的状态空间之上?

其他几位核心作者同样来头不小。

Hengshuang Zhao 是香港大学计机系助理教授,曾在 MIT CSAIL、牛津 Torr Vision Group 做博士后,长期活跃于计机视觉与生成建模域。

Qiushan Guo 则来自港大 MMLab 羅平组,同时也是字节 Seedream 图像生成模型的重要研发成员之。

其他署名作者还有:Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

实际上,如果把整份作者名单放在起看,其实会发现个非常有意思的现象——

字节这次做语言模型,某种程度上几乎是把" / 视觉生成"那套核心思路整体带了进来:

做 latent diffusion 的、做生成的、做图像 prior 的、做离散 DLM 的,后起重新思考"文本到底该怎么建模"。

这或许也是为什么 Cola DLM 整体看上去,会和传统语言模型路线呈现出非常不同的气质。

因为它从开始关注的,就不只是"如何好地生成文本",而是在尝试把语言重新放回连续语义空间里,变成种能够与图像、、音频自然对齐的模态。

而这,也许才是 Cola DLM 值得关注的地:

当文本不再只是 token 序列,而成为连续世界中的种语义状态后,多模态智能又会长成什么样。

抱抱脸地址:https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址:https://github.com/ByteDance-Seed/Cola-DLM

论文:https://arxiv.org/abs/2605.06548

博客:https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

AIGC 产业峰会全阵容发布!� �查看议程

从底层架构到爆款应用,从软件到硬件,从创作到投资 ... 这次,我们希望聚齐AI 赛道的实战派,聊透 AI 到底怎么落地、怎么赚钱、怎么改变工作。

5 月 20 日,北京 · 金茂万丽酒店,@所有人,马上 AI 起来!� �  

键关注 � � 点亮星标

科技前沿进展每日见

相关词条:不锈钢保温     塑料管材设备     预应力钢绞线    玻璃棉板厂家    pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定那曲橱柜台面胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。