德宏PVC管道管件粘结胶临上交大突破：多米诺理策略实现AI理速度近6倍能力提升

你的位置：任丘市奥力斯涂料厂 > 新闻资讯 >

德宏PVC管道管件粘结胶临上交大突破：多米诺理策略实现AI理速度近6倍能力提升

发布日期：2026-06-10 01:45 点击次数：166

这项由上海交通大学EPIC实验室主，联华中科技大学软件工程学院、电子科技大学、复旦大学以及华为的研究团队共同完成的工作，于2026年5月28日以预印本形式发布，论文编号为arXiv:2605.29707。有兴趣入了解的读者可以通过该编号查询完整论文。

**、AI对话为什么有时候慢得像字机？**

每次你和个大型AI助手聊天，不知道有没有注意到个现象：它回答问题的时候，文字是个个蹦出来的，就像有人在旁慢慢字。这不是AI在关子，而是它真实的工作式——大语言模型（也就是GPT、Qwen这类AI的底层技术）在生成文字时，天生就是"个字个字往外蹦"的串行结构，每蹦出个字，都需要经历次完整的计。

这个设计有个严重的问题：现代GPU（显卡）是为大规模并行计而生的，就像个可以同时开动几千条流水线的工厂，但大语言模型的工作式偏偏只用其中条流水线，其余几千条全部闲置。结果就是：力浪费严重，回答速度慢。

为了解决这个问题，研究人员发明了种叫做"测解码"（Speculative Decoding）的加速技术。核心思路可以用个"快递包"的比喻来理解：正常情况下，你每次下单，仓库都要单包、发货，次只发件；测解码则是，先让个"见习员工"预测你接下来可能买的几件商品并提前好包，然后让"资员工"口气审核这批包裹，如果预测对了就统发出，错了就从出错的地重新来过。由于"资员工"审核多件商品的速度和审核件差不多，整体率就大幅提升了。

然而，这套法在实践中遇到了个棘手的困境，正是这篇论文要正面解决的核心问题。

**二、"见习员工"的两难困境：质量与速度不可兼得**

继续用"快递包"的比喻。"见习员工"（负责草拟答案的小模型，称为"草稿模型"）需要预测接下来几个字，这件事做得好不好，决定了整套流程能快多少。

做得好意味着什么？意味着"见习员工"每次猜对的字越多，"资员工"就能口气确认越多，率越。研究人员把"见习员工"平均每轮能猜对多少个字叫做"接受长度"——这个数字越大，加速果越好。

那么怎样才能猜得准？关键在于，见习员工在猜二个字的时候，须知道个字是什么；猜三个字的时候，须知道前两个字是什么……这种"后个字依赖前个字"的链式关系，叫做"因果依赖"。顺着这条链子步步猜，准确率，这就是"自回归起草"法（以EAGLE系列为代表）——它让见习员工像真人样，字字顺序往下写，后面的字都参考前面的字。

但问题来了：这种式虽然准，却慢。要预测16个字，就要让见习员工跑16次完整的计，而且每次都要再经过次庞大的"词典查找"（LM Head投影，即把内部计结果映射到几万个词汇上选出可能的字），这个步骤本身就很费时间。计的时间开销随着预测字数线增长，终把省下来的时间又吃掉了大半。

另条路是"并行起草"——让见习员工次把所有字都预测出来，不管前后依赖，全部并行计（以DFlash为代表）。这样只需要跑次计，速度快很多。但代价是，因为没有考虑前后字的关系，猜测的准确率下降，接受长度缩短，加速果也因此折扣。

具体数字可以说明这个两难局面：在同等条件下德宏PVC管道管件粘结胶临，EAGLE-3（自回归法）的平均接受长度达到4.86个字，但终加速比只有3.28倍；DFlash（并行法）加速比提升到3.42倍，但接受长度却降到了4.03个字。两种法各有明显短板，谁也法做到又快又准。

这就引出了这篇论文的核心问题：有没有可能把并行起草的速度，和自回归起草的准确率，同时拿到手？

**三、"多米诺骨"的灵感：分开做两件事**

研究团队给出的答案是"Domino"框架，名字本身就是个妙的比喻。多米诺骨的精妙之处在于：每块倒下时，都会动下块，前后之间有严格的因果依赖链——但如果你想知道这排骨会不会全部倒下，你不等着它们块块倒，你可以先把整排骨的摆放情况（初步预测）次扫描清楚，然后再做个轻量的"因果修正"，检查每块受前面那块影响之后会如何变化。

Domino框架正是如此运作的。它把整个草稿生成过程分成两个阶段，这两个阶段各司其职，互不干扰。

个阶段叫做"并行草稿骨干"（Parallel Draft Backbone）。这个阶段直接沿用DFlash的架构，做的事情就是：给定当前已经确认的文字前缀，次并行生成整个草稿块的初步预测分布。技术上讲，模型接收目标大模型的上下文特征，以及个"遮罩草稿块"（把待预测位置都用MASK标记遮住），然后次并行跑完所有层，输出每个位置的隐藏状态，再经过目标大模型冻结的LM Head得到每个位置的"基础概率分布"（base logits）。这步非常快，因为整个草稿块只需要次前向计。

二个阶段就是Domino的核心创新，叫做"Domino头"（Domino Head）。这是个轻量的"因果修正模块"，门负责把因果依赖信息注入到阶段生成的初步预测里，而且开销小。

**四、Domino头是怎么工作的？**

Domino头由两个部分构成：因果编码器和低秩修正头。

因果编码器用的是种叫做GRU（门控循环单元）的轻量经网络结构，隐藏维度只有1024。GRU本身就是为了处理序列信息而生的——它就像个小小的记事本，每读入个新的词，就把之前所有词的信息压缩成个"状态摘要"记录下来，供下个词参考。在Domino中，因果编码器从草稿块的个位置开始，依次读入每个已经采样出的草稿词的嵌入表示，不断新这个"状态摘要"，到了i个位置时，记事本里就存储了前i-1个草稿词的因果信息。这个过程确实是顺序的，但GRU其轻量，顺序开销远比跑次完整的大模型小得多。

低秩修正头负责把因果信息转化为对初步预测的"修正量"。具体做法是：把阶段输出的隐藏状态，和GRU输出的因果摘要状态拼接在起，先用个矩阵W1压缩到个低维瓶颈空间（维度只有256），经过SiLU激活函数后，再用矩阵W2映射回词汇空间，得到个"修正逻辑值"（correction logits）。这个修正值直接加到阶段的基础逻辑值上，得到终的草稿分布。

关键的设计决策在于：修正是在"逻辑值空间"完成的，而不是在"隐藏状态空间"。如果在隐藏状态空间做修正，每次修正后还需要重新跑遍完整的LM Head投影，又把昂贵的全词汇投影计引回来了。而在逻辑值空间做修正，只需要次低秩的矩阵运，计量小。

终的果非常显著：和DFlash相比，Domino只增加了5600万参数（参数量增幅仅5.3），总的起草加验证延迟只增加2.8，但平均接受长度提升了16.6，端到端加速比提升了12.3。

**五、训练的两个关键决策：为什么不能直接训练？**德宏PVC管道管件粘结胶临

模型设计好了，怎么训练它同样大有讲究。研究团队在训练阶段遇到了两个不同的"坑"，并分别给出了解决案。

个坑是：因果编码器在训练时应该喂什么数据。种自然的想法是，让模型在训练时就模拟实际使用时的情况——先自己生成草稿词，然后把这些自己生成的（可能有错的）草稿词喂给因果编码器，学习如何修正。这种式叫做"训练时测试"（TTT），EAGLE-3就是这么做的。

然而研究团队选择了另种式：教师强制（Teacher Forcing），也就是在训练时直接把正确答案的词喂给因果编码器，而不是自己生成的词。理由有两个面。，自己生成的词在训练早期往往大量出错，用错误的输入去监督正确的输出，PVC管道管件粘结胶相当于在教模型"从错误的前提出发，出正确的结论"，这个映射关系在真实数据中根本不存在，会让因果编码器学偏。二，从测解码的运作逻辑来看，i个位置的草稿词能否对终接受长度作出贡献，前提是前面所有位置的草稿词都已经被目标模型验证为正确。换句话说，因果修正真正起作用的场，恰恰是前缀都是正确词的情况——这和教师强制训练时的输入分布吻。实验证明，教师强制相比TTT，平均接受长度从3.80提升到3.96。

二个坑是教师强制引入的新问题。由于训练时因果编码器总是拿到干净的正确前缀，修正分支学起来会特别"轻松"，以至于它可以越俎代庖，把并行骨干的功劳都过来——骨干输出的基础预测越来越差（"反正有修正分支兜底，随便预测就行"），修正分支越来越强，终整个模型对骨干严重退化，只靠修正分支单斗。这种现象叫做"骨干崩溃"，从训练曲线上看就是并行骨干的损失值路居不下，法正常下降。

为了解决这个问题，研究团队设计了"基础锚定课程"（Base-anchored Curriculum）。训练目标被设计为两个损失的加权组：个是针对基础预测的损失，个是针对终（经修正后）预测的损失。权重随训练进程动态变化：训练初期，权重倾向于基础预测损失，强制骨干先把基础分布学好；随着训练进，权重线从基础预测损失向终预测损失过渡，让修正分支逐渐接管"精修"任务。这就像教个学徒厨师：先让他把刀工、火候等基本功练扎实，再教他各种调味技巧——而不是开始就让他堆砌各种调料掩盖食材本身的问题。

实验数据验证了这个设计的价值：教师强制加上基础锚定课程（TF+Curr）的平均接受长度达到4.19，比单纯教师强制（TF）的3.96又进步提升，比TTT的3.80是提升明显。

此外，在实现层面，Domino头的顺序修正循环采用了融Triton内核和CUDA Graph技术进行优化，将内核启动和Python层面的调度开销大幅压缩，Domino头的实际延迟从2.64毫秒降低到1.20毫秒。

**六、实验结果：数字说话**

研究团队在Qwen3-4B和Qwen3-8B两个目标模型上进行了评测，任务覆盖数学理（GSM8K、MATH-500、AIME25）、代码生成（HumanEval、MBPP、LiveCodeBench）和开放对话（MT-Bench、Alpaca）三大类别。对比法包括自回归起草的EAGLE-3（树大小16和60两种配置）、并行起草的DFlash和DART，以及词汇裁剪法FR-Spec。

在Transformers后端的低并发场景下，Domino的表现相当突出。以贪婪解码（温度为0）为例，在Qwen3-8B上，Domino在GSM8K上实现了7.92倍加速，在MATH-500上实现了7.38倍，在HumanEval上实现了5.89倍，在MBPP上实现了5.53倍，在LiveCodeBench上实现了5.27倍，在MT-Bench上实现了3.29倍，在Alpaca上实现了2.78倍，八个任务的平均加速比达到5.49倍。而同等条件下，EAGLE-3（16）的平均加速比仅为1.97倍，EAGLE-3（60）为2.26倍，DFlash（16）为4.66倍，DART（60）为2.29倍。即便与接近的竞争者DFlash相比，Domino也多出了近个百分点。在Qwen3-4B上，Domino的平均加速比进步达到5.47倍，同样优于DFlash的4.70倍。

在采样解码（温度为1，输出随机）的条件下，Domino同样保持先：Qwen3-8B上的平均加速比为4.46倍，于DFlash的3.96倍；Qwen3-4B上为4.61倍，于DFlash的4.03倍。

在并发场景下，研究团队使用SGLang理服务框架测试了吞吐量。以Qwen3-8B、GSM8K任务为例，在并发数为2时，Domino达到942 tokens/秒（约为基线的5.1倍），并发32时达到3650 tokens/秒（约为基线的2.1倍）。同等条件下，DFlash在并发2时为672 tokens/秒（3.7倍），并发32时为2801 tokens/秒（1.6倍）。EAGLE-3（16）在并发32时已经接近或低于基线水平（0.8倍），说明在并发下，自回归起草的顺序开销大地拖累了整体吞吐量，而并行起草类法在并发下优势为明显。

为了排除训练数据差异对结果的影响，研究团队还门做了同数据对比实验：所有法均在相同的ShareGPT数据集上训练，使用相同的16词草稿预。在这种严格控制的条件下，Domino在GSM8K、HumanEval、LiveCodeBench三个任务上的低并发（1个请求）加速比分别为3.01倍、2.82倍、2.55倍，均优于EAGLE-3（2.35/2.27/1.99倍）、FR-Spec（2.77/2.67/2.36倍）和DFlash（2.68/2.58/2.36倍）。这说明Domino的增益来自模型设计本身，而非数据优势。

消融实验进步拆解了Domino头的具体贡献：在同个训练好的模型上，关闭因果修正分支时，平均接受长度为3.49，平均加速比为2.84倍；开启因果修正分支后，平均接受长度提升至4.19，平均加速比提升至3.31倍。GSM8K上的提升为明显，接受长度从3.82提升到4.80，加速比从3.17倍提升到3.84倍。这证明轻量因果修正是Domino越纯并行骨干的关键所在。

**七、客观看待这套案的边界**

研究团队在论文末尾也坦诚地指出了这项工作目前的局限。Domino当前的实现主要适配SGLang理框架，在其他理框架（例如vLLM等）上的兼容尚未系统评估。此外，实际加速果受硬件平台差异的影响较大——不同GPU的显存带宽、计能力和内核率各不相同，在不同硬件环境下部署时可能需要针对的优化调整。这项研究聚焦于理阶段的加速，并不涉及模型训练或微调成本的降低。

归根结底，Domino给出了个清晰的技术答案：并行起草和因果建模并不是非此即彼的选择，可以通过架构设计把两者的优势叠加起来。用小的参数开销和低的时延代价，把遗漏的因果依赖信息补回来，终实现"鱼和熊掌兼得"。随着大语言模型在越来越多的实际场景中部署，这类面向理率的精细化工程探索，可能比单纯追求大模型具现实意义——毕竟，同样的力资源，如果能多服务几倍的用户，本身就是件很有价值的事。对这个课题有兴趣的读者，可以通过arXiv编号2605.29707查阅完整论文，代码和模型权重也已在GitHub和Hugging Face上公开。

---

Q&A

Q1：测解码（Speculative Decoding）是什么原理，为什么能加速AI理？

A：测解码的核心是用个小模型提前猜测大模型接下来会输出的几个词，然后让大模型次审核这批猜测，审核多个词的时间和审核个词差不多。如果猜对了，就次进多步，相当于大模型的每次计能产生多输出，整体速度因此提升。

Q2：Domino法与EAGLE-3和DFlash相比，分别在哪些面做了改进？

A：EAGLE-3是逐词顺序生成草稿，因果建模准确但速度慢；DFlash是次并行生成所有草稿词，速度快但丢失了词与词之间的因果依赖，准确率下降。Domino保留DFlash的并行骨干做快速初稿，再用轻量GRU编码器把因果信息以"修正量"的形式补回来，兼顾了速度和准确率。

Q3：基础锚定课程训练策略解决了什么问题？

A：在教师强制训练中，因果修正分支拿到干净的正确前缀后很容易"功"，致并行骨干的基础预测退化。基础锚定课程通过动态调整损失权重，训练初期强制骨干先把基础预测学好，后期再逐步让修正分支发挥作用，避了骨干崩溃，终接受长度比单纯教师强制又提升了约5.8。相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

德宏PVC管道管件粘结胶临 上交大突破：多米诺理策略实现AI理速度近6倍能力提升

德宏PVC管道管件粘结胶临 上交大突破：多米诺理策略实现AI

北京护角专用胶 食管穿孔不是普通胸痛，吞咽后疼痛加重和发热要

滨州泡沫板橡塑板专用胶 贝林厄姆: 目前我的身体

石家庄防火门胶价格 山东泰山队三重命题：应续约泽卡、破局克雷

石家庄万能胶厂家 美司令声称“韩国就像把指向的匕”，韩回应

安徽护角专用胶价格 带妻进组？张嘉益老婆参演《主角》，看清五

德宏PVC管道管件粘结胶临上交大突破：多米诺理策略实现AI理速度近6倍能力提升

德宏PVC管道管件粘结胶临上交大突破：多米诺理策略实现AI

北京护角专用胶食管穿孔不是普通胸痛，吞咽后疼痛加重和发热要

滨州泡沫板橡塑板专用胶贝林厄姆: 目前我的身体

石家庄防火门胶价格山东泰山队三重命题：应续约泽卡、破局克雷

石家庄万能胶厂家美司令声称“韩国就像把指向的匕”，韩回应

安徽护角专用胶价格带妻进组？张嘉益老婆参演《主角》，看清五