潍坊PVC管道管件粘结胶 GuidedVLA给动作解码器装上可控可解释的注意力

68 | 2026-06-13 12:31

具身智能要想真正走进复杂真实场景，VLA（Vision-Language-Action，视觉 - 语言 - 动作）模型只会「看图听话再出动作」还不够。关键的问题是：当机器人伸手之前，它到底看向了哪里？

如果模型真的盯住了目标物，理解了当前操作阶段，也掌握了空间几何，动作自然稳。但在很多端到端训练的 VLA 中，动作解码器仍然像个黑箱。它可能在关注杯子，也可能在关注背景纹理、相机伪影、光照变化，甚至只是记住了训练场景里的摆放习惯。

换场景，就容易「看错」。

针对这问题，复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。它的核心思路非常直接：不要再让动作解码器自己在黑箱里「悟」该看什么，而是显式指定不同 attention head 的职责，让它们分别学习物体定位、空间几何和任务阶段。

说白了，GuidedVLA 给 VLA 的动作解码器写了张「注意力分工表」。

这让机器人动作生成不只是强，也变得可控、可解释：哪个头看物体，哪个头看度，哪个头判断任务走到哪步，都有明确分工。

目前，该工作已被 RSS 2026 接收，代码、模型和数据集均已开源。

论文标题：GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

论文链接：https://arxiv.org/abs/2605.12369

项目主页：https://guidedvla.github.io/project_page/

链接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真机与仿真演示：研究团队把可控、可解释的注意力头门化机制接入 π0 基座，在多类操作任务中验证了其泛化能力。

01 机器人失败时，它到底看错了什么？

当前 VLA 模型的主流路线，是把动作作为种特殊模态接入视觉语言模型。模型接收图像观测和语言指令，再输出机器人动作。

这条路线很强，也足够简洁。

但它有个隐含前提：动作解码器能够自动学会哪些视觉和语言特征与任务真正相关。

现实并不总是这样潍坊PVC管道管件粘结胶。

论文观察到，在缺少显式引时，VLA 的 action decoder 容易过拟伪相关（spurious correlations）。比如背景纹理、偶然的相机伪影、环境噪声，都可能被模型当成决策线索。某些 cross-attention head 偶尔会看向正确区域，但这种行为度随机，会随着场景和 head 改变。

这就像个学生做题时，偶尔能抓住关键词，但并没有形成稳定的法论。

研究团队在 LIBERO-Plus layout 扰动设定下量化了这问题。π0 基线的物体注意力正确率仅为 26.5；技能识别面，linear probe 准确率也只有 48.4。

这组数字说明，VLA 的大脑里不缺视觉语言知识，真正不稳定的是动作解码这后环。

GuidedVLA 的科研问题也由此展开：如果动作解码器总是在隐式学习，能不能直接告诉它该看什么？

02 给动作解码器张「注意力分工表」

GuidedVLA 的核心洞见，是把 action decoder 从个「单体黑箱」拆成组。

Transformer 的多头注意力包含多个 attention head。过去，这些 head 的大多由端到端训练自己形成，研究者很难控制它们具体学到什么。GuidedVLA 则反过来做：人为指定部分 head 的任务，用不同辅助信号监督它们捕捉不同的任务相关因子。

这套分工主要包含三类注意力。

Object Head：负责看对目标物。

它监督注意力图集中到任务相关物体区域，比如要抓的物体、要放的位置，同时抑制干扰物和背景区域。对于杂乱桌面、小目标或透明物体，这步尤其关键。机器人很多时候不是不会抓，而是从眼就没有稳定地看对目标。

Skill Head：负责知道现在做到哪步。

很多机器人任务不是单步操作，而是长程序列。比如先抓取、再移动、再放置；先扫垃圾、再倒入托盘。如果模型不清楚当前处在哪个阶段，就可能提前跳步，或者在后步突然失败。Skill Head 通过技能阶段监督，让动作解码器显式感知任务进度。

Depth Head：负责看懂 3D 几何。

有些失败并不是语义错了，而是几何不准。按铃、插入、套叠、对齐度，都需要可靠的空间信息。Depth Head 不通过额外 loss 监督，而是结构地接入冻结度编码器的特征，让特定 head 只 attend 到度 keys/values 上，从而补上标准 2D 视觉编码器缺少的几何感。

三类 head 对应机器人操作中的三个基础问题：

目标是谁？

当前该做哪步？

空间位置准不准？潍坊PVC管道管件粘结胶

这正是 GuidedVLA 可解释的来源：把动作决策拆成了可以指定、可以观察、可以验证的注意力分工。

03 为什么它能即插即用？

直接改造个已经预训练好的 VLA，很容易带来另个问题：新监督还没学好，原来的能力先被破坏了。

GuidedVLA 借鉴了 ControlNet 式残差适配器来避这点。它保留原始主干注意力分支，同时新增个 factor-specific 的控制分支。这个控制分支通过 zero-initialized projection 再与主分支融。

由于 ZeroConv 在训练开始时初始化为 0，控制分支开始不会干扰原模型行为；随着训练进，它再逐步把 object、skill、depth 等任务相关偏置注入动作解码器。

换句话说，它不是倒重训，而是在 π0 这样的基座模型上加个可插拔控制层。

先保住原来的能力，再把该看的加进去。

为了让这套机制可扩展，团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 给出前景点提示，再用 SAM2 在段中传播掩码，后进行人工核验；技能标签由 Qwen3-VL 按预定义技能表生成阶段标签，并转换为软目标；度头则直接使用冻结度编码器特征，不需要人工度标注。

率提升也很明显：92 的 episode 需人工修正。标注 50 个 episode 时，自动流水线约需 4 分钟，纯人工则约需 43.5 分钟。

也就是说，万能胶生产厂家GuidedVLA 并不是用昂人工成本换来可解释，而是把「显式引」做成了套可以规模化的训练接口。

04 GuidedVLA 在泛化测试上真的能看对，提升稳定吗？

GuidedVLA 真正要证明的是：这种可控、可解释的分工，能否在分布偏移和真实机器人上带来稳定收益。

先是 LIBERO-Plus。这个基准门评估机器人策略在分布偏移下的鲁棒，包含相机视角、机器人初态、语言变化、光照、背景、噪声和布局 7 类扰动。

在总分上，π0 为 68.2，加入 object head 后达到 73.4，加入 skill head 后为 72.5，加入 depth head 后为 71.7。三类 head 全部加入后，GuidedVLA 达到 75.4，过 DreamVLA 的 69.9、OpenVLA-OFT 的 69.6、RIPT-VLA 的 68.4 等对比法。

LIBERO-Plus 结果表：GuidedVLA 在 7 类扰动维度和 4 类任务上整体表现强，三类注意力叠加后平均成功率达到 75.4。

有意思的是，不同 head 的优势和它们的职责度吻：object head 在 Object 套件上单头强，skill head 在 Goal 套件上单头强，depth head 在 Spatial 套件上单头强。

这证明了三类注意力真的在各自擅长的问题上发挥作用。

RoboTwin 2.0 结果：GuidedVLA 在 8 个随机化、未见设定的操作任务中潍坊PVC管道管件粘结胶，将 π0 平均成功率从 77.38 提升到 90.63。

在 RoboTwin 2.0 上，这种分工也非常直观。Click Bell 需要精确控制 Z 轴，depth head 将成功率从 35 提升到 63；Beat Hammer Block 需要度对齐，成功率从 78 提升到 96；Lift Pot 涉及严格的抓取、稳定、抬起序列，skill head 取得单头佳结果。

个负责看准，个负责排步骤，个负责补几何。

这就是「注意力」的价值。

05 到真机上，还能扛住干扰物和光照变化吗？

真实机器人实验覆盖两个双臂平台：ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等庭任务；后者包括杯放入加热套、套叠杯、将杯放上加热装置等实验室操作任务。

每个任务和模型进行 20 次试验。团队设置了三类泛化条件：物体位置变化的 In-Domain 设定、加入干扰物和杂乱场景的 Scene 设定，以及光强 / 温变化的 Lighting 设定。

结果显示，GuidedVLA 在三类设定下都稳定优于 Base Policy：

In-Domain：从 55.8 提升到 75.8；

Scene：从 44.2 提升到 67.5；

Lighting：从 57.5 提升到 79.2。

链接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真机任务示例：叠碗放架。长程操作中，Skill Head 帮助模型维持阶段感，避中途跳步。

链接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真机任务示例：杯放入加热套。透明刚物体和紧几何约束考验目标定位与空间几何。

06 可解释验证：因子质量越成功率越

因子质量与任务成功率的关系：Object、Skill、Depth 三类因子质量越，整体成功率越。

GuidedVLA 进步回答了个有趣的问题：这些因子质量真的和任务成功率相关吗？

团队没有只做「有注意力头」的二元对比，而是连续调节三类因子质量，观察成功率变化。

Object Head 面，随着落在物体区域内的注意力比例从 0.25 增加到 1.0，成功率从 61.3 提升到 77.4。这说明动作 token 是否真正看向目标物，会直接影响操作表现。

Skill Head 面，随着技能识别准确率提，成功率从 66.2 提升到 77.7。模型越清楚当前任务阶段，越不容易在长程任务中跳步或乱序。

Depth Head 面，当真实度特征比例从 0 增加到 1.0，成功率从 15.0 提升到 74.2。对于精细操作，明确的 3D 几何线索是任务能否成功的关键条件之。

三类注意力的可视化结果：Object Head 聚焦目标区域，Depth Head 编码 3D 结构，Skill Head 跟踪任务阶段变化。

进步，论文还验证了「分工」本身的重要。个自然想法是：既然 object、skill、depth 都有用，能不能让所有 head 起学习所有因子？

答案是否定的。

门化分工优于「锅烩」式混训练。在 Spatial、Goal、Long 以及总体分数上，GuidedVLA 都明显先 mixture 案。

当所有 head 混学习所有目标时，不同因子的特征会纠缠在起，能反而下降。t-SNE 可视化显示，GuidedVLA 中门化的 object、depth、skill head 形成了清晰的分簇；而 mixture 案中，不同 head 的表征明显重叠。

左：GuidedVLA 的门化注意力头形成清晰的特征分簇；右：Mixture 案中，不同 head 的表示明显重叠，因子之间容易纠缠。

这说明 GuidedVLA 的关键不只是「多加监督」，而是「让不同监督进入不同」。

可控，来自可指定。

可解释，来自可分工。

总结

GuidedVLA 值得关注的地，是它把动作解码器中黑箱的部分，变成了可以被人为指定、观察和验证的结构。

过去，VLA 输出个动作，研究者很难判断它到底看对了目标物、理解了任务阶段，还是只是依赖某个视觉捷径。GuidedVLA 则把这个过程拆成 object、skill、depth 三类注意力，让动作决策出现了清晰的内部分工。

当然，这项工作仍然依赖预定义因子。如何自动发现任务相关因子，尤其是在连续任务中自动发现技能结构，仍是未来需要进步探索的问题。

但它给出了条很务实的路线：让 VLA 不只是变大，也要变得可控、可解释。

让每次操控，都有迹可循。相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

奥力斯保温护角专用胶批发联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》潍坊PVC管道管件粘结胶，以此来变相勒索商家索要赔偿的违法恶意行为。