潍坊PVC管道管件粘结胶 GuidedVLA给动作解码器装上可控可解释的注意力

 68    |      2026-06-13 12:31
万能胶生产厂家

具身智能要想真正走进复杂真实场景,VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型只会「看图听话再出动作」还不够。关键的问题是:当机器人伸手之前,它到底看向了哪里?

如果模型真的盯住了目标物,理解了当前操作阶段,也掌握了空间几何,动作自然稳。但在很多端到端训练的 VLA 中,动作解码器仍然像个黑箱。它可能在关注杯子,也可能在关注背景纹理、相机伪影、光照变化,甚至只是记住了训练场景里的摆放习惯。

换场景,就容易「看错」。

针对这问题,复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。它的核心思路非常直接:不要再让动作解码器自己在黑箱里「悟」该看什么,而是显式指定不同 attention head 的职责,让它们分别学习物体定位、空间几何和任务阶段。

说白了,GuidedVLA 给 VLA 的动作解码器写了张「注意力分工表」。

这让机器人动作生成不只是强,也变得可控、可解释:哪个头看物体,哪个头看度,哪个头判断任务走到哪步,都有明确分工。

目前,该工作已被 RSS 2026 接收,代码、模型和数据集均已开源。

论文标题:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

论文链接:https://arxiv.org/abs/2605.12369

项目主页:https://guidedvla.github.io/project_page/

链接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真机与仿真演示:研究团队把可控、可解释的注意力头门化机制接入 π0 基座,在多类操作任务中验证了其泛化能力。

01 机器人失败时,它到底看错了什么?

当前 VLA 模型的主流路线,是把动作作为种特殊模态接入视觉语言模型。模型接收图像观测和语言指令,再输出机器人动作。

这条路线很强,也足够简洁。

但它有个隐含前提:动作解码器能够自动学会哪些视觉和语言特征与任务真正相关。

现实并不总是这样潍坊PVC管道管件粘结胶。

论文观察到,在缺少显式引时,VLA 的 action decoder 容易过拟伪相关(spurious correlations)。比如背景纹理、偶然的相机伪影、环境噪声,都可能被模型当成决策线索。某些 cross-attention head 偶尔会看向正确区域,但这种行为度随机,会随着场景和 head 改变。

这就像个学生做题时,偶尔能抓住关键词,但并没有形成稳定的法论。

研究团队在 LIBERO-Plus layout 扰动设定下量化了这问题。π0 基线的物体注意力正确率仅为 26.5;技能识别面,linear probe 准确率也只有 48.4。

这组数字说明,VLA 的大脑里不缺视觉语言知识,真正不稳定的是动作解码这后环。

GuidedVLA 的科研问题也由此展开:如果动作解码器总是在隐式学习,能不能直接告诉它该看什么?

02 给动作解码器张「注意力分工表」

GuidedVLA 的核心洞见,是把 action decoder 从个「单体黑箱」拆成组。

Transformer 的多头注意力包含多个 attention head。过去,这些 head 的大多由端到端训练自己形成,研究者很难控制它们具体学到什么。GuidedVLA 则反过来做:人为指定部分 head 的任务,用不同辅助信号监督它们捕捉不同的任务相关因子。

这套分工主要包含三类注意力。

Object Head:负责看对目标物。

它监督注意力图集中到任务相关物体区域,比如要抓的物体、要放的位置,同时抑制干扰物和背景区域。对于杂乱桌面、小目标或透明物体,这步尤其关键。机器人很多时候不是不会抓,而是从眼就没有稳定地看对目标。

Skill Head:负责知道现在做到哪步。

很多机器人任务不是单步操作,而是长程序列。比如先抓取、再移动、再放置;先扫垃圾、再倒入托盘。如果模型不清楚当前处在哪个阶段,就可能提前跳步,或者在后步突然失败。Skill Head 通过技能阶段监督,让动作解码器显式感知任务进度。

Depth Head:负责看懂 3D 几何。

有些失败并不是语义错了,而是几何不准。按铃、插入、套叠、对齐度,都需要可靠的空间信息。Depth Head 不通过额外 loss 监督,而是结构地接入冻结度编码器的特征,让特定 head 只 attend 到度 keys/values 上,从而补上标准 2D 视觉编码器缺少的几何感。

三类 head 对应机器人操作中的三个基础问题:

目标是谁?

当前该做哪步?

空间位置准不准?潍坊PVC管道管件粘结胶

这正是 GuidedVLA 可解释的来源:把动作决策拆成了可以指定、可以观察、可以验证的注意力分工。

03 为什么它能即插即用?

直接改造个已经预训练好的 VLA,很容易带来另个问题:新监督还没学好,原来的能力先被破坏了。

GuidedVLA 借鉴了 ControlNet 式残差适配器来避这点。它保留原始主干注意力分支,同时新增个 factor-specific 的控制分支。这个控制分支通过 zero-initialized projection 再与主分支融。

由于 ZeroConv 在训练开始时初始化为 0,控制分支开始不会干扰原模型行为;随着训练进,它再逐步把 object、skill、depth 等任务相关偏置注入动作解码器。

换句话说,它不是倒重训,而是在 π0 这样的基座模型上加个可插拔控制层。

先保住原来的能力,再把该看的加进去。

为了让这套机制可扩展,团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 给出前景点提示,再用 SAM2 在段中传播掩码,后进行人工核验;技能标签由 Qwen3-VL 按预定义技能表生成阶段标签,并转换为软目标;度头则直接使用冻结度编码器特征,不需要人工度标注。

率提升也很明显:92 的 episode 需人工修正。标注 50 个 episode 时,自动流水线约需 4 分钟,纯人工则约需 43.5 分钟。

也就是说,万能胶生产厂家GuidedVLA 并不是用昂人工成本换来可解释,而是把「显式引」做成了套可以规模化的训练接口。

04 GuidedVLA 在泛化测试上真的能看对,提升稳定吗?

GuidedVLA 真正要证明的是:这种可控、可解释的分工,能否在分布偏移和真实机器人上带来稳定收益。

先是 LIBERO-Plus。这个基准门评估机器人策略在分布偏移下的鲁棒,包含相机视角、机器人初态、语言变化、光照、背景、噪声和布局 7 类扰动。

在总分上,π0 为 68.2,加入 object head 后达到 73.4,加入 skill head 后为 72.5,加入 depth head 后为 71.7。三类 head 全部加入后,GuidedVLA 达到 75.4,过 DreamVLA 的 69.9、OpenVLA-OFT 的 69.6、RIPT-VLA 的 68.4 等对比法。

LIBERO-Plus 结果表:GuidedVLA 在 7 类扰动维度和 4 类任务上整体表现强,三类注意力叠加后平均成功率达到 75.4。

有意思的是,不同 head 的优势和它们的职责度吻:object head 在 Object 套件上单头强,skill head 在 Goal 套件上单头强,depth head 在 Spatial 套件上单头强。

这证明了三类注意力真的在各自擅长的问题上发挥作用。

RoboTwin 2.0 结果:GuidedVLA 在 8 个随机化、未见设定的操作任务中潍坊PVC管道管件粘结胶,将 π0 平均成功率从 77.38 提升到 90.63。

在 RoboTwin 2.0 上,这种分工也非常直观。Click Bell 需要精确控制 Z 轴,depth head 将成功率从 35 提升到 63;Beat Hammer Block 需要度对齐,成功率从 78 提升到 96;Lift Pot 涉及严格的抓取、稳定、抬起序列,skill head 取得单头佳结果。

个负责看准,个负责排步骤,个负责补几何。

这就是「注意力」的价值。

05 到真机上,还能扛住干扰物和光照变化吗?

真实机器人实验覆盖两个双臂平台:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等庭任务;后者包括杯放入加热套、套叠杯、将杯放上加热装置等实验室操作任务。

每个任务和模型进行 20 次试验。团队设置了三类泛化条件:物体位置变化的 In-Domain 设定、加入干扰物和杂乱场景的 Scene 设定,以及光强 / 温变化的 Lighting 设定。

结果显示,GuidedVLA 在三类设定下都稳定优于 Base Policy:

In-Domain:从 55.8 提升到 75.8;

Scene:从 44.2 提升到 67.5;

Lighting:从 57.5 提升到 79.2。

链接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真机任务示例:叠碗放架。长程操作中,Skill Head 帮助模型维持阶段感,避中途跳步。

链接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真机任务示例:杯放入加热套。透明刚物体和紧几何约束考验目标定位与空间几何。

06 可解释验证:因子质量越成功率越

因子质量与任务成功率的关系:Object、Skill、Depth 三类因子质量越,整体成功率越。

GuidedVLA 进步回答了个有趣的问题:这些因子质量真的和任务成功率相关吗?

团队没有只做「有注意力头」的二元对比,而是连续调节三类因子质量,观察成功率变化。

Object Head 面,随着落在物体区域内的注意力比例从 0.25 增加到 1.0,成功率从 61.3 提升到 77.4。这说明动作 token 是否真正看向目标物,会直接影响操作表现。

Skill Head 面,随着技能识别准确率提,成功率从 66.2 提升到 77.7。模型越清楚当前任务阶段,越不容易在长程任务中跳步或乱序。

Depth Head 面,当真实度特征比例从 0 增加到 1.0,成功率从 15.0 提升到 74.2。对于精细操作,明确的 3D 几何线索是任务能否成功的关键条件之。

三类注意力的可视化结果:Object Head 聚焦目标区域,Depth Head 编码 3D 结构,Skill Head 跟踪任务阶段变化。

进步,论文还验证了「分工」本身的重要。个自然想法是:既然 object、skill、depth 都有用,能不能让所有 head 起学习所有因子?

答案是否定的。

门化分工优于「锅烩」式混训练。在 Spatial、Goal、Long 以及总体分数上,GuidedVLA 都明显先 mixture 案。

当所有 head 混学习所有目标时,不同因子的特征会纠缠在起,能反而下降。t-SNE 可视化显示,GuidedVLA 中门化的 object、depth、skill head 形成了清晰的分簇;而 mixture 案中,不同 head 的表征明显重叠。

左:GuidedVLA 的门化注意力头形成清晰的特征分簇;右:Mixture 案中,不同 head 的表示明显重叠,因子之间容易纠缠。

这说明 GuidedVLA 的关键不只是「多加监督」,而是「让不同监督进入不同」。

可控,来自可指定。

可解释,来自可分工。

总结

GuidedVLA 值得关注的地,是它把动作解码器中黑箱的部分,变成了可以被人为指定、观察和验证的结构。

过去,VLA 输出个动作,研究者很难判断它到底看对了目标物、理解了任务阶段,还是只是依赖某个视觉捷径。GuidedVLA 则把这个过程拆成 object、skill、depth 三类注意力,让动作决策出现了清晰的内部分工。

当然,这项工作仍然依赖预定义因子。如何自动发现任务相关因子,尤其是在连续任务中自动发现技能结构,仍是未来需要进步探索的问题。

但它给出了条很务实的路线:让 VLA 不只是变大,也要变得可控、可解释。

让每次操控,都有迹可循。相关词条:罐体保温施工     异型材设备     锚索    玻璃棉    保温护角专用胶

奥力斯    保温护角专用胶批发    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》潍坊PVC管道管件粘结胶,以此来变相勒索商家索要赔偿的违法恶意行为。