郑州橡塑胶厂家看不清就乱答？多模态大模型的这个毛病终于有解了

你的位置：任丘市奥力斯涂料厂 > 联系奥力斯 >

郑州橡塑胶厂家看不清就乱答？多模态大模型的这个毛病终于有解了

发布日期：2026-06-15 14:31 点击次数：174

雨雪、雾霾、镜头噪点、压缩失真、夜间弱光……郑州橡塑胶厂家

现实里拍到的照片，几乎没有张是对"干净"的。

可偏偏就是这种再正常不过的真实画面，旦交给多模态大模型，其表现往往会大幅下滑——

原本答得对的问题，画面糊就开始答错。

学术界过去主要从"御"的角度解决这个问题，但两条主流路线都像"补丁"：

种是在模型内部"悄悄"把脏图和干净图的特征对齐。

有点果，但它是个黑盒，说不清模型到底学到了什么，也没真正建模"图像是怎么被破坏的"。

另种是让模型先用段文字描述"这张图被什么破坏了、会有什么影响"，再去回答。

思路讲清楚了，可文字写得再细，也补不回画面里已经丢掉的像素细节。

来自香港科技大学的研究团队，提出了个本质的问题：

多模态大模型，能不能不靠外部工具，自己把损坏的画面"复原"出来？

这个问题之所以成立，是因为如今很多多模态大模型是"既会看图、又会画图"的统模型——

它在海量图像上学到的生成能力，本身就隐含了份"干净世界长什么样"的先验知识。

既然如此，为什么不让模型调用这份先验，把被破坏的像素"反"回来，再基于复原图去理解？

顺着这个思路，团队提出了Robust-U1，论文已被机器学习顶会 ICML 2026 接收。

它的核心不是再加层"御外挂"，而是把鲁棒变成模型的种内生能力：

先用自己的生成先验复原损坏像素，再"看着复原图 + 原始脏图"起理作答。

个本质的问题：让大模型自己"复原"，而不是替它"御"

我们先用张图，看清三种思路的根本区别：

( A ) 特征对齐：在模型内部把脏图、干净图的特征拉近。黑盒、不可解释，本质是"硬扛"损坏。

( B ) 文字理：让模型先用文字说清楚"图被怎么破坏了"。可解释了，但文字救不回丢失的像素。

( C ) Robust-U1（视觉自恢复）：直接把脏图重建成干净图，再同时对着"脏图 + 复原图"理。

前两种思路有个共同的天花板：它们都在绕开损坏，而不去损坏。

可对"这辆车朝哪开""画面里有几个红灯"这类问题来说，答案恰恰藏在那些被噪声、模糊吃掉的像素里——

绕过去，就等于把关键证据扔了。

Robust-U1 的不同之处，是把鲁棒的来源换了个根儿：

不再向外部求助（额外的对抗训练、外接修复模型），而是向模型自身的生成先验求助，让它把丢失的视觉信息重新"画"回来。

这是种内生、也可解释的鲁棒。

原理：为什么"自己修"比"外接修复模块"对路？

个自然的质疑是：要修图，为什么不直接在大模型前面接个现成的、业的图像修复模型（去噪、去模糊、去雾……）当"预处理"？

团队真的做了这组对比：

把四个 SOTA 外接修复模型分别接在个多模态大模型前面。

结果是，好的外接案综得分只有 0.55，而 Robust-U1 是 0.74。

原因很刻，可以归为两条：

外接修复模型是为"好看"优化的，不是为"答题"优化的。它们的目标是让图像在人眼 / 指标上清晰，但"清晰"未保留了模型回答问题真正需要的语义线索。

业修复模型往往要先知道"是哪种损坏"，面对未知或混损坏容易失灵；而现实世界的损坏常常是多种叠加的。

Robust-U1 把"修复"和"理解"放进同个模型里联训练，于是修复这件事会被"下游要答对题"这个目标反向塑造——模型学会的是面向任务的修复郑州橡塑胶厂家，而不是单纯的"美颜"。

这正是它能赢过"外接修复 + 理解"流水线的根本原因。

法：分三步，把"像素修复能力"长进模型里

Robust-U1 选了个既会看图、又会画图的统大模型BAGEL当底座（这点是前提，要修图，模型本身得有"画"出图像的能力）。

然后用三步把这份通用生成能力，特化成门的"损坏复原"本：

步：先学会"把脏图变干净"

团队准备了大量"脏图 ↔ 对应干净图" 的配对数据，让模型照着学：

给它张脏图和句指令（"把这张损坏的图恢复成干净版本"），它就得生成出对应的干净图。

这个过程和当下流行的 AI 绘画很像——从团噪点出发，万能胶生产厂家步步"画"出清晰图像。

练完之后，模型通用的"画图"能力，就被磨成了项门的"按损坏反干净像素"的本。

二步：用两把"尺子"把图修得准

步修出来的图常常还差点意思。

于是团队再用强化学习让模型"边修边分、反复调优"，而且同时用两把尺子分：

把尺子看"像不像"：复原图在明暗、对比、纹理结构上和原图贴不贴（用经典图像相似度指标 SSIM）。

另把尺子看"对不对"：复原图的内容和原图说的是不是同回事（借助 CLIP 这类"看图识意"的模型判断）。

两把尺子缺不可：只看"像不像"，可能修得清晰却悄悄改了内容；只看"对不对"，又可能内容没错但画面发糊。

两者起管，才能既清楚、又忠实——

这也是"面向任务的修复"落到实处的关键。

三步：对着"脏图 + 复原图"起回答

后，模型回答问题时会同时拿到两张图（原始脏图，和它自己修好的清晰图），再给出带理过程的答案。

好处是：模型主要看清晰的复原图来理解画面，遇到拿不准的地，还能回头看眼原始脏图核对，相当于手里同时握着"复原照片"和"原始证据"两份材料，判断自然稳。

结果：不仅准，还揭示了几条"反直觉"的原理 1）真实损坏场景：明显先

R-Bench 是门测"图片被污染后模型还准不准"的基准。

看关键的三组对比（满分 1.0）：

2）抗重度干扰：准确率掉得少

在 MMMB 测试中，把图从"干净"逐步破坏到"重度损坏"：

Robust-U1：84.75 → 83.18（只掉 1.57 个点）

BAGEL：81.92 → 78.48（掉 3.44）

Robust-R1：81.41 → 75.35（掉 6.06）

Robust-U1 的优势不是"某项特别"，而是图越烂越稳——

因为它先把输入拉回了模型熟悉的"干净"样子。

3）修出来的图，肉眼可见地接近真实

从左到右：脏图、BAGEL、只做步训练、Robust-U1、真实原图。

BAGEL 还残留大量噪声和彩条纹，而 Robust-U1 在多个场景里都接近真实画面。

下面这个问答案例说明问题（问题：前车辆往哪边开，正确答案"左"）：

普通法被糊图带偏答"直行"，连基座 BAGEL 都修出了张错的图；而 Robust-U1 先把车头朝向修清楚，再答对了"左"。

像素修对了，回答才靠得住。

下面几条，才是这篇工作真正""的地——

反直觉："修得好看" ≠ "看得准"

团队同时追踪了"图像清晰度指标（PSNR）"和"问答成绩"，发现两者并不同步：

步训练把清晰度大幅拉（PSNR+6.5 dB），问答成绩却几乎没动；

二步强化学习几乎没再提清晰度，问答成绩却大幅跳升。

这说明：把图修得"数值上干净"远远不够，只有修在"对回答问题有用的地"，修复才真正帮到理解。

这条结论，正好解释了二节"为什么自己修比外接修复强"——

胜负手不在"好看"，而在"是否面向任务"。

反直觉二：真正立功的是"修图"，不是"多喂了数据"

会不会成绩提升只是因为训练时多用了数据？

团队把两块拆开单验证：

只加文字理：0.58 → 0.62；

只加"自己修图"：0.58 → 0.66（提升明显大）；

两者起：0.74。

主力确实是"像素自恢复"这项能力本身，而且它和理还能 1+1>2。

反直觉三：让模型"看着复原图"理，是须的

"数公交车"的例子（正确答案 2 辆）：只靠文字理，模型在糊图里数成了 3 辆；而 Robust-U1 先把图修清楚、再对着两张图数，准确数出 2 辆。

去掉"看复原图"这步，整体成绩会明显下滑——

这也印证了"像素层面的证据"不可替代。

层：这意味着什么

Robust-U1 真正提出的，其实不只是个强的"抗损坏模型"，而是种看待鲁棒的新视角：

把"看清→修复→理"闭成个回路，让模型在理解之前，先用自身的生成先验主动复原被破坏的世界。

相比"对齐特征""文字描述"这类外加的御，"用生成能力自我复原"是种内生、也通用的鲁棒来源：

它不依赖于事先知道"是哪种损坏"，也不止步于"描述损坏"，而是真正把丢失的视觉信息补回来。

对自动驾驶、医学影像等对画面质量其敏感的安全攸关场景，这种"先复原、再决策"的范式尤其有价值。

代码（GitHub）：https://github.com/jqtangust/Robust-U1

论文：https://arxiv.org/abs/2606.08063

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见相关词条:铝皮保温施工隔热条设备钢绞线玻璃棉卷毡保温护角专用胶

奥力斯保温护角专用胶批发联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定郑州橡塑胶厂家，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

郑州橡塑胶厂家 看不清就乱答？多模态大模型的这个毛病终于有解了

晋中PVC管道管件粘接胶 大乐透连续12期擒头！豪揽1.2亿

福建橡塑专用胶厂 字节阿里, 都“退游”了

开封家具封边胶价格 本田计划2029年以混动形式重启Elem

茂名保温护角专用胶 水利部会商部署强降雨范应对工作

张家界万能胶 技从赛场来&#32;能向实践去——探访

内江家具封边胶厂 考明天开考！教育部发布特别提醒

郑州橡塑胶厂家看不清就乱答？多模态大模型的这个毛病终于有解了

晋中PVC管道管件粘接胶大乐透连续12期擒头！豪揽1.2亿

福建橡塑专用胶厂字节阿里, 都“退游”了

开封家具封边胶价格本田计划2029年以混动形式重启Elem

茂名保温护角专用胶水利部会商部署强降雨范应对工作

张家界万能胶技从赛场来能向实践去——探访

内江家具封边胶厂考明天开考！教育部发布特别提醒