新疆海绵专用胶厂家生成作为多模态理新范式

发布日期：2026-06-15 点击次数：192

被 CVPR 2026 收录！新疆海绵专用胶厂家

复旦邱锡鹏团队（OpenMOSS）次提出Thinking with Video这理新范式：

借助生成模型，以帧为统媒介进行多模态理，破视觉与文本的界限。

团队发现，Thinking with Text（基于文本的 CoT 理）和 Thinking with Images（在 CoT 中加上图像辅助理）范式已大幅提升了 LLMs 和 VLMs 的理能力。

但它们仍有局限：静态图像法展现动态过程，文本与视觉模态的割裂阻碍了统理解与生成。

而借助新范式 Thinking with Video，生成模型在视觉任务上不仅总体媲美 SOTA VLMs，而且竟也能解决 MATH、MMMU 等文本理任务。

这可谓提前预判了前不久谷歌 Gemini Omni 曝光的"教授黑板公式"的文本理能力。

目前该工作在社交平台 X 上受到关注，数据和代码已开源。

Thinking with Video：生成作为多模态理新范式

从 Thinking with Text 到 Thinking with Images，这些理范式仍存在重要缺陷：

1、静态约束：图像只能捕捉单时刻的信息，难以表达动态过程、时间变化与连续变换。

2、模态分离：文本与视觉仍被分开处理，缺少种自然统二者的理载体。

研究团队注意到，生成模型能像人样进行绘制、想象、模拟，有助于解决视觉理问题。

同时，帧还可承载文本，从而也有望完成文本理问题。

由此可见，Thinking with Video 拥有多模态理优势，研究团队对此进行了入探索。

VideoThinkBench：综的生成理测试基准

为了评估生成模型的理能力，研究团队构建了VideoThinkBench，共包含 4149 个测试样本，分为视觉任务和文本任务（图 1）。

△图 1：VideoThinkBench 的任务和 Thinking with Video 过程

视觉任务考察几何直觉、视觉模式归纳、抽象规则归纳、空间规划与搜索，包括 Eyeballing Puzzles、Visual Puzzles、ARC-AGI-2 和 Mazes。

这些视觉任务的样本通过程序自动化生成，并配有可验证答案，便于对结果进行评测。

文本任务则由已有基准（如 MATH、MMLU、MathVista、MMMU）改编而来，包含纯文本和多模态的数学理与通用理。

作者在 VideoThinkBench 上对生成模型（如 Sora-2、Veo 3.1）进行了评测，并将其结果与三个 SOTA VLM（Gemini 2.5 Pro、GPT-5 high、Claude Sonnet 4.5）进行了对比，结果出人意料。

核心发现：Thinking with Video 让模型匹敌甚至越顶 VLM

研究发现，生成模型在视觉任务上有出表现，总体可媲美 SOTA VLM（表 1）。

△表 1：视觉任务上的表现，Sora-2 竟能匹敌三个顶 VLM

Thinking with Video 能解决几何直觉理、视觉归纳理，甚至 ARC-AGI-2 等多样的视觉任务。

Eyeballing Puzzles：画图模拟，几何理越顶 VLM

△图 2：Eyeballing Puzzles 任务的输入输出示例

Eyeballing Puzzles（目测谜题）分为 Point / Line / Shape 三种类型（图 2）。

实验表明新疆海绵专用胶厂家，Sora-2 可在中模拟光线的延伸和反射，并操纵几何元素（例如点和线）来辅助理（图 3）。

△图 3：Sora-2 生成解决 Eyeballing Puzzles，后模型会将其答案选项标红，并在语音中说出答案

△图 4：各模型在 Eyeballing Puzzles 上的表现

在多帧投票评估下（利用整个过程，避后帧噪声），Sora-2 的总体表现竟击败了三个 SOTA VLM（图 4），充分展现了 Thinking with Video 能进行画图模拟的特优势。

Visual Puzzles：生成能完成归纳理

△图 5：Visual Puzzles 任务的输入输出示例

Visual Puzzles 考察模型根据颜、形状、尺寸进行归纳理（图 5）。

问题不给选项，直接生成来补全缺失的颜或形状（图 6）。

△图 6：Sora-2 生成解决多样的 Visual Puzzles

△图 7：各模型在 Visual Puzzles 上的表现

在这些视觉谜题上，Sora-2 也表现优秀，并在对称任务（Symmetry）中击败了 Claude Sonnet 4.5（图 7）。

可见生成模型不仅能画线模拟，还能从视觉结构中归纳和应用规律。

ARC-AGI-2：生成模型是 Few-shot Learner

ARC-AGI-2 面向抽象的规则归纳能力，模型需要观察若干输入 - 输出示例，断视觉变换规则，再将规则应用到新的网格中。

实验发现，在这有挑战的任务上，Sora-2 也能根据示例做出正确预测（图 8），展现了从示例中学习变换规则的能力。

△图 8：以生成解决 ARC-AGI-2 的题目

△表 2：统视觉输入下各模型在 ARC-AGI-2 上的表现

在相同的视觉输入形式下，顶 VLM 在 ARC-AGI-2 上表现欠佳，而 Sora-2 已可与之匹敌。

由此可见，生成模型也能成为 Few-shot Learner。

进步实验显示，泡沫板橡塑板专用胶增加示例还能提升生成模型的表现。

△表 3：提供多个和个示例下的 Sora-2 的表现

相比只提供个示例（1-Shot），提供多示例（Few-Shot）后，多测试样本达到较的像素准确率，也就是接近正确答案（表 3）。

这发现表明，生成模型的 In-Context Learning 值得进步探索。

核心发现二：生成模型竟能进行文本理

生成模型也能解决文本理问题吗？

这让人想到不久前曝光的 Gemini Omni，网友用它生成了个在黑板上公式的，果堪称惊艳。

△图 9：Gemini Omni 生成的公式，来自� �@Chetasluah

然而，研究团队在此之前就提出了让生成模型解决文本理任务，并进行了系统的评测。

△图 10：文本任务的输入和输出以及评测式

VideoThinkBench 中的文本任务的输入由文本提示词和参考图像组成（图 10）。

问题写在提示词中，也展示在参考图像里。

模型需要生成段，在中写出解题过程（图 11），并在语音中也说出终答案。

评测时，大模型基于标准答案，分别判断后帧和语音中的答案是否正确。

△图 11：在生成中解决 GSM8K 的题目

结果出人意料：

如表 4，Sora-2 在多个文本测试集上取得亮眼表现，比如在 MATH 上准确率达 92，在 MMMU 上达到 69.2，尽管在难的文本任务上离顶 VLM 有较大差距。

这结果表明，生成模型很有潜力通过在帧中嵌入文本来进行文本理。

△表 4：文本任务评测结果

研究团队还进步分析了文本任务表现是否是来源于测试集泄露。

△表 5：在原始和改编的文本题目上的表现

改编测试数据（GSM8K 与 MATH），修改问题中的数值和表述进行重新测试后，团队发现 Sora-2 的表现并未出现下降（表 5）。

说明其能力并非来自测试集记忆，而是文本任务上具有真实潜力。

当然，人工案例分析发现中的书写过程未清晰可靠。

如图 12，仅有 13.91 的解答中文本过程正确，将近半的过程都是法阅读或错误的。

由此可见，模型会给出正确答案，但难以生成清晰、稳定和正确的理步骤。

△图 12：对 Sora-2 文本作答过程的分析

研究还分析了生成模型的文本能力，是否可能来源于个前置的提示词改写模型。

△表 6：Wan 2.5 在有 / 提示词改写下的表现

Wan 2.5 的 API 可控制是否允许改写提示词。

在关闭提示词改写后，Wan 2.5 在文本任务上的表现几乎降为（表 6）。

由此可见，若有提示词改写模块，则其可能在终生成前就将文本题目解出。

生成理的 Test Time Scaling 可能成为新的研究前沿

在 LLM 理中，经典的 Test Time Scaling 法如 Self-Consistency 通过多次采样和多数投票提升准确率。

研究团队发现，Thinking with Video 竟也有类似的结论。

△图 13：通过生成解决 Arc Connect 问题

在 Eyeballing Puzzle 的任务（Arc Connect，图 13）中，只看单次生成的后帧，准确率为 56；改用多帧多数投票后提升到 68。

进步，若让 Sora-2 生成 5 次并对结果投票，多帧多数投票准确率可直接提升至 90（表 7）。

△表 7：采样多个进行投票的结果

由此可见，Self-consistency 能够提升生成模型在视觉任务上的表现。

因此生成模型的 Test Time Scaling 也将成为新的研究前沿。

小结下

研究次提出了 Thinking with Video 这多模态理新范式：

基于生成模型，以帧为统媒介进行多模态理。

在作者设计的 VideoThinkBench 上，生成模型展现出卓越理能力。

利用绘画与想象的优势，Sora-2 在视觉任务上可媲美顶 VLM，此外还展现出书写文本来解决文本理问题的潜力。

研究发现生成模型还是 Few-shot Learner；Self-consistency 可进步提升生成理能。

整体来看，团队认为 Thinking with Video 为多模态理开辟了限可能。

论文链接：

https://arxiv.org/abs/2511.04570

项目网站：

https://thinking-with-video.github.io

代码仓库：

https://github.com/tongjingqi/Thinking-with-Video

数据集：

https://huggingface.co/datasets/OpenMOSS-Team/VideoThinkBench

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生� �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

奥力斯 PVC管道管件粘结胶价格联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区/p>

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》新疆海绵专用胶厂家，以此来变相勒索商家索要赔偿的违法恶意行为。

新疆海绵专用胶厂家 生成作为多模态理新范式

新疆海绵专用胶厂家生成作为多模态理新范式