西宁泡沫板橡塑板专用胶华为SpaceMind登顶空间智能榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物西宁泡沫板橡塑板专用胶，但个底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

距离有多远、谁大、从 A 走到 B 该往哪转、多视角下的顺序对不对——这些对人类近乎本能的判断，恰恰是通向具身智能、自动驾驶、机器人航与 AR/VR 的关键能力。

业界正逐渐达成共识：下阶段的竞争，不只在语言与语义，在空间智能。

为把这件事真正做出来，华为 GTS AI 法部联香港中文大学（圳）、香港大学，刚刚发布新工作SpaceMind：

在仅使用 RGB 输入、不依赖度图与点云的前提下，把纯视觉语言模型的空间理能力，到了接近人类的水平。

在李飞飞团队建立的空间智能榜单VSI-Bench上，SpaceMind 以70.6的综得分刷新纪录——而人类平均也才 79 左右。

该工作已被CVPR 2026接收。

为什么「相机」不能只当备注

论文明确指出：现有 VLM 在处理空间任务时，往往把相机参数（内参、外参）视为普通元数据，与几何特征简单拼接，致「视角」与「场景」混淆，难以建立致的空间表征——模型「看见了」，却未知道「从哪里看见」。

人类理解空间，从来不只是「看到了什么」，而是「从哪个位置看到的」。这种观察与视角的耦，支撑人们估计距离、比较尺寸、断连通关系、在陌生环境中规划路径。李飞飞教授所倡的「空间智能驱动的 AGI」，正建立在这认知之上。

SpaceMind 的核心洞察，正是把这机制写进模型结构：让相机成为融的「指挥棒」，而不是被动附录。

而要衡量模型是否具备这种能力，离不开、、贴近人类认知的评测体系。李飞飞建立的VSI-Bench迅速成为公认的空间智能试金石：人类平均准确率约79，而此前的公开与闭源系统中，强模型整体准确率长期徘徊在60左右，与「真正看懂三维世界」仍有明显距离。

SpaceMind：相机引的三模态融范式

1、次把相机表示定义为「引模态」（guiding modality）。不再把相机当作与场景同的普通特征，而是作为主动调控信号，指空间信息如何注入视觉语义流，贴近人类以自我为中心的空间认知。

2、即插即用、不改动 VLM 主干。案需修改视觉编码器、语言模型或连接器的核心结构，仅在进入 LLM 前插入轻量的 Camera-Guided Modality Fusion（CGMF）模块，可缝集成到 InternVL、Qwen-VL 等主流架构，显著降低从预训练与迁移成本。

3、纯 RGB 实现度量空间理。单张或短即可支撑对 / 相对距离、物体尺寸、房间尺度、路径规划、跨视角外观顺序等难任务，摆脱对度传感器、点云或多视角重建管线的依赖西宁泡沫板橡塑板专用胶，贴近真实部署场景。

架构上，SpaceMind 采用双编码器架构：InternViT 提供语义视觉 token，VGGT 提供几何感知的空间 token 与逐帧相机 token；CGMF 在融阶段对空间 token 施加相机条件偏置、学习 query-independent 的几何重要权重，并以相机嵌入对融结果进行门控，使「视角—几何—语义」在统框架内对齐，同时保持与标准 VLM 接口兼容，支持端到端 RGB-only 训练。

实验结果：刷新，优势不只在个分数

在 VSI-Bench 上，泡沫板橡塑板专用胶SpaceMind 以70.6的整体准确率显著越 Spatial-MLLM、VLM-3R 等几何增强基线，并在多项子任务上拉开差距。

例如在外观顺序（appearance order）这具挑战的跨视角致任务上，相较此前法提升达30.5 个百分点——说明显式以相机信号调制空间 token，有助于整跨视角证据、稳定多视角下的排序判断；路径规划（route planning）同样保持具竞争力的水平。

在 SQA3D 这基于真实室内重建的「情境化 3D 问答」基准上，SpaceMind 在多数问题类型上取得佳表现，且仅使用 RGB 输入、不依赖度 / 点云 / 网格等辅助模态，证明相机引融可从普通中恢复出强 3D 空间线索。

在 SPBench 的域外泛化评测中（训练数据未包含该基准），SpaceMind 整体得分达67.3，大幅先 GPT-4o、Gemini-2.0-Flash 等通用闭源模型，以及 Qwen2.5-VL、Spatial-MLLM 等开源与用空间模型；即便在仅单帧输入的子集上，仍能在「仅按 32 帧片段训练」的设置下展现强跨场景迁移——这对实际产品中的「单图问答」尤为重要。

消融实验进步印证设计逻辑：在 InternVL3-8B 基线上，浅层 cross-attention 融 VGGT 空间 token 即可带来+3.7 分；叠加 token-weight MLP 与 geometric MLP 后，数值类与多选题子任务持续、稳定提升，完整 SpaceMind 架构达到平均准确率。

这不是「堆模块」，而是把 3D 视觉中长期强调的「相机与场景角分离」，落实为可训练、可扩展的归纳偏置。

SpaceMind++：从单帧空间到「认知地图」

面向动态真实世界，团队进步受哺动物双通路视觉系统启发，提出SpaceMind++：种能从 RGB 显式构建体素化认知地图的 MLLM 架构。

它通过坐标引的度融机制，将碎片化视角重组为统的 3D 度量表征，在动态场景中追求空间致与物体恒常理——让模型不只「答对帧」，而是「记住这个房间、这件东西、这条路径」。

代码即将开源。

昇腾 384 卡节点 Scaling Up：把空间智能向大规模

如果说论文与基准评测证明了 SpaceMind 向正确、有，那么工程侧的 Scaling Up，正在把这向向产业可用的量。

目前，团队将 SpaceMind 系列空间智能模型放在华为昇腾 NPU 集群上开展大规模预训练与后训练——依托384 卡昇腾 910C力池，在模型规模、长上下文与多任务数据上同步扩展，把相机引融能力从榜单验证向可迭代、可部署的工程底座，持续放大 SpaceMind 的空间理上限。

走向产业：赋能 AIDC 勘测设计

空间智能的价值，终要落在真实场景里。SpaceMind 系列技术将面向 AIDC（智中心）全生命周期中的勘测设计等关键阶段落地：

依托纯 RGB 输入下的距离估计、尺度比较与空间关系理能力，模型可辅助解读园区航拍、现场巡检与机房实景图像，理解建筑布局、设备摆放与通道关系，为选址比选、平面规划、机柜列阵与走线设计提供可解释的空间判断依据。

在 SpaceMind++ 的认知地图能力加持下，还可将多视角、多时段的现场记录整为致的三维空间理解，减少反复踏勘与人工量测成本，提升勘测设计阶段的率与决策质量。

SpaceMind 论文：https://arxiv.org/pdf/2511.23075

SpaceMind 代码：https://github.com/RealMikeDuke/SpaceMind

SpaceMind++ 论文：https://arxiv.org/abs/2605.09449

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见相关词条:储罐保温异型材设备钢绞线厂家玻璃丝棉厂家万能胶厂家

奥力斯 PVC管道管件粘结胶价格联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区/p>

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定西宁泡沫板橡塑板专用胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

西宁泡沫板橡塑板专用胶华为SpaceMind登顶空间智能榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

电话咨询

联系奥力斯

任丘市奥力斯涂料厂

西宁泡沫板橡塑板专用胶 华为SpaceMind登顶空间智能榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

电话咨询

联系奥力斯

任丘市奥力斯涂料厂

西宁泡沫板橡塑板专用胶华为SpaceMind登顶空间智能榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录