朔州橡塑胶厂家 解决生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

生成有个老毛病朔州橡塑胶厂家,镜头动就"穿帮",终于有了靠谱的解法。
浙大联微软亚洲研究院新提出的World-R1,不改架构、不要 3D 数据,纯靠强化学习就让生成模型学会了"理解"三维世界。
所以,AI 为啥总穿帮?
现在的生成模型,画面精美是精美了,但有个致命伤:不懂三维。
你让镜头转个弯,建筑就扭了;进去看个近景,物体就消失了。
本质上,这些模型只是在二维像素层面做统计拟,根本不理解眼前的世界是个三维空间。
以前的解法呢?往模型里硬塞 3D 模块,但代价是理成本飙升、泛化能力变差,而且只能做图生,文生根本搞不定。
World-R1 的思路:不改架构,靠 RL "唤醒"
World-R1 的出发点很简单:
预训练的模型里面已经有 3D 知识了,只是"沉睡"着。用强化学习把它叫醒就行。
具体怎么操作?三板斧。
斧:把相机轨迹"藏进"噪声
别人控制相机运动,需要额外训练个控制网络。
World-R1 说:不需要。
它从文字里提取运动关键词(比如" push in "" orbit left "),生成相机轨迹,然后通过光流投影,直接把运动信息编码进扩散模型的初始噪声里。
行代码不改,个参数不加,相机就能跟着文字走。
二斧:让 3D 模型当"裁判"朔州橡塑胶厂家
RL 的核心是励函数。
World-R1 设计了套四维复励:元视角评分,用 Depth Anything 3 把"抬"成 3D 斯溅射,再从个不同的角度去看。
正面看没问题?换个角度可能就"露馅"了。
用 Qwen3-VL 当评审员,门抓"纸片人"。
重建保真度,3D 重建完再渲染回去,跟原逐像素比对。
轨迹对齐度,看生成的相机运动有没有老实听话。
通用画质,HPSv3 分,确保画面不变丑。
整套励通过 **Flow-GRPO 框架优化。
三斧:让模型"又硬又软"
纯追求 3D 致会出问题:行人不会走路了,旗帜不会飘了,万能胶厂家整个世界像冻住了样。
World-R1 的解法是周期解耦训练:正常阶段,用完整励猛练几何致;
每 100 步,切换到"动态场",只用通用励在动态数据上训练。
果直接建筑稳如泰山,旗帜照样飘。
3000 条纯文本,没有帧
奥力斯 泡沫板橡塑板专用胶报价 联系人:王经理 手机:18232851235(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
你可能会问:训练数据从哪来?
答案是:不要朔州橡塑胶厂家,不要 3D 资产,纯文本就够了。
研究团队用 Gemini 生成了约 3000 条质量场景描述,涵盖峡谷、城市、海、蘑菇森林等各类场景,按相机运动难度分了三。
模型就这样在"纯想象"中,学会了真实世界的物理规律。
实验数据
基于 Wan 2.1 训练了两个版本:World-R1-Small(1.3B)和 World-R1-Large(14B)。
3D 致
Small 版比基线 PSNR 涨了 10.23 dB,Large 版涨了 7.91 dB。LPIPS 从 0.467 降到 0.201,几何幻觉被干掉了大半。
画质不降反升
在 VBench 上,World-R1-Small 美学质量 65.74、成像质量 67.53,越基线 Wan 2.1-1.3B。
而那些装了额外相机控制模块的法(ReCamMaster、DAS),美学质量只有 38~42 分。
3D 增强了,画质也好了,鱼和熊掌兼得!
眼见为实
3D 重建的点云也能看出差距:基线模型的重建像堆散沙,World-R1 的像座真实的建筑。
消融:每刀都切在要害上
消融实验的结论很清晰:去掉 3D 感知励,几何致直接崩盘;
去掉通用生成励,画面美学肉眼可见地劣化;
去掉噪声包裹的隐式相机控制,收敛速度慢了倍;
去掉周期解耦训练,动态场景的生成能力几乎全废。
四个组件环环相扣,缺不可。
World-R1 让模型"理解"三维世界,不倒重来——
只需用正确的励信号,唤醒它已有的空间感知。
论文链接:https://arxiv.org/abs/
项目主页:https://aka.ms/world-r1
代码:https://github.com/microsoft/World-R1
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情
� � 点亮星标 � �
科技前沿进展每日见
相关词条:铁皮保温 塑料挤出机 钢绞线 玻璃卷毡厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定朔州橡塑胶厂家,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。