世界模型从预测走向规划，HWM与长时程控制难题

导语

世界模型近一年的研究焦点最初集中在表征学习和未来预测。模型先理解世界，再在内部推演未来状态。这条路线已经产出一批有代表性的成果。V-JEPA 2（Video Joint Embedding Predictive Architecture 2——Meta 在 2025 年发布的一套视频世界模型）用超过 100 万小时互联网视频做预训练，再结合少量机器人交互数据，展示了世界模型在理解、预测和零样本机器人规划上的潜力。

但模型会预测，不等于模型会处理长任务。面对多阶段控制，系统通常会遇到两个压力。一个是预测误差会在长rollout（连续多步推演）中持续积累，导致整条路径越来越容易偏离目标。另一个是动作搜索空间会随horizon（规划视距）增长而迅速扩大，导致规划成本持续上升。HWM 没有改写世界模型的底层学习路线，而是在已有带动作条件的世界模型之上加入分层规划结构，让系统先组织阶段路径，再处理局部动作。

从技术上看，V-JEPA 2（https://ai.meta.com/research/vjepa/）更偏向世界表征与基础预测，HWM 更偏向长时程规划，WAV （World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry，https://arxiv.org/abs/2604.01985）更偏向模型对自身预测失真的识别与修正。三条线正在逐步收敛。世界模型研究的重点，已经从单纯预测未来，转向如何把预测能力转成可执行、可修正、可验证的系统能力。

一、长时程控制为何仍是世界模型的瓶颈

长时程控制的难点，放到机器人任务里会更容易看清。以机械臂操作为例，抓起一个杯子再把它放进抽屉，这不是单一动作，而是一串连续步骤。系统要靠近物体，调整姿态，完成抓取，移动到目标位置，再处理抽屉和放置。链条一长，两个问题就会同时出现。一是预测误差会沿着rollout持续积累，另一个是动作搜索空间会迅速扩大。

系统缺少的，通常不是局部预测能力，而是把远目标组织成阶段路径的能力。许多动作从局部看像是在偏离目标，实际却是完成目标所需的中间步骤。比如抓取前先抬高手臂，开抽屉前先后退一点再调整角度。

在展示型任务中，世界模型已经能够给出连贯预测。但进入真实控制场景后，性能开始下滑，问题也随之浮现。压力不只来自表征本身，也来自规划层还不够成熟。

二、HWM 如何重构规划过程

HWM把原本一层完成的规划过程拆成两层。上层负责较长时间尺度上的阶段方向，下层负责较短时间尺度上的局部执行。模型不是只按一个节奏规划，而是按两个不同的时间节奏同时规划。

单层方法处理长任务时，通常需要在底层动作空间里直接搜索整条动作链。任务越长，搜索成本越高，预测误差也越容易沿着多步 rollout 持续扩散。HWM拆开过程后，高层只处理较长时间尺度上的路线选择，低层只处理当前这一段动作的完成，整条长任务被拆成多段较短任务，规划复杂度随之下降

这里还有个关键设计，高层动作并不是简单记录两个状态之间的差值，而是用一个编码器，把一段低层动作压缩成更高层的动作表示。对长任务来说，关键不只在起点和终点之间差了多少，更在于中间步骤是如何组织的。高层如果只看位移差，容易丢掉这段动作链里的路径信息。

HWM体现的是一种分层任务组织方式。面对一项多阶段工作，系统不再一次性展开所有动作，而是先形成较粗的阶段路径，再逐段执行与修正。这种层级关系进入世界模型之后，预测能力会开始更稳定地转化成规划能力。

三、从0%到70%，实验结果说明了什么

在论文设置的真实世界抓取并放置任务中，系统只拿到最终目标条件，不提供人工拆好的中间目标。在这种条件下，HWM的成功率达到 70%，而单层 world model 成功率为 0%。原本几乎无法完成的长任务，在引入分层规划后，变成了大概率可实现的结果。

论文还测试了推物体操作和迷宫导航等仿真任务。结果显示，分层规划不只提高了成功率，也降低了规划阶段的计算成本。在一些环境中规划阶段的计算成本最多可以减少到原来的四分之一左右，同时保持更高或相当的成功率。

四、从 V-JEPA 到 HWM 再到 WAV

V-JEPA 2代表的是世界表征这条路线。V-JEPA 2 用超过 100 万小时互联网视频进行预训练，再结合不到 62 小时的机器人视频做 post-training（预训练后的针对性训练），得到可用于理解、预测和规划物理世界的 latent action-conditioned world model（在抽象表示空间中、结合动作信息进行预测的世界模型）。它所展示的是模型可以通过大规模观察获得世界表征，并把这种表征迁移到机器人规划中。

HWM 处在下一步。模型已经拥有世界表征和基础预测能力，但一进入多阶段控制，误差累积和搜索空间扩张的问题就会爆发。HWM没有改变底层表示学习路线，而是在已有带动作条件的世界模型之上加入多时间尺度的规划结构。它所处理的问题是模型怎样把远目标组织成一组中间步骤，再逐段推进。

WAV则进一步把焦点放在验证能力上。世界模型想进入策略优化和部署场景，不能只会预测，还要能发现自己在哪些区域容易失真，并据此进行校正。它关注的是模型怎样检查自己。

V-JEPA偏向世界表征，HWM偏向任务规划，WAV偏向结果验证。三者虽关注点不同，但大方向是一致的。世界模型的下一阶段，已经不只是内部预测，而是预测、规划、验证逐渐连成一套系统能力。

五、从内部预测走向可执行系统

过去不少世界模型工作，更接近于提升未来状态预测的连续性，或者提升内部世界表征的稳定性。但当前研究重点已经开始变化，系统既要形成对环境的判断，也要把判断转成动作，并在结果出来后继续修正下一步。想要更接近真实部署，就需要在长时程任务里控制误差传播、压缩搜索范围、降低推理成本。

这类变化也会影响 AI agent。很多agent系统已经能完成短链路任务，比如调用工具、读取文件、执行若干步骤指令。但任务一旦变成长链路、多阶段、需要中途重规划，性能就会下滑。这与机器人控制中的难点并没有本质差别，都是高层路径组织能力不足，导致局部执行和整体目标之间脱节。

HWM提供的分层思路，高层负责路径与阶段目标，低层负责局部动作与反馈处理，再叠加结果验证，这类分层结构未来会在更多系统中持续出现。世界模型的下一阶段，重点也不再只是预测未来，而是把预测、执行和修正组织成一条可以运行的路径。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。