

本文第一作家为西湖大学科研助理蔺聪明,通信作家为阿里巴巴达摩院算法巨匠黄想腾和西湖大学东谈主工智能系副主任王东林。通盘作家均来自西湖大学机器智能实验室(MiLAB)和西湖机器东谈主科技有限公司,团队职责 ReconVLA 近期得回 AAAI 2026 最好论文奖。
具身智能要想信得过在复杂场景中落地,离不开对长程任务(Long-horizon tasks)的褂讪奉行。关连词,现存的 VLA(视觉-言语-动作)模子大多停留在「动作师法」阶段,短少对物理寰宇动态变换的长远融会,在长线操作中极易堕入因果浑浊;同期,传统通过径直堆叠多帧图像来引入时分维度的要津,不仅容易引入多数静态配景冗余,更会带来横祸性的推理延长与显存溢出。

为贬责上述挑战,来自西湖大学、浙江大学、西湖机器东谈主等机构的盘问团队提议了一种以通顺(Motion)为中心的全新双向时空推理框架 HiF-VLA。打消冗余的像素级输入,HiF-VLA 玄妙索要低维紧凑的 Motion 向量当作动态先验,在一个革命的「聚拢巨匠」模块中,同步完成改日视觉通顺的瞻望与高精度动作序列的生成。
比拟传统的时空建圭臬式,HiF-VLA 透顶扬弃了无须的视觉配景足下,不仅在极长的历史不雅测窗口下依然保合手了恒定、极低的推理延长,更赋予了机器东谈主信得过「边想边作念」的物理直观。在 CALVIN 与 LIBERO-LONG 等长程任务评测中,其告成率显赫非常现存 SOTA 要津,为构建信得过融会寰宇运转法子的 WAM(寰宇动作模子)斥地了全新旅途。
咫尺,该职责已被 CVPR 2026 禁受,代码已开源。
论文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
01 盘问动机:
从「动作师法」到「融会物理寰宇」

刻下主流的 VLA(视觉-言语-动作)模子,执行上大多是高档的「动作师法」。它们禁受刻下的图像不雅测,径直映射出对应的动作。
这种范式在短视距任务中尚可玩忽,但在奉行长程任务时却屡屡翻车。为什么?因为模子短少对物理寰宇「动态变化」的融会。它们不知谈我方刚才作念了什么,也无法预判刻下动作会对环境产生怎样的影响,从而极易堕入因果浑浊。
要冲破这种「短视」魔咒,模子必须从单纯的「动作师法」走向「物理融会」。这就条款咱们引入 World Action Model (WAM) 的见解——智能体不仅要会「作念」,还要能在脑海中「想」(推演环境的变化)。
怎样赋予机器东谈主「边想边作念」的时空推理才气?最直不雅的主见是把当年帧和改日帧的图像一都塞进大模子里。但现实是骨感的:图像级别的时空建模不仅会导致算力爆炸,还会引入多数的静态配景冗余,使得要害的物理变化被脱色。HiF-VLA 团队找到了一个高效的切入点:通顺(Motion)。
02 核心决议:
HiF-VLA 的「三位一体」时空推理
比拟于冗余的像素,Motion 是捕捉物理寰宇动态演变最地谈、最高效、最执行的表征。以 Motion 为中心,HiF-VLA 构建了一个名为 Hindsight-Insight-Foresight (HiF) 的双向时空推理框架。
赛马投注中国app官方版下载1. Hindsight(后见之明):冲破马尔可夫假定的「记挂锚点」
智能体必须领有连贯的自我矍铄。HiF-VLA 将机器东谈主当年的历史帧通过视频编解码器(H.264、MPEG-4 等)索要为低维且紧凑的 Motion 动态先验。这就像给机器东谈主植入了一个记挂核心,它不需要回看当年的摄像,就能精确感知到「环境刚刚阅历了怎样的通顺变化」。这个历史高下文,是后续一切推理的基石。
2. Insight(瞻念察咫尺)和 Foresight(预知之明):走向 WAM 的「全知视角」
信得过的智能,既需要扎根当下,更需要预判改日。在 HiF-VLA 框架中,这两个才气被圆善解耦又精采交汇,共同组成了迈向 WAM(寰宇动作模子)的核心:
Insight(瞻念察咫尺):雅致深度领悟刻下的言语提醒和及时视觉不雅测,让机器东谈主感知「我此时此刻面对的是什么环境,需要完成什么具体地点」。
Foresight(预见改日):基于当下的 Insight,HiF-VLA 在输搬动作的同期,会初神气瞻望改日的通顺趋势。这尽头于在模子里面镶嵌了一个杜撰物理模拟器,博亚boya(中国)让机器东谈主大要提前推演本身的行径后果。
3. 深度对都:视觉与动作的协同瞻望
这是 HiF-VLA 最为核心、也最出彩的革命——历史调制的聚拢巨匠(Hindsight-modulated joint expert)。要是说 Hindsight 和 Foresight 拉长了时分轴,那么聚拢巨匠模块则变调了模子的生成地点。HiF-VLA 合计,视觉与动作的割裂是防碍模子融会物理法子的绊脚石,因此联想的聚拢巨匠模块毫不是苟简地将视觉特征和言语提醒拼接,而是奉行了一个双地点协同的计策:
视觉 Motion 瞻望 + 动作序列生成:聚拢巨匠在历史信息(Hindsight)的动态调制下,被强制条款同期输出对改日视觉 Motion 的瞻望以及高精度的奉行径作序列。
为什么这很垂死?这种双地点的聚拢对都,逼迫模子不成只死记硬背动作,而是必须去融会「我输出这个动作后,物理寰宇的视觉表征会发生怎样的动态变换」。
通过将「瞻望改日视觉变化(想)」与「贪图动作序列(作念)」深度绑定,HiF-VLA 达成了信得过的 Think-while-acting(边想边作念)。它不再是盲目地师法巨匠轨迹,而是产生了真实的「物理直观」。
03 实验为止
❓ Q1:HiF-VLA 与 SOTA 的 VLA 模子比拟较怎样?
HiF-VLA 在各样化的短程和长程任务中展现出了庞大的才气。


团队尤其关爱 HiF-VLA 在长程任务上的进展。在 LIBERO-LONG 任务套件以及 CALVIN ABC-D 长程任务评测中,HiF-VLA 的进展显赫优于诸多 SOTA 要津。同期,在真实寰宇的长程任务测试中,HiF-VLA 也展现出愈加褂讪且优胜的任务完成性能(更多详备缠绵请参阅原论文)。
❓ Q2:HiF-VLA 是否有用地缓解了传统要津中的视觉冗余和低效问题?

❌ 传统作念法的窘境:当苟简悍戾地将历史多帧图像塞给模子时,显存已而爆炸。峰值 GPU 显存径直翻倍飙升至 63.6 GB(涨幅 2.06 倍),推理延长更是暴增到 229.5 ms(高达 3.15 倍)。更令东谈主窒息的是,由于引入了海量冗余的静态配景噪声,模子反而被足下了视野,平均告成率(Avg. SR)不升反降。
HiF-VLA 的贬责决议:HiF-VLA 玄妙地将历史帧编码为低维、结构化的通顺向量。引入 Hindsight 模块后,模子面对相似长度的历史窗口,峰值显存只是保管在 31.4 GB,相较于 Baseline 险些作念到了「零职守」(仅增多极渺小的 1.02 倍支拨)。同期,推理延长(117.7 ms)也远低于传统堆叠要津。最垂死的是,在剔除了视觉冗余后,它让模子能专注融会物理通顺,告成将平均告成率大幅提高。
❓ Q3:跟着时分跨度的增多,HiF-VLA 在推理时的可推广性怎样?

拒却指数级本钱增长,冲破长序列计较瓶颈。
从推理为止对比图不错直不雅看出,跟着历史时分跨度的增多,传统堆叠图像帧的要津会遇到指数级的计较延长暴涨甚而显存溢出(OOM)。而 HiF-VLA 凭借索要低维紧凑的 Motion 特征,透顶冲破了长序列推理的计较瓶颈,跟着历史不雅测窗口变长,都恒久保合手褂讪且极低的推理延长,展现出了在处理长程动态变换时庞大的时分可推广性。
❓ Q4:HiF-VLA 所谓的「边想边作念」究竟是怎样的历程?

耳听为虚:motion 瞻望与 action 奉行的时空高度吻合。
从可视化为止中不错看到,HiF-VLA 在奉行径作的团结技能,其里面聚拢巨匠模块也曾精确瞻望出了由红色箭头秀丽的改日视觉体育场。这有劲地解说了模子并非在盲目背诵提醒,而是信得过达成了「边想边作念」。它能显着地预判本身动作将激勉环境中怎样的物理动态变换,从而在复杂任务中展现出精确的「物理直观」。
04 归来
从机械的「动作师法」进化为融会物理法子的「寰宇动作模子(WAM)」博亚体育,HiF-VLA 迈出了至关垂死的一步。它解说了机器东谈主的动作不应只是对提醒的盲目反应,而应当是在对当年的瞻念察与对改日的预判交汇下,自关连词然的物理反馈。关于具身智能走向更复杂、更真实的物理寰宇,HiF-VLA 无疑提供了一个极具后劲和启发性的全新范式。