英伟达Alpamayo再进化！反事实推理VLA，安全性能提升很可观

本文提出反事实视觉-语言-动作模型（CF-VLA），这是一种具备自反思能力的VLA框架，能够让模型在执行动作前对规划动作进行推理和修正。元动作序列示例见图5。本节将介绍反事实视觉-语言-动作模型（CF-VLA），该模型为VLA配备了自反思循环，能够对自身预测的动作进行推理，并利用该推理结果修正规划。3）推理质量：元动作IOU（Meta-Action IOU）衡量预测元动作与真实元动作在64×3个区

自动驾驶之心

109人浏览 · 2026-01-07 09:07:12

自动驾驶之心 · 2026-01-07 09:07:12 发布

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Zhenghao等

编辑 | 自动驾驶之心

近几个月，反事实推理的工作多了起来。现有的思维链在推理中无法纠错，模型会沿着错误的逻辑推理出一个看似合理的结果。

在大模型领域，也有一些工作在尝试解决这个问题。业内像理想的ReflectDrive通过离散扩散的反思机制实现安全轨迹生成。今天自动驾驶之心为大家分享的英伟达&UCLA&斯坦福的工作Counterfactual VLA - 具有自适应推理功能的自反思VLA模型，参考了很多英伟达前作Alpamayo-R1的设计。CF-VLA这篇工作的重点在数据pipeline，云端数据闭环很有参考价值，教师模型用的Qwen2.5-VL-72B-Instruct。训练的数据量总结如下：

：纯轨迹训练集，约1160万个20秒视频片段，提供大规模行为多样性；
：元动作训练集，训练集包含43.3万个20秒片段和80.1万个8.4秒样本，验证集包含3.9万个视频片段和7.3万个样本；
：反事实推理数据集，通常包含20万个样本。

两个关键词：自适应推理、自反思。自适应推理是在解决不同场景的推理开销问题，复杂场景长推理，简单场景短推理或者不推理。自反思能够让模型在执行动作前对规划动作进行推理和修正。这两点都是当前自驾VLA模型研究的热点，也是自动驾驶未来进化的趋势。

近年来，增强推理能力的视觉-语言-动作（VLA）模型通过生成中间推理轨迹，提升了端到端自动驾驶系统的可解释性。然而，这些模型主要描述自身的感知内容和预期动作，极少质疑其规划动作的安全性或合理性。本文提出反事实视觉-语言-动作模型（CF-VLA），这是一种具备自反思能力的VLA框架，能够让模型在执行动作前对规划动作进行推理和修正。CF-VLA首先生成时间分段的元动作（meta-actions）以概括驾驶意图，随后基于元动作和视觉环境进行反事实推理。该步骤通过模拟潜在结果识别不安全行为，并输出修正后的元动作以指导最终轨迹生成。为高效获取这种自反思能力，我们设计了“rollout-筛选-标注”（rollout–filter–label）数据处理流水线，从基础（非反事实）VLA模型的rollout结果中挖掘高价值场景，并为后续训练轮次标注反事实推理轨迹。在大规模驾驶数据集上的实验表明，CF-VLA将轨迹准确率提升高达17.6%，安全指标提升20.5%，并展现出自适应推理能力——仅在复杂场景中启用反事实推理。通过将推理轨迹从一次性描述转化为因果自修正信号，CF-VLA为实现“三思而后行”的自反思自动驾驶智能体迈出了重要一步。

论文标题：Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning
论文链接：https://arxiv.org/abs/2512.24426

更多关于英伟达自动驾驶的技术进展，欢迎加入自动驾驶之心知识星球，元旦六折优惠即将截止......

背景回顾

视觉-语言-动作（VLA）模型的最新进展凸显了测试时推理在具身决策中的潜力。通过生成描述场景和任务的中间语言轨迹，增强推理能力的VLA模型在操作任务和自动驾驶中均提升了可解释性和鲁棒性。在这些系统中，大型的视觉-语言backbone采用一种更缓慢、更审慎的“思考”方式，投入额外计算资源来描述观测内容并证明规划动作的合理性。

然而，现有VLA模型的推理在很大程度上是描述性的，而非自反思性的。现有模型通常仅描述其观测到的内容（例如“碗旁边的卷心菜”“有行人正在过马路”）和预期执行的动作（例如“将卷心菜放入容器”“我应保持谨慎”）。因此，推理轨迹往往只是对场景和动作选择的一次性评述，缺乏验证模型自身指令是否恰当的自反思循环：一旦VLA模型生成文本意图，该意图通常被视为真实标签并用于约束底层策略，而非结合视觉线索检查其一致性并进行相应修正。

具身视觉-语言模型（embodied VLMs）的相关研究已通过重新规划和故障恢复探索了自修正能力，即智能体检测到已执行动作失败后切换至替代方案。但这些机制通常在观测到错误后或通过外部验证器触发，无法让VLA模型在执行前明确推理自身动作规划的后果。我们将这种期望的能力称为反事实推理。近期部分机器人VLA模型开始整合世界模型以主动模拟、验证和选择规划步骤，尽管这些方法朝着早期检测问题动作的方向发展，但本质上依赖外部未来预测模型来判断所提方案的质量——这与自反思存在本质区别：外部模拟可以评估方案，但无法帮助VLA模型理解自身的推理过程。这引出了一个核心问题：能否在VLA模型内部实现自反思式反事实推理，无需外部世界模型或验证器，类似纯语言推理模型中观察到的自反思行为？

这一目标面临两大挑战。首先，大多数VLA模型缺乏动作-语言对齐机制：动作通过潜在令牌（latent tokens）表示，不存在动作到语言的映射关系，导致语言模型无法对自身动作进行表述。其次，标准训练流水线极少教导模型回答反事实问题，例如“若我执行该规划，会产生什么结果？我应如何调整？”

本文提出反事实视觉-语言-动作模型（CF-VLA），该模型具备自反思推理闭环，可直接对预测控制指令进行反事实分析。如图1（下方）所示，CF-VLA首先预测一系列基于语言的时间分段元动作，以概括智能体的意图。模型并未将这些元动作视为最终结果，而是结合视觉环境和自身元动作进行反事实思维链推理，核心问题是“若我遵循该规划，会发生什么？这一结果是否理想？”在确定最终轨迹前，模型会修正不安全或非最优规划（例如从“向路口加速”调整为“提前减速让行”）。这种“元动作→反事实推理→更新后元动作→轨迹”的循环，将推理从一次性描述升级为对模型自身行为的反事实分析，并将该分析转化为可执行的自修正操作。

为在实践中实现这一行为，CF-VLA结合元动作设计了“rollout-筛选-标注”流水线：

1）对当前策略进行rollout，生成候选元动作和轨迹；
2）通过检查预填充真实元动作是否比模型生成元动作显著提升轨迹质量，自动筛选高价值数据点；
3）提示教师模型（teacher model）生成反事实推理轨迹，解释当前规划的不足及调整方式。

在统一指令提示下，结合常规数据集和反事实标注数据集进行训练，得到单一CF-VLA模型，该模型具备自适应反事实推理能力：如图1（上方）所示，在难度最高的场景中，模型的推理频率更高，任务性能提升更显著。

我们在大规模内部数据集上进行了广泛实验以验证设计有效性。CF-VLA在轨迹指标上分别比纯轨迹模型和非反思元动作基线模型提升17.6%和9%，安全指标提升14.7%。我们进一步证明，若将训练后的CF-VLA再次应用于“rollout-筛选-标注”流水线进行多轮训练，性能可进一步提升。

本文的核心贡献如下：

1）VLA的自反思反事实推理：提出一种新的“面向动作推理”范式，使VLA模型基于自身预测的元动作进行推理，预判后果并在生成最终动作前修正规划。这将推理从描述性解释升级为因果自修正。
2）元动作与反事实数据流水线：采用时间分段元动作实现动作-语言对齐，提出“rollout-筛选-标注”流水线，从模型rollout结果中自动构建反事实数据，形成同时增强推理能力和动作性能的自改进循环。
3）自动驾驶中的自适应推理：CF-VLA具备“按需思考”能力，将反事实推理集中于最复杂的场景。实验表明，CF-VLA在提升轨迹准确率、安全指标和元动作对齐度的同时，通过根据场景难度调整推理频率，维持了合理的测试时计算开销。

CF-VLA算法详解

端到端视觉-语言-动作（VLA）模型在将视觉环境直接映射到控制输出方面已取得了显著进展。然而，其推理过程在很大程度上是描述性的：当智能体提出错误规划时，模型自身缺乏在执行前分析该规划并修正决策的机制。本节将介绍反事实视觉-语言-动作模型（CF-VLA），该模型为VLA配备了自反思循环，能够对自身预测的动作进行推理，并利用该推理结果修正规划。

自反思反事实推理

要使VLA具备反事实（CF）推理能力，仍面临若干挑战。首先，模型需要一种既便于语言骨干网络理解、又与动作紧密耦合的中间表示。我们通过时间分段元动作解决这一问题，使模型能够在解码轨迹前，在语言空间中对高层意图进行推理和修正。其次，反事实推理必须将元动作与其未来后果相关联。为了准备模型微调所需的数据，我们设计了rollout-筛选-标注流水线，用于筛选数据并自动生成高价值反事实推理轨迹。我们将反事实推理视为元动作之上的插件式自反思机制。如图2所示，CF-VLA并非直接将元动作映射到轨迹（元动作→轨迹），而是执行自反思循环：元动作 → 反事实推理 → 更新后元动作 → 轨迹

自适应推理：自适应推理允许模型动态决定何时进行推理、何时直接响应。这一机制至关重要，因为大多数场景较为简单，对这些场景进行显式推理会增加幻觉风险并浪费测试时计算资源。如图3（A）所示，我们为模型提供统一指令，允许其隐式决定是否生成推理轨迹。由于元动作和推理均在语言空间中进行，反事实推理行为由第一个元动作序列后生成的词汇（“Action:”或“Thinking:”）控制。通过在包含和不包含反事实轨迹的混合样本上训练，模型能够隐式学习何时需要进行自反思推理。

元动作

元动作为推理与底层动作之间提供了一种原生语言中间抽象。每个元动作序列从三个正交维度表达自车的预期行为：

纵向（longitudinal）：加速（Accelerate）、减速（Decelerate）、保持速度（Keep Speed）、等待（Wait）、倒车（Reverse）
横向（lateral）：直行（Straight）、左转（Left Turn）、右转（Right Turn）
车道级（lane-level）：保持车道（Keep Lane）、左变道（Left Lane Change）、右变道（Right Lane Change）

尽管元动作与操作任务VLA、导航模型和自动驾驶VLA中使用的底层指令具有相似作用，但我们的元动作考虑了时序信息，并与连续轨迹紧密耦合。CF-VLA将元动作建模为覆盖6.4秒规划时域的时间分段片段。在上述三个维度中，元动作定义在非重叠的时间区间上，共同描述驾驶行为的预期演变。这种时序格式使模型能够对动作转换进行组合推理，捕捉时序意图，并直接将语言推理与预测轨迹的结构对齐。元动作序列示例见图5。

Rollout-筛选-标注反事实流水线

如图3（B）所示，为了监督反事实推理过程，CF-VLA依赖rollout-筛选-标注数据构建流水线，从模型自身行为中挖掘高价值场景。

数据rollout：从一个经元动作训练但无反事实推理能力的VLA模型开始，在训练集上对该模型进行rollout。对于每个场景，生成两组轨迹：

1）自由生成（）：模型首先预测元动作，然后基于自身元动作解码轨迹。
2）预填充元动作（）：模型以真实元动作为条件，仅解码轨迹。

为保证鲁棒性，每种设置下每个场景采样6条输出轨迹。最终得到同一视觉环境对应的轨迹对（）。

数据筛选：设表示预测轨迹集与专家未来轨迹之间的最小位移误差。如图3（C）所示，我们根据（，）对每个场景进行散点可视化，每个数据点的颜色由自由生成时的元动作准确率（IOU）决定。核心洞察是：许多场景位于对角线下方——模型在自由生成时表现较差，但当预填充元动作后能匹配专家轨迹，且这些场景的元动作IOU通常较低。这些场景正是元动作成为性能瓶颈的场景。CF-VLA利用自由生成轨迹与真实元动作诱导轨迹之间的差异筛选数据：且其中，用于排除已熟练掌握的场景。直观而言，这些场景中改进元动作会显著提升轨迹质量——只要将元动作优化得更接近真实值，就能获得任务性能提升。对角线以上的样本在自由生成时已具备较好轨迹，因此反事实监督带来的收益有限，无需纳入。4.3节将证明数据筛选对最终性能至关重要。

数据标注

对于筛选后的场景，利用高性能教师模型（Qwen2.5-VL-72B-Instruct）生成简洁的反事实轨迹。教师模型的提示语框架见图3（B），输出为单个段落，需完成两项任务：

1）诊断预测元动作相比专家规划的不足；
2）指明调整方向。

这些带标注的样本构成反事实推理数据集。

实现细节

混合数据训练：我们采用混合数据训练方案，结合纯轨迹数据集、元动作标注数据集和反事实推理数据集（见图4）。训练分阶段进行：

1）首先在上训练基础视觉-语言模型（VLM），学习基本轨迹生成（纯轨迹模型）；
2）通过在上微调引入元动作，得到初始rollout中使用的元动作模型；
3）最后在的混合数据集上进一步微调，得到完整的CF-VLA。训练过程中解冻所有参数。

损失掩码与权重分配：模型仅对助手生成令牌的交叉熵损失进行优化，系统或用户提示中的令牌被掩码。对于中的反事实样本，第一个（未修正）元动作块的损失同样被掩码，以避免模型从先前错误中学习。在助手响应中，不同令牌组（元动作、推理、轨迹令牌）采用不同的损失权重。

多轮训练：CF-VLA的一个显著优势是：训练后的模型可重新接入rollout-筛选-标注循环，生成新一轮反事实数据。与传统思维链（CoT）方法对特定场景生成基本确定性解释不同，CF-VLA的推理以预测元动作为条件，因此可对同一场景生成多样化推理轨迹。这使得我们能够进一步挖掘数据集潜力，基于不同元动作生成不同推理轨迹。如前文所示，在新一轮反事实数据集上微调可进一步提升模型性能，实现自改进反事实飞轮。

模型架构：CF-VLA的规模和设计与Alpamayo-R1相似。模型输入包括文本提示、两路前视视频和自车轨迹历史：

文本提示定义任务：纯轨迹预测，或带可选反事实推理的元动作与轨迹预测；
广角相机（120°）和长焦相机（30°）提供过去2秒内的两路视频（帧率2Hz）；
过去1.6秒的自车运动通过基于MLP的轨迹历史编码器嵌入为单个轨迹历史令牌；
未来运动由一组紧凑的离散轨迹令牌表示。

本文扩展了VLM backbone的词汇表，以容纳轨迹令牌器引入的新令牌，以及额外的<begin of traj>和<end of traj>令牌。

实验结果

实验设置

数据集：我们在大规模专有数据集上训练和评估模型，该数据集包含来自25个国家的80,000小时人类驾驶数据，涵盖高速公路、城市道路、不同天气条件及昼夜场景。整个数据 corpus 构成纯轨迹数据集，包含原始传感器数据与自车未来轨迹的配对。在中，我们自动标注了3,000小时数据，构建元动作标注子集。元动作标注通过基于运动学轮廓的规则检测器从专家轨迹中自动提取，在基于运行设计域（ODDs）构建的平衡数据集上以10Hz频率标注。将划分为训练集和验证集（验证集记为），所有结果均在该验证集上报告。反事实推理数据集源自的训练集。数据集详情如下：

：约1160万个20秒视频片段，提供大规模行为多样性；
：训练集包含43.3万个20秒片段和80.1万个8.4秒样本，验证集包含3.9万个视频片段和7.3万个样本；
：通常包含20万个样本。

评估指标：从三个维度评估模型性能：

1）轨迹准确率：报告6种预测模式下的最小平均位移误差/平均位移误差（MinADE/AvgADE）、最小终点位移误差/平均终点位移误差（MinFDE/AvgFDE）（值越小越好），以及用于衡量转向和车道保持精度的车辆角点平均偏差（Corner Distance）；
2）安全特性：碰撞率（Collision Rate）衡量5秒内与其他道路使用者轨迹发生碰撞的预测轨迹比例，偏离道路率（Out-of-road Rate）量化预测轨迹是否违反道路边界，二者补充了基于距离的指标，揭示小幅偏差是否会导致不安全结果；
3）推理质量：元动作IOU（Meta-Action IOU）衡量预测元动作与真实元动作在64×3个区间（纵向、横向、车道级）上的对齐程度，对于CF-VLA，报告自反思后的IOU（即更新后元动作的IOU）；同时记录输出长度（令牌数）和推理率（Think Rate，包含反事实推理的响应比例），以量化测试时计算开销和自适应推理能力。

基线模型：所有模型均以纯轨迹模型为初始化，确保公平比较。我们准备了两种模型变体：含路线信息（未来80米内等间距20个路点）和不含路线信息。

traj-only：仅在上训练，无任何元动作或推理信号，作为标准端到端视觉-动作模型，不含路线信息；
meta-act：在轨迹生成前引入元动作序列作为中间控制原语；
lang-meta-act：联合预测语言推理、元动作和轨迹；
CF-VLA：基于meta-act微调的模型，具备反事实推理能力，第二轮训练使用基于第一轮CF-VLA的模型并调用反事实数据流水线得到的数据。

主要实验

我们评估反事实推理对轨迹准确率、安全特性和推理质量的提升效果，定量结果见表1。

元动作与语言的影响：以纯轨迹模型为基准，引入元动作（无路线的meta-act）使最小平均位移误差（MinADE）和最小终点位移误差（MinFDE）降低约9%，表明结构化动作抽象比直接轨迹生成提供了更强的运动先验。添加语言监督（lang-meta-act）后，相比meta-act进一步提升约5%，说明语言有助于将运动意图与场景语义对齐。含路线信息的meta-act构成了更强的基线模型。

反事实推理的影响：与非推理基线模型相比，CF-VLA变体在轨迹误差和元动作对齐方面均持续提升：

无路线场景：第二轮CF-VLA的MinADE/MinFDE比meta-act降低约9%-10%，反事实修正后的元动作IOU提升约0.5-1.0个绝对百分点；
有路线场景：第一轮CF-VLA在轨迹、安全和IOU指标上均优于meta-act，证实自反思推理能产生更接近专家水平的元动作和轨迹。

行为安全性：CF-VLA的收益不仅体现在几何精度上，还体现在安全关键指标上：

相比纯轨迹模型，最优CF模型将碰撞率降低约25%-30%，偏离道路率降低约15%-20%，角点距离降低约30%；
在含/不含路线的两种设置下，CF-VLA变体均实现了最低或接近最低的碰撞率和偏离道路率，表明反事实自反思转化为更平稳、稳定且符合规则的驾驶行为。

多轮反事实训练的影响：再次使用前文的数据流水线可带来额外收益，同时提升推理效率：

无路线场景：第二轮CF-VLA在平均ADE/FDE、偏离道路率和修正后IOU上优于第一轮，且推理率更低；
有路线场景：第二轮CF-VLA（3个数据集）以小幅最小误差为代价，获得了更优的平均ADE/FDE和更高的IOU，碰撞率和偏离道路率进一步降低；
关键改进：基于3个数据集训练的第二轮模型，推理率降低近一半，平均输出长度缩短，表明第二轮反事实训练可同时优化性能和大幅降低测试时开销，从相同驾驶数据中挖掘更多价值。

自适应推理与计算开销：推理不可避免地会增加序列长度，但CF-VLA比“全程推理”模型更高效地利用测试时计算资源：

与对每个样本均进行推理的lang-meta-act相比，有路线的第一轮CF-VLA以低于0.25的推理率实现了更优性能；
第二轮反事实训练后，有路线的CF-VLA（3个数据集）进一步将推理率降低约40%-45%，同时保持或提升了平均误差和IOU；
推理率与场景难度强相关（见图1）：跟车等简单场景极少触发反事实推理，变道、转向、弱势道路使用者（VRUs）等高不确定性或高风险场景则会显著增加反事实推理频率；
CF-VLA在更难场景中实现了更大的误差降低，表明其不仅能自适应推理，还能学习到“何时推理最有益”。

核心结论：

1）CF-VLA中基于反事实推理的自反思，持续提升了驾驶规划器的精度和可靠性，在准确率、安全性和IOU方面的收益超过单步推理模型；
2）多轮反事实训练从相同数据中挖掘更多价值，在提升性能的同时大幅降低推理率，实现了准确率-安全性-计算开销的最优权衡；
3）结果构建了清晰的性能阶梯：纯轨迹模型 < 元动作轨迹模型 < 语言-元动作轨迹模型 < CF-VLA；
4）CF-VLA具备自适应推理能力：在简单场景中节省计算资源，在复杂场景中“深入思考”，此时反事实推理能带来最大误差降低。

消融实验

元动作的影响:表1已表明引入元动作相比纯轨迹模型有显著提升。此处通过对比meta-act（基线）和meta-act（预填充），聚焦元动作-轨迹对齐效果（表2）。用真实元动作预填充后，轨迹误差几乎减半，角点距离大幅降低。这表明：一旦元动作正确，模型已具备强大的元动作→轨迹对齐能力，剩余误差主要来自元动作预测不准确，而非轨迹解码。这一观察为直接对元动作进行反事实推理提供了依据。

自适应推理的影响:我们研究模型学习的自适应推理控制是否能提升推理质量和动作准确率，对比四种模型变体：

1）CF-VLA（自适应）：自主决定是否自反思；
2）CF-VLA（强制不推理）：强制在元动作后输出“Action:”，禁用推理；
3）CF-VLA（强制推理）：强制在元动作后输出“Thinking:”，必须推理；
4）显式模型：在不同用户提示下分别执行推理和动作任务。

表2结果显示：

强制推理会增加计算开销，甚至降低轨迹准确率（MinADE升高22%），修正后IOU下降；
强制不推理在复杂场景中表现不佳，MinADE高于自适应变体；
自适应变体在非预填充模型中实现了最低的MinADE，更高的修正后IOU和适中的推理率，支持“推理应选择性使用而非全局应用”的观点，与先前自适应推理相关研究一致。

数据筛选流水线的影响:对比两种仅筛选步骤不同的CF-VLA模型（表3）：

全数据集变体：为所有元动作标注样本生成推理轨迹；
筛选数据集变体：仅为满足轨迹差异准则的子集生成推理轨迹。

结果显示：筛选数据集模型实现了更优的MinADE、MinFDE和更低的角点距离，尽管输出长度更短、推理率更低（平均长度125.7 vs 191.1令牌；推理率0.22 vs 0.67）。为全数据集生成反事实轨迹会导致更多更长的“Thinking:”片段，但未提升核心规划指标，甚至略有下降。这表明反事实监督必须具有针对性：简单增加反事实标注并强制模型“全程思考”，会引入冗余或噪声推理信号，稀释有效反事实示例的影响，最终损害性能。因此，rollout-筛选-标注阶段不仅是数据效率优化，更是提取可靠自反思信号的关键组件。

多轮训练的影响:额外训练了一个仅预测元动作的模型meta-act（多轮），该模型在上训练，丢弃反事实推理轨迹。表2显示，仅基于轨迹差异重复高价值样本，已能相比单轮meta-act基线获得小幅提升。但CF-VLA在轨迹误差和IOU上的收益更显著，表明“学习编辑元动作”比“仅将元动作作为固定标签复用”更有效。

定性结果

图5可视化了CF-VLA在三个典型场景中的反事实自反思循环。CF-VLA始终能识别初始意图与场景的不匹配，并在生成轨迹前进行修正：

（A）并道场景：初始规划在前方有施工障碍和慢速货车的情况下仍保持速度和车道，会导致自车陷入拥堵；模型选择提前左变道并加速，避免拥堵；
（B）转向场景：模型识别到停车标志和交叉车流，修正了会导致路口犹豫的晚期右转规划，生成更果断高效的动作；
（C）弱势道路使用者场景：模型通过长焦镜头发现过马路的行人，将危险动作修正为减速等待。这些案例表明，CF-VLA的自反思能产生针对性、基于场景的修正，提升安全性、交通效率和语义一致性。

结论

本文提出反事实视觉-语言-动作模型（CF-VLA），这是一种在planning前反思并修正自身动作的自反思VLA框架。rollout-筛选-标注反事实流水线使CF-VLA能够挖掘自身失败案例，并通过多轮训练持续改进。在大规模驾驶数据集上的实验表明，CF-VLA在轨迹准确率、安全性和推理质量方面均取得了持续提升，相比非推理基线模型，轨迹误差降低高达17.6%，碰撞率降低20.5%。该模型具备自适应推理能力：在复杂、高风险场景中更频繁地进行推理。CF-VLA的实践表明，反事实自反思能有效桥接推理与控制，为实现“三思而后行”的自动驾驶系统提供了通用范式。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com

NVIDIA DRIVE 智能汽车专区

更多推荐

NVIDIA DRIVE 合作伙伴在 CES 上展示最新移动出行创新技术

NVIDIA DRIVE 智能汽车专区

NVIDIA DRIVE Hyperion 平台为自动驾驶汽车开发实现关键汽车安全和网络安全里程碑

NVIDIA DRIVE 智能汽车专区

丰田、Aurora 和大陆集团加入 NVIDIA 合作伙伴行列，推出下一代高度自动化的自动驾驶车型

使用或采用 NVIDIA 产品和技术的第三方、这样做所带来的优势和影响以及第三方产品的功能、性能和供货情况；我们依靠第三方来制造、组装、包装和测试我们的产品；NVIDIA、NVIDIA 徽标、NVIDIA Cosmos、NVIDIA DGX、NVIDIA DRIVE、NVIDIA DRIVE AGX、NVIDIA DRIVE AGX Orin、NVIDIA Omniverse 和 NVIDIA O