追赶FSD V14，理想在补哪些课？｜最前线

过去几年，自动驾驶行业竞争焦点经历了显著变化。

最初，竞争集中在硬件层面，如是否配备激光雷达、摄像头数量以及计算能力（TOPS）。随后进入大模型时代，竞争转向端到端、VLA（视觉-语言-行为）和World Model（世界模型）等技术路线。

如今，越来越多的公司认识到，仅凭更大的模型已不足以形成代际优势，决定技术上限的关键在于模型、数据、算力和芯片能否构建一个持续迭代的闭环。

这促使越来越多的车企选择自主研发。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo（其AI训练超级计算机）和自研芯片的全链条。在中国，小鹏、蔚来和理想等车企也在不断向更底层的技术环节延伸。

理想汽车在今年发布的L8和L9车型上已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的一个重要技术方向。基于马赫M100，理想也运行了其自研的马赫VLA模型。

然而，对于整个行业而言，更值得关注的并非“是否自研”，而是这些投入究竟能解决哪些实际问题。

带着这个疑问，我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们阐述了理想对下一代自动驾驶技术路线的判断，并解释了自研芯片、数据体系和AI基础设施背后的设计思路。以下为访谈的主要内容，经过编辑整理：

问：为了在第四季度达到特斯拉FSD V14的水平，理想汽车还需要在哪些方面努力？

**詹锟：**我认为在追赶FSD方面，存在两个层面的挑战。

首先是基础体验，具体体现在三个方面：安全感、效率和舒适度是否能达到FSD同等水平。FSD在安全感、效率和舒适度方面表现出色，这是其核心功底。即使不处理极端复杂的路况，我们也要确保在基础体验上达到同等水平。

其次是能力层面，这部分追赶难度更大。例如，特斯拉在礼让特殊车辆、在极窄路况下的感知精度、识别交警指挥等方面的能力非常突出。

在能力方面，存在架构升级的机会。为何某些能力只有特斯拉拥有？这可能与以往的范式限制、架构设计或数据积累有关。我们在这些方面进行了大量探索。

问：我理解马赫VLA是一套技术体系，而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型。那么，目前的智能驾驶模型中是否还包含“L”（Language语言）的部分？

**詹锟：**当前自动驾驶的架构正朝着一个共同趋势发展，即将VLA（视觉-语言-行为模型）与World Model（世界模型）整合。

从长远来看，所有技术路线都会趋向于这个方向。无论是VLA还是World Model，其中的提示（Prompt）都需要用到语言。因此，语言部分必然存在，关键在于如何使用它。

在机器智能领域，我认为基于视觉（Vision Based）的 approach 更加合理，它更适合理解空间、感知三维环境以及服务于环境。语言无疑是有价值的，它在理解环境、交通规则、指令以及复杂的决策思考方面都能发挥作用。

从长远来看，基于视觉和语言的原生基础模型，可能是未来的发展趋势。

**谢炎：**如果目标是实现L3、L4级别自动驾驶，需要解决更泛化的问题，那么模型必须具备类似人类的思考能力。届时，语言的重要性将日益凸显，这也是未来需要巨大算力的原因。

如果模型仅具备视觉和动作（Vision and Action）能力，即使拥有海量数据，在遇到分布外的场景时也会束手无策。就像动物即使学会了所有常见情况，面对前所未见的场景也可能完全不知所措。

我们认为，随着自动驾驶能力向L3、L4级别迈进，解决的问题将越来越接近90%、95%、98%之外的那些“未知”场景——这些场景需要模型具备类似人类的思考能力。而这种推理和思考能力的来源，正是语言模型。例如，理解交警的手势含义，要求其走还是停，这并非仅仅通过收集或生成数据就能解决。

问：随着理想汽车车队规模的不断扩大，从内部来看，数据的边际效应是否出现了衰减？你们是如何定义“价值数据”的？

**詹锟：**首先，数据的数量必须足够庞大，其核心目的是收集更多的Corner Case（长尾场景）。目前，业界有多种方法可以在车端实现有效的Neural Trigger（神经网络触发器），以判断场景的难易程度，并将关键数据回传。这也是特斯拉在数据方面表现出色的重要原因之一。

其次，数据质量至关重要，尤其体现在行为质量上。目前业界正逐渐趋向于端到端的范式，无论是VLA（视觉-语言-行为模型）、World Model（世界模型）还是Vision-Action（视觉-动作模型），都必须关注Action（行为）的质量。行为的简洁性、一致性非常关键。

至于数据规模扩大后边际效应是否衰减，只要模型能力不断提升，朝着100%的目标迈进，其增长曲线必然是“对数曲线”，呈现缓慢衰减的趋势，而非线性增长。这在任何AI公司都是如此。尽管后期数据收敛的速度会放缓，但我们希望通过规模化来加速这一过程。

问：马赫M100芯片可以应用于多种AI场景。在未来五年或更长的时间里，理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片？

**谢炎：**尽管业内存在“舱驾一体”的说法，但我们认为，舱驾一体最核心的部分是AI算力。其他部分的整合与否并非关键。座舱系统和AI智能驾驶系统可以完全独立，但AI算力可以集中处理，从而显著提高效率。

我们的路线图最终目标是构建一个车内AI计算中心，所有AI任务均在此进行计算。这类似于在笔记本电脑上运行OpenClaw，AI计算并非在笔记本本地进行，而是在Token Provider Server（Token供应服务器）上完成。车内也类似，将设立一个Token Server（Token服务器）。

该Token Server的优势在于：第一，效率极高。第二，能够实现不同任务的相互隔离，互不干扰。例如，智能驾驶任务的确定性——无论是内存还是带宽，都能保证不被其他任务干扰，这是软硬件协同设计才能实现的结果。

问：马赫M100采用数据流架构的AI推理芯片，这是否意味着其对带宽的需求低于其他厂商的自动驾驶芯片，而对片上存储的需求更高？

**谢炎：**我们对带宽的要求确实会相对较低，但这并非直接导致SRAM容量（而非显存）设计的决定性因素。目前HBM（高带宽内存）非常流行，许多人认为带宽越高越好。但计算、带宽、SRAM等都需要晶体管来实现，最终的设计是基于成本、综合性能等多方面权衡后的选择。

不同架构的设计，仅凭一两个指标进行简单对比是不合理也不专业的。这就像拳击比赛，身高和体重都有各自的优势，但胜负并非由单一指标决定，最终取决于比赛的整体表现。

问：为何当前的大算力芯片方案，如英伟达、小鹏以及理想自研的芯片，都没有实现芯片级的舱驾融合，而高通却在低算力芯片上进行了尝试？

**谢炎：**本质上，座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶，需要一个更高确定性的系统，包括专属的内存和计算资源。在这种情况下，融合的意义大大减小，因为资源无法实时切换，而实时切换会降低确定性。如果系统朝着越来越专用的方向发展，融合的价值就不大了——即便将两个芯片整合在一起，晶体管数量可能不变，只是节省了封装成本。对于中低端芯片而言，这部分成本节省是可能的，但幅度有限。

我认为，随着智能驾驶能力不断提升，舱驾融合的意义将逐渐减弱。如果将这些芯片设计得更紧凑，集成在同一块电路板上形成小型化方案，这是可行的，不一定非要集成到一块芯片上，也可以是多块芯片的集成。

问：自研芯片需要哪些条件，例如销量、营收和研发投入？鉴于目前自动驾驶迭代速度很快，芯片要持续迭代需要具备哪些条件？

**谢炎：**芯片的初期投入确实不菲，可能每年需要数亿元。

首先，需要达到一定的营收规模。对于车企而言，年营收达到1000亿元以上，研发投入至少占10%，即每年有几十亿到上百亿的资金，才能支撑芯片的研发投入。其次，研发的芯片必须能够提升产品的核心竞争力。

许多人认为芯片需要巨大的出货量才能摊薄成本。实际上，芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片，例如Livis采用两颗马赫M100，总面积约800平方毫米。而一款高端手机芯片的面积约为100平方毫米，因此一辆车的智能驾驶芯片面积相当于8部高端手机的芯片面积。

如此计算，几十万辆车的需求量意味着巨大的晶圆面积，足以摊薄成本。因此，成本不能仅以芯片颗数来衡量。

问：动态数据流编译器的难点何在？攻克这一技术花费了多长时间？

**谢炎：**我们从流片前甚至设计阶段就开始进行编译器工作，在芯片流片之前，就已经完成了许多模型的运行验证。

数据流是一种截然不同的架构，它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信和协作需要解决超大规模并行调度问题。传统的冯·诺依曼架构调度方式在这种规模下已不可行，因为无法由中央管理员统一管理如此庞大的核心数量。