称赞特斯拉基本功扎实，李想再谈AI：人工智能时代，基本功不可跳跃

更新时间：2025-05-08 22:44:25 发布时间：4小时前评论：0

内容摘要“对于理想汽车而言，VLA是一个司机大模型，像人类的司机一样去工作的一个模型。”李想说。距离理想汽车CEO李想上一次谈AI已经过去了130多天，在5月7日晚的《理想AI Talk第二季》中，李想分享了对于人工智能的最新思考，VLA司机大模型

“对于理想汽车而言，VLA是一个司机大模型，像人类的司机一样去工作的一个模型。”李想说。

距离理想汽车CEO李想上一次谈AI已经过去了130多天，在5月7日晚的《理想AI Talk第二季》中，李想分享了对于人工智能的最新思考，VLA司机大模型的作用、训练方法和挑战。

在这130多天时间里，外部世界发生了巨大的变化。DeepSeek横空出世，在全球掀起AI热潮，致力于要做AI公司的理想汽车置身其中，“拥抱DeepSeek的这个过程比我们想象得要快。”李想称。据介绍，得益于DeepSeek的开源，理想汽车在VLA司机大模型的语言能力研发上提速显著，节省了近9个月的时间和数亿元成本。

也正因如此，理想汽车今年3月27日宣布把自研的整车操作系统理想星环OS开源。“我自己内心，包括谢炎（理想汽车CTO）的内心就是DeepSeek给我们带来那么大的帮助，我们应该给社会贡献点什么。不让行业那么卷。说白了纯粹是感谢DeepSeek。”

而在这130多天的时间里，李想本人依然是舆论场中颇具话题性的代表人物。就在《理想AI Talk第二季》上线的同一天，“李想年薪6.39亿元”的话题冲上微博热搜。对此，理想汽车方面回应时代财经称，事实上，李想2024年全部实际薪酬为266万元。目前披露的6.39亿，属于公司按照美股上市公司（美国会计准则）对于期权的特殊记会计费用方式，不是李想的实际薪资收益。

李想也谈到近期的“智驾”争议，今天的辅助驾驶走到了一个新的十字路口上，对此，他回应称：“经过多年，从规则算法到端到端+VLM（视觉语言），再到现在真正迈入VLA（视觉语言行动模型）的阶段，现在比较像‘黎明前的黑暗’。”

图片来源：理想汽车

“AI成为生产工具才能真正爆发”

为什么人类一定需要辅助驾驶？为什么科技不能就此止步？

抛出这两个问题后，李想的回答是：只要人类会雇佣司机。我觉得人工智能技术其实就是把类似这样的一些功能和角色去变成真正的生产力、生产工具，然后去进行替代。

李想表示：“判断Agent（智能体）是否真正智能，关键在于它是否成为生产工具。只有当人工智能变成生产工具，才是其真正爆发的时刻。”

而VLA能够让AI真正成为司机，成为交通领域的专业生产工具。“对于理想汽车而言，VLA是一个司机大模型，像人类的司机一样去工作的一个模型。”李想说。

创业做AI是“造人”，而理想汽车做的就是在“造司机”。

VLA 最早由DeepMind于2023年提出并应用在机器人领域。根据财通证券研报，VLA不仅融合了VLM（视觉语言模型）的感知能力和端到端模型（E2E）的决策能力，更引入了“思维链”技术，实现了全局上下文理解与类人推理能力。

2024年，理想汽车正式推送了端到端+VLM（视觉语言模型）辅助驾驶。不过，端到端模型在处理复杂问题时存在局限，虽可借助VLM视觉语言模型辅助，但VLM使用开源模型，使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。

2024年，理想汽车开始了VLA研究。VLA的训练分为预训练、后训练和强化训练三个环节，类似于人类学习驾驶技能的过程。

在理想汽车进行VLA研究的这一时期，横空出世的DeepSeek全球爆火。根据公开资料，2024年12月，视觉模型DeepSeek-VL2、模型DeepSeek-V3首个版本相继发布并同步开源。2025年1月15日，DeepSeek官方App正式上线。

彼时，李想问团队：“DeepSeek开源开得如此彻底，我们是否应该基于它的开源，去做我们的VLA的L（language 语言）的部分，我们是否应该站在巨人的肩膀上去做？”理想汽车CTO谢炎说：“肯定应该这么做。”理想汽车基座模型负责人陈伟则更为坚决，陈伟认为，理想应该以这个为基础，加速VLA，加速端到端的多模态的进展。

“拥抱DeepSeek的这个过程比我们想象得要快。”李想称，我觉得DeepSeek的出现对我们加速做VLA是巨大的帮助。过去我们计划要到今年年底才能做出一个像样的、能够满足我们需求的语言模型，但DeepSeek一开源，我们就加速了9个月的时间，所以给我们带来了巨大的收益和帮助。”

图片来源：理想汽车

据悉，VLA司机大模型以“司机Agent（智能体）”的产品形态呈现，用户可通过自然语言与司机Agent沟通，跟人类司机怎么说，就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理，复杂指令则先由云端的VL基座模型解析，再交由VLA处理。

“VLA是现阶段效率最高的架构”

不仅是理想汽车，元戎启行、Waymo、Wayve等企业也在VLA领域进行布局。

高盛最新自动驾驶报告显示，到2030年，VLA模型主导的端到端方案可能占据L4级市场60%份额。

财通证券表示：“现阶段，智驾市场竞争焦点已从单纯的功能实现转向了更深层次的技术范式竞争，强调技术架构的先进性和可持续性。”

当前智能辅助驾驶行业的技术路径快速迭代。从依赖规则算法和高精地图的辅助驾驶到端到端+VLM辅助驾驶，再到VLA。在李想看来，未来是否有效率更高的架构出现，需要打个问号。“我认为大概率还是会有的。但VLA是现阶段效率最高的架构。”

与此同时，行业也存有共识，VLA 模型的上车难度不小，对技术和车端的芯片算力都有高强度要求。

“其他车企也可以做，但其有没有建立整个基座模型的能力，以及预训练、后训练、强化训练的能力，（带来的结果）是不一样的。很多时候一家公司如果模型能力不强，根本不知道怎么去做对齐。”李想称。“包括今天很多企业做端到端都很吃力，因为在规则算法时候都没做好。”

在他看来，大型企业的基本功和能力永远无法被逾越。

李想以特斯拉为例，“从实测上看，目前特斯拉在中国市场的辅助驾驶版本大概在用12.5之前的模型，其采用的是半规则算法能力，这并不是特斯拉真实能力，距其真实能力还有巨大差距，特斯拉13.0以后的能力还是非常强的，能看到特斯拉基本功是非常扎实的。”

李想称：“我觉得这个是我们真正要去学的。尤其在今天这种内卷、外部不确定的环境下，更是每个企业扎扎实实练基本功的最好的时候。而且到了人工智能时代，基本功就更是不可跳跃的。如果很多企业做了很多创新，但是没有基本功，不扎实，所以很多创新就会昙花一现过去了。”

伴随技术架构的不停进阶与其真正落地应用的不断深入，可以看到，今天行业的辅助驾驶走到全新的十字路口。

李想认为，“经过多年，从规则算法到端到端+VLM，再到现在真正迈入VLA的阶段，现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程，之所以有黑暗是因为要迎来黎明。”李想说。“我觉得今天这个阶段。正因为辅助驾驶行业遇到了问题。我最喜欢、最开心的方式，就是去解决行业解决不了的问题，我觉得这是我们自己坚决相信的。”

举报收藏打赏 评论 0