开云体育(中国)官方网站VLM 可以提供更感性的分析和提倡-云开全站登录入口 - www.kaiyun.com
当联想汽车纯电 SUV i8 亮相时,外界的眼力大多照旧聚焦在它的造型、内饰乃至是价钱上——一如平素。但少有东谈主意志到,在这辆车的标的盘背后,搭载着一套足以改写联想扶持驾驶工夫邦畿的中枢系统:VLA 司机大模子。它并非一次简便的功能升级,而是联想汽车在当年五年里跨越两个工夫期间——从东谈主工限定期间,到东谈主工智能期间——所累积的一交心血的结晶。
这种工夫变革频频比外不雅设计更隐形,却也更惊恐。五年前,联想扶持驾驶团队还在为一个个 Corner Case 头疼——在雨夜、在桥洞、在施工路段,算法像"虫豸"一样,依赖既定例则和舆图。要让一台车学会"像东谈主一样想考",这条路并不比造出一辆全新电动车容易若干。
更具戏剧性的是,联想每次都莫得礼聘更恰当的阶梯。行业内,许多厂商仍在用"限定 + 舆图"的传统架构踏踏实实完善功能,而联想却在里面掀翻了一场自我翻新:绝对告别舆图依赖,转向端到端大模子,以致押注比端到端更激进的 VLA 司机大模子。其间的风险和质疑显而易见——从团队里面的工程挑战,到外部对"舒限定、安全性"的质疑,简直每一个版块迭代都像一次"无东谈主区探险"。

也正因为有这么的配景,联想 i8 搭载的 VLA 扶持驾驶系统并不单是是一套功能的升级,而是一段工夫阶梯变革的收尾。为了领会 VLA 的真理,就必须回望联想这五年在扶持驾驶工夫架构上的养息与抉择:
为什么要一再推翻已有后果,每一次切换责罚了什么难题,它又把通盘行业推向了若何的改日?
工程师的驾驶手册:用限定圈养的智能机器
要领会这场工夫翻新的开头,就必须回到 2021 年。那时的扶持驾驶,骨子上是工程师为汽车编写的一册选藏 " 驾驶手册 "。每一种路况、每一个交通场景,都需要东谈主为设定应付限定:前车刹车时延缓若干?变谈时保持多大安全距离?红绿灯倒计时如何响应?
联想汽车的工程师们就像一群严谨的教官,试图为一台机器制定出涵盖通盘可能情况的行驶要领。他们礼聘了轻图、无图的工夫阶梯,以致在 2022 年就作念出了一个在那时看来相配激进的决定:用视觉感知取代角毫米波雷达。
这个决定当前看来颇具前瞻性,但在那时却充满争议。毕竟,大多数车企还在用各式雷达为系统提供 " 安全感 ",联想却礼聘了以视觉为主的阶梯。
相关词,限定期间的好意思好愿景很快就撞上了现实的墙壁。问题出当前东谈主类阐述的局限性上:莫得东谈主约略意料通盘可能的驾驶场景,更无法为每一种变化制定无缺的应付战术。

最典型的逆境被联想汽车自动驾驶研发高等副总裁郎咸一又博士形象地笼统为 " 按下葫芦起来瓢 " ——当工程师责罚了一个场景的问题时,频频会在另一个场景中产生新的劳作。就像给一个机器东谈主设定 " 遭受阻隔物就泊车 " 的限定,看似安全,但若是每遭受路边泊车就刹停,在拥挤路段就酿成了厄运。
更深层的问题在于,决定系统性能的中枢身分是 " 东谈主 " ——工程师的训戒、编程水关怀算法才调。即即是最优秀的工程师,面对用之不停的长尾场景也会感到力不从心。一些复杂的交通情况,根柢无法用简便的限定来态状和责罚。
经过三年的拼搏,联想汽车的全场景 MPI(平均剿袭里程)达到了约 12 公里的水平。
这在限定期间还是是相配可以的得益,但团队里面很明晰,这条工夫阶梯正在接近天花板。要想罢了真确的打破,必须寻找新的出息。
端到端的觉悟:从限定到师法的跃迁
2023 年中期,联想汽车作念出了一个在那时看来颇为冒险的决定:绝对告别限定期间,拥抱端到端大模子。这个决策的背后,是对工夫骨子的久了反想。
若是说限定期间是 " 告诉车辆如何作念 ",那么端到端就是 " 让车辆学会如何作念 "。工夫逻辑发生了根人性养息:不再是工程师预设各式应付有规画,而是让 AI 通过学习多数东谈主类驾驶数据,师法东谈主类开车的手段。这就像从 " 填鸭式培植 " 转向了 " 启发式学习 "。
端到端工夫带来的效果是立竿见影的。2023 年 7 月,第一个端到端版块的 MPI 就达到了十几公里,一举超越了限定期间三年的累积。这个收尾让团队既欢乐又随机——原本 AI 的学习才调如斯浩大。
更令东谈主圆润的是数据增长带来的性能飞跃。跟着进修数据从 100 万 clips 增多到 200 万、再到 1000 万 clips,MPI 呈现出指数级增长。到 2024 年头,当数据量达到 1000 万 clips 时,MPI 打破了 100 公里大关。从 12 公里到 120 公里,罢了了 10 倍增长,只是用了 7 个月时候。
这种升迁速率在限定期间是皆备无法假想的。就像一个学生从不足格短暂跃升到优秀,端到端的阐述让通盘团队看到了 AI 期间的无穷可能。

但就在团队为这个得益感到应允时,一个新的问题悄然暴露。
从 2025 年 3 月到 7 月底的数据来看,尽管团队干涉了 5 个月时候进行优化,模子性能只升迁了两倍傍边。增长速率见地放缓了。
原因并不复杂——当数据量格外 1000 万 clips 后,单纯增多数据量还是无法带来显赫升迁。就像学生磨练,从不足格到合格很容易,但从 80 分升迁到 90 分就需要更多手段和勉力。有价值的驾驶数据变得越来越稀缺。
更严重的是,团队发现无论如何调整数据配比,端到端系统老是会出现一些令东谈主困惑的问题:
比如出现了一些违反常理的步履——车辆可能在需要左转的车谈上临时变谈遁藏,但随后发现无法胜利插回原车谈,堕入了我方给我方制造的逆境。
它的决策不够灵敏——面对前线大货车违抗上匝谈的情况,车辆会礼聘先切换到控制车谈,但这么作念反而给后续并线制造了更多劳作,而不是简便奴婢前车通过。
这导致了驾乘东谈主员的安全感出现不足,影响体验。在桥洞等视野受阻的区域,东谈主类司契机凭训戒进行看护性延缓,但端到端系统惟有 " 看到 " 潜在危急才驱动反应。
郎咸一又用了一个极其灵活的比方来去首端到端期间的根柢逆境:" 当前端到端的这套师法学习并不具备深度的逻辑想考才调,就像山公开车一样。喂山公一些香蕉,它可能会按照你的意图作念一些步履,但并不知谈我方为什么要作念这些步履,一敲锣它就过来,一打饱读它就舞蹈,但不知谈为什么要舞蹈。"
这个比方谈出了端到端工夫的骨子逆境:它酌定算是一个高等的 " 应激反应系统 ",给定输入就产生输出,但背后短少真确的逻辑推理才调。
端到端 +VLM:给 " 山公 " 配上军师团
结实到端到端短少深度想考才调后,联想汽车尝试了一个看似合理的责罚有规画:端到端 +VLM(视觉谈话大模子)。这就像给一个反应很快但不善想考的司机配了一个军师团——当遭受需要深度决策的复杂场景时,VLM 可以提供更感性的分析和提倡。

遐想是很好意思好的。端到端看重基础的感知和反应,VLM 看重复杂情况下的决策想考,两者结合应该约略酌盈注虚。
但现实很快就给了团队当头棒喝。VLM 的推理速率惟有 2-3Hz,根柢无法得意及时驾驶的需求。更致命的是,端到端模子皆备 " 听不懂 "VLM 在说什么。
郎咸一又的比方再次纲兴目张:" 就像咱们对山公说东谈主话一样,你跟山公说别跳了,或者说让它往哪走,它很难领会东谈主在说什么,因为它莫得想考才调。"
VLM 可能提供了相配合理的决策提倡,但端到端模子无法领会这些提倡的含义,更无法将其养息为施行的驾驶步履。这种 " 对牛弹琴 " 的状态让通盘有规画堕入了死巷子。
团队靠近一个根人性问题:要么让 VLM 变得更快(工夫上极其穷苦),要么让端到端变得更灵敏(不异穷苦)。或者,寻找一个全新的工夫阶梯。
郎咸一又又用了一个相配形象的比方来态状端到端期间的逆境:"山公开车"。
在施行的测试中," 山公开车 " 的问题在施行驾驶中阐述为三种典型症状:
违反常理的步履:车辆可能会作念出看似合理但施行不当的决策,比如在需要左转的车谈上临时变谈,但随后又无法胜利复返。
开车不够灵敏:面对复杂情况时,车辆无法作念出最优决策,比如在匝谈前遭受大货车时,不会礼聘最合理的跟车战术。
安全感不足:短少东谈主类司机自然具备的看护性驾驶意志,频频要等看到危急才驱动反应,而不是提前预判和准备。
" 当前端到端的这套师法学习并不具备深度的逻辑想考才调,就像山公开车一样。喂山公一些香蕉,它可能会按照你的意图作念一些步履,但并不知谈我方为什么要作念这些步履。"
一个斗胆的 VLA 遐想:让机器会想考
面对端到端 +VLM 的逆境,联想汽车团队驱动想考一个根人性问题:既然端到端模子听不懂 VLM 的 " 东谈主话 ",那为什么不让它平直学会 " 说东谈主话 " 和 " 想东谈主事 " 呢?
这个想法催生了 VLA(Vision-Language-Action)司机大模子。VLA 不是简便的工夫拼接,而是从架构层面的再行设计,让视觉、谈话和看成三种才调在归并个模子中有机交融。

分开领会这三个字母并不穷苦,其中 Vision(视觉):通过各式传感器和导航信息,让模子对空间有精确的感知才调,就像给司机配备了最犀利的眼睛。
Language(谈话):将复杂的空间信息进行高度压缩和编码,用谈话的神气进行里面抒发。就像训戒丰富的司机约略用纯粹的话语准确态状复杂的交通状态。
Action(看成):基于对场景的领会,生成具体的驾驶步履。这里最大的创新是使用了 Diffusion 工夫,约略生成当然、平滑的行驶轨迹,而不是生硬的轨迹点伙同。
此前咱们还是先容过一次联想 VLA 工夫的才调:比如在通过高速收费站时,可以平直说"走东谈主工",系统就可以从稠密的 ETC 收费通谈中转向东谈主工收费通谈。在日常的驾驶法子,也可以通过"前线掉头"和"前进 10 米"的简便教导,调整行车阶梯——就像是咱们平时和代驾司机平直疏导的水准。
这也意味着 VLA 在尝试领会物理寰球。
VLA 最大的打破在于责罚了端到端期间的 " 疏导鸿沟 "。由于通盘模子都具备谈话领会才调,东谈主类可以平直用当然谈话与 VLA 交互,这种交互与 VLA 里面的决策逻辑是皆备一致的。
当用户说 " 开快点 " 时,这相配于给 VLA 的里面决策系统发送了一个 prompt 教导;而 VLA 在分析路况、作念出决策时,里面亦然通过近似的谈话编码进行推理的。这种一致性让东谈主机交互变得天相关词流通。
更进犯的是,VLA 不再依赖于师法学习,而是转向了强化学习。这意味着系统不仅约略学习东谈主类的驾驶步履,还约略在编造环境中自我进修,无间蜕变和完善。
从工夫上看,VLA 的工夫才调最终养息为四个中枢家具本性。第一想维才调:VLA 具备了想维链推理才调,可以及时进行逻辑想考,不再是简便的应激反应。其次疏导才调:用户可以平直用谈话与 VLA 交流," 开快点 "、" 往左转 " 这么的教导都能被领会和奉行。然后追想才调:VLA 约略记取用户的驾驶偏好,比如在某条路优势气的行驶速率,并不才次经落后主动调整。临了是自主学习才调:通过强化学习,VLA 可以无间自我迭代和升迁。
也就是说,从这么的一个工夫逻辑来看,联想汽车约略率先罢了 VLA,依托的是浩大的工夫基础设施。在数据方面,从 2020 年驱动,联想汽车就建筑了完整的数据闭环,舍弃 2025 年 7 月已累计集中了 12 亿公里的有用驾驶数据。
这些数据不是简便的里程堆积,而是经过用心分类和标注的贵重资源。包括不同天气、不同期间、不同谈路类型的数据;各式车谈类型如 ETC 车谈、潮汐车谈的数据;各式路口类型和交通状态的数据。更进犯的是,联想汽车还通过寰球模子工夫,将果真数据进行重建和生成,创造出更多稀缺场景的合成数据。
联想的工夫第一性旨趣:以责罚问题为导向的创新
其实从这里就可以发现。纵不雅联想汽车五年的工夫演进旅途,有一个澄莹的内在逻辑:每一次工夫架构的切换都是为了责罚上一代工夫无法克服的根人性问题,而非单纯的工夫高傲或竞争考量。
从限定算法转向端到端,是因为东谈主工设计的限定无法遮掩用之不停的长尾场景;从端到端转向 VLA,是因为师法学习短少深度想考才调;从师法学习转向强化学习,是因为果真数据漫衍不均匀,有价值的数据稀缺。
这种 " 问题导向 " 的创新想维,让联想汽车长久约略收拢工夫发展的中枢矛盾,罢了真确有真理的工夫打破。
举例强化学习也让 VLA 具备了自我迭代的才调。在仿真环境中,模子可以反复慎重归并个穷苦场景,从率先的撞车到缓缓掌捏安全通过的手段,通盘经由就像一个编造的驾校教化在 24 小时不拒绝地指引慎重。
传统的实车测试存在无法复现、测试周期长、本钱漂后的问题。联想汽车通过寰球模子构建了精确的仿真环境,可以作念到场景的皆备复现和快速迭代。2023 年实车测试每公里本钱约 18 元,而 2025 年上半年通过仿真测试,本钱降到了 5 毛钱一公里,测试质地还更高。

VLA 期间,推理算力变得比进修算力愈加进犯。联想汽车当前领有 13EFLOPS 的算力鸿沟,其中 3EFLOPS 用于推理,10EFLOPS 用于进修。这种树立反应了 VLA 工夫的特色:需要多数的推理算力来运行寰球模子,生成各式仿真场景供模子学习。
再好的模子若是不成部署到车辆上也毫无真理。联想汽车在工程化方面展现了浩大的才调,胜利将 4B 参数的 MoE 模子部署到 Thor-U 芯片上,并罢了了 FP8 和 INT8 的推理优化。
更令东谈主印象久了的是,VLA 以致可以部署到上一代的 Orin-X 芯片上。郎咸一又流露,他我方的 2022 款联想 L9 就搭载着 VLA 系统在日常使用。这种跨平台的部署才调,体现了联想汽车在工程优化方面的深厚功力。
联想汽车为 VLA 设定了一个背义负恩的规画:将 MPI 升迁到 1000 公里。若是这个规画约略罢了,意味着用户可能两三个月才需要剿袭一次,这将标记着扶持驾驶工夫迈入了一个全新的期间。
限定期间花费三年才达到的 10 公里 MPI,成为了端到端期间的开头;端到端期间达到的 200 公里 MPI,又将成为 VLA 期间的基础。每一次工夫跨越都不是推倒重来,而是站在巨东谈主的肩膀上连接攀高。
郎咸一又觉得 " 上一代工夫才调的上限,是下一代工夫才调的开头。" 这句话久了地揭示了工夫格外的骨子。

VLA 大模子的出现,似乎也标记着咱们正在从 " 机器扶持东谈主类驾驶 " 的期间,迈向 " 机器领会东谈主类需求并主动工作 " 的新纪元。当汽车不再只是一个交通器用,而是一个约略想考、疏导、追想和学习的智能伙伴时,出行的真理也将被再行界说。
最近,咱们也实地体验了一下联想汽车园区的" VLA 巴士":它的外形其实是一辆 MEGA Home,但可以使用手机呼车,在坐上这辆 MEGA Home 后,前排并莫得司机,你皆备可以使用语音告诉"联想同学"你想去的地方,它就能安全地把你送到主义地。
工夫的格外永无绝顶,但标的和速率都不异进犯。联想汽车用五年时候解说了一个意料:惟有真确以责罚用户问题为导向,以工夫创新为驱动,才调在热烈的市集竞争中走出一条属于我方的谈路。
跟着工夫的无间迭代和完善开云体育(中国)官方网站,咱们也多情理服气,真确真理上的 " 迁徙空间 " 和 " 智能出行 " 期间行将到来。
