在繁华都市的交通脉络中,自动驾驶技术正不断面临着复杂路况的考验。就拿北上广城市快速路的限时段公交车道来说,这一特殊场景犹如一道难题横亘在智能驾驶系统面前。
以往,AI 系统依赖人类预设规则,在面对限时规则切换时显得僵化。而如今的端到端自动驾驶模型虽旨在自主学习适应,但对于「限时公交车道」这类特殊路况与场景的学习,仍需耗费大量时间,难以迅速达到理想的应对效果。
世界模型与视频生成:自动驾驶的关键拼图
在全球智能驾驶研发的前沿阵地上,基于 Artificial General Intelligence(AGI 通用人工智能)与世界模型(World Model)的仿真平台相较于传统的单一道路测试,具有显著优势。它能够更加精准地满足日益增长的模拟需求,大幅削减重复采集和分析工作,按照需求生成特定场景,有力提高算法精准度和迭代效率,是实现「端到端」智能驾驶方案的关键基石。
在自动驾驶领域,世界模型和视频生成技术无疑是两块关键拼图。世界模型旨在模拟真实世界环境动态,而视频生成模型则负责产出逼真视频序列,二者的整合对于提升自动驾驶汽车的态势感知和决策能力意义非凡。
早期的视频生成技术尚显稚嫩,难以制作出自然流畅且冗长的视频。那时的模型多在像素级别依据训练数据中的模式预测下一帧,或借助概率模型来优化数据分布近似值,缺乏标准化结构,如长短期记忆(LSTM)、Transformer 和生成对抗网络(GAN)等架构都曾被尝试,通过对抗训练艰难提升生成质量。
反观世界模型,其在自动驾驶领域蕴含着巨大潜力。它能够构建完整的场景认知,精准理解各元素间的关联,提前预判整个场景的演变,深入理解意图和因果关系,进而基于整体认知做出决策,甚至预见潜在风险。当世界模型与视频生成模型无缝集成,便如同为自动驾驶汽车的「大脑」装上了更为敏锐的「感官」与更智慧的「思维」,大幅增强其态势感知与决策的准确性。
DriveDreamer4D:开启 4D 驾驶场景重建新纪元
随着大模型技术的蓬勃发展,世界模型技术成为行业瞩目的焦点,引发了自动驾驶领域的创新热潮。极佳科技去年率先提出 DriveDreamer,这款全球首个真实世界驱动的自动驾驶世界模型,在工业界和学术界掀起了广泛而热烈的讨论,并成功被国际顶级计算机视觉会议 ECCV 2024 收录。
今年 10 月,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等一众实力单位,重磅推出 DriveDreamer4D。这一创新成果首次利用世界模型增强 4D 驾驶场景重建效果,为行业发展开辟了新的路径。
DriveDreamer 的功能丰富多样,令人瞩目。它能够生成符合交通结构化信息的视频,仿佛拥有交通规则的「内化知识」;还能依据文本描述轻松改变生成视频的天气、时间等要素,如同掌控着一个虚拟的「气候与时间魔法盒」;更可以根据输入的驾驶动作生成不同的未来驾驶场景视频,或者依据历史的驾驶动作和图像输入预测未来的驾驶动作,就像是一位经验丰富的「驾驶预言家」。
当下的传感器仿真方法,如 NeRF 与 3DGS,存在着对训练数据分布过度依赖的短板。一旦训练数据不足,在面对复杂驾驶操作,如变道、加速或减速时,重建效果便大打折扣。而 DriveDreamer4D 的出现恰如其分地弥补了这一缺陷,它以世界模型作为强大的数据引擎,基于真实世界的驾驶数据合成新轨迹视频,例如在变道场景中表现卓越。
DriveDreamer4D 在提升图像渲染质量方面成绩斐然,它能够显著提升多种重建算法(PVG、S3Gaussian、Deformable – GS)的效果,让驾驶前景(车辆)和背景(车道线)的时空一致性达到新的高度。其总体结构设计精妙,轨迹生成模块(NTGM)犹如一位智能「调度员」,灵活调整原始轨迹动作,如转向角度和速度,从而生成全新的轨迹。这些新轨迹就像是打开新世界的钥匙,为提取结构化信息(车辆 3D 框和背景车道线细节)提供了前所未有的视角。紧接着,凭借世界模型的视频生成能力,以更新轨迹后得到的结构化信息作为控制条件,顺利合成新轨迹的视频。最后,将原始轨迹视频与新轨迹视频巧妙融合,对 4DGS 模型进行优化,如同为模型注入了源源不断的活力,使其在 user study 实验中斩获超过 80% 的偏好投票,向着空间智能和 4D 世界模型昂首迈进坚实的一步。
回顾 DriveDreamer 系列,其发展历程亦是熠熠生辉。DriveDreamer 作为首个面向真实驾驶场景的世界模型,具备根据不同控制条件生成自动驾驶周视视频的能力,如同给自动驾驶汽车装上了「千里眼」,有效提升了 BEV 感知的性能。DriveDreamer – 2 则更进一步,创新性地引入大语言模型,摇身一变成为「驾驶场景定制大师」,能够生成用户自定义的驾驶数据,为长尾和 corner case 场景下的数据生成难题提供了巧妙的解决方案,进一步提升了数据生成能力。DriveDreamer4D 充分利用 DriveDreamer 系列的技术积累,针对端到端自动驾驶和闭环仿真对场景重建的急切需求,生成新轨迹视频(如变道、加减速),成功大幅提升了多种 4DGS 算法的重建效果,让自动驾驶场景重建技术实现了质的飞跃。
极佳科技:自动驾驶创新浪潮中的领航者
作为 DriveDreamer4D 论文的牵头完成单位,极佳科技无疑是自动驾驶领域的一股强劲力量。这是一家专注于空间智能的先锋企业,以将视频生成提升到 4D 世界模型为使命,全力赋予 AI 大模型对 4D 空间的理解、生成、常识和推理能力,力求实现 4D 空间中的交互与行动,向着通用空间智能奋勇前行。
极佳科技在影视游戏、元宇宙等虚拟空间的内容创作领域,以及自动驾驶、具身智能等物理空间的数据生成与认知推理方面,都拥有不可估量的价值。它在国内率先踏上探索和布局世界模型和空间智能方向的征程,并在技术研发与商业拓展两方面都收获了累累硕果,赢得了行业的广泛赞誉与认可。
在近期举办的现代汽车集团创新计划颁奖典礼上,极佳视界凭借其在 4D 世界模型和视频生成领域的卓越创新表现,荣耀斩获现代集团「灯塔」创新开放计划「创新企业奖」。现代汽车作为全球汽车制造业的巨头,刚刚跨越全球产量 1 亿台的伟大里程碑(2024.09),极佳科技此次获奖,无疑为其进军海外市场,服务类似现代汽车的国际客户打造了一个极具说服力的成功案例,也标志着其在全球自动驾驶舞台上崭露头角。
如今,极佳科技的相关技术已经在智驾行业的头部客户中落地生根,已与近 20 家汽车厂家和智驾方案商建立了紧密的合作关系,充分展现出其广阔的应用前景。
以公司与全球出行科技企业亿咖通科技强强联手为例,双方致力于建设基于先进的生成式 AI 和视觉大模型的仿真模拟平台,旨在高效推动智能驾驶技术的发展验证及功能迭代。
通过此次合作,双方将精心打造融入真实道路环境和传感器特性的场景库,借助对 AGI 能力的持续建设与迭代升级,生成高度真实、丰富多样的虚拟驾驶场景与交通流。这些形成的空间场景具备多视角及多车型的泛化能力,并且能够针对特殊场景(corner case)进行量化生成,与测试车实测完美结合,共同构建起高效的模拟平台。这一平台将加速智能驾驶的场景仿真、预判和功能开发效率,显著提升有效道路验证公里数。
该仿真平台将率先聚焦 ACC、AEB、NOA 等相关功能,深入开展算法仿真和回灌工作,不断提升模拟精度,大幅提高道路和泊车场景验证效率,有效推动相关算法模型的迭代更新,助力核心技术的快速研发和能力提升,全方位满足未来行泊一体智驾能力的研发需求,最终打造出更安全、更自然、能够适配更多场景和车型的智能驾驶解决方案。
更为重要的是,除了将生成式 AI 大模型应用于感知能力的提升以及现有驾驶功能的测试和迭代之外,双方还将携手探索世界模型在下一代智能驾驶解决方案中的前瞻研发与落地应用。
在自动驾驶的漫漫征途中,极佳科技以 DriveDreamer4D 为利刃,以世界模型为核心驱动力,正与合作伙伴们并肩作战,划破技术的重重迷雾,驶向智能驾驶的未来新蓝海。有理由相信,在这样的创新力量推动下,自动驾驶的明天将更加安全、高效、智能,让我们拭目以待这一伟大变革的全面到来。
领取最新网赚项目,免费带项目 添加 微信:sjzqb999 备注:项目!