作者简介
任现
吉利汽车研究院(宁波)有限公司人工智能高级经理,长期从事人工智能产品应用领域相关研究工作。
薛峰
吉利汽车研究院(宁波)有限公司人工智能项目PMO,长期从事人工智能应用领域相关研究工作。
方云飞
吉利汽车研究院(宁波)有限公司人工智能研究算法工程师,长期从事人工智能算法研究领域相关研究工作。
蒋忠林
吉利汽车研究院(宁波)有限公司人工智能研究算法部部长,长期从事人工智能算法研究领域相关研究工作。
陈勇
吉利汽车研究院(宁波)有限公司人工智能中心主任,长期从事人工智能算法、产品、大模型、语音、生成式AI等领域相关研究工作。
唐炜
吉利汽车研究院(宁波)有限公司人工智能高级经理,长期从事人工智能产品应用领域相关研究工作。
论文引用格式:
任现, 薛峰, 方云飞, 等. 基于大语言模型与智能体的智能座舱研究与实践[J]. 信息通信技术与政策, 2024, 50(12): 58-63.
基于大语言模型与智能体的智能座舱研究与实践
任现 薛峰 方云飞 蒋忠林 陈勇 唐炜
(吉利汽车研究院(宁波)有限公司,宁波 315000)
摘要:随着科技的进步与技术的革新,汽车正在从传统的移动代步工具向智能移动空间乃至智能生命体演变。智能座舱是人机交互的主要入口,在集成了功能性与娱乐性的基础上,人工智能的发展,特别是通用人工智能的发展,也为座舱提出了自主性、适应性、个性化等诸多要求。为满足这些需求,设计了一个基于大语言模型与智能体的智能座舱系统,并以一个云端实现架构勾画了该系统的技术实施路径,以座舱内的应用情景为出发点,构造了一个具备自主性、适应性、个性化特征的智能座舱系统。
关键词:智能座舱;大语言模型;智能体;端云结合
0 引言
智能座舱是汽车智能化的重要组成部分,其发展历史可以大致划分为3个阶段[1]。一是早期的机械式座舱阶段。在此阶段,汽车座舱主要包含机械仪表盘和简单的音频播放设备,呈现出机械化属性突出、人机交互方式单一、缺乏集成化和显示屏技术的特征。二是电子化座舱阶段。传感器和芯片等智能硬件逐步集成于汽车座舱中,汽车座舱开始呈现出智能化和网联化的特点,座舱功能从单一的驾驶指令执行扩展到娱乐、导航等多元化领域。人机交互方式也通过小尺寸液晶显示屏和多屏融合技术得到了显著提升,语音控制等非接触交互方式开始出现。三是全面智能化的发展阶段。随着技术的不断突破和市场的持续推动,汽车座舱不仅集成了更高级别的自动驾驶辅助和智能交互体验,还成为了集娱乐、办公、生活、社交于一体的人机交互智能产品。多模态交互技术的广泛应用,如触摸交互、手势交互、凝视与头部姿态交互以及语音交互等,极大地提升了座舱的舒适性和功能性。同时,大模型的出现也提升了车载智能助手的理解能力,结合视觉感知可识别驾驶员和乘客的状态,保障出行体验与出行安全。
顺应座舱智能化、网联化的发展需求,研究人员围绕智能座舱的交互体验、交互模式展开一系列研究。刘晶晶[2]从情景感知的角度论述了车载人机交互产品的设计理念,并设计了一个基于智能可穿戴设备的座舱多模态感知、交互框架;余子薇等[3-5]则从车载语音助手的人格化、情感化的角度研究如何改善用户的使用体验,提高用户黏性。同时,当前的座舱智能化水平仍存在一定局限性,如车载语音助手模式化、语言僵化等问题[5]。本文将围绕大语言模型(Large Language Model,LLM)和智能体技术在汽车智能座舱中的应用实践展开研究,并提出了基于大模型和智能体的智能座舱架构及解决方案,对于座舱智能化水准提升形成借鉴参考。
1 LLM与智能体在智能座舱中的应用
1.1 LLM与智能体
LLM基于深度学习技术,通过训练大量文本数据来理解和生成人类语言,其核心在于强大的语言理解能力,能够捕捉语言的复杂模式和语义关系,从而完成各种语言任务,如文本生成、问答、翻译等。这些模型不仅具备高度的通用性,还能在特定领域展现出卓越的性能,为自然语言处理领域乃至人工智能(Artificial Intelligence,AI)技术的发展带来了革命性变化。
智能体(AI Agent)是AI领域的重要概念,智能体是指能够感知环境、进行决策并采取行动的系统。智能体可以是软件程序、机器人或其他自动化设备,主要通过与环境和其他智能体的交互,不断学习和适应,以实现特定的目标。智能体的自主性、适应性和学习能力是其核心特征,使其能够在复杂多变的环境中保持有效性和竞争力。
基于LLM的智能体是指利用大型语言模型作为核心组件,构建具有自主执行任务、学习和适应环境能力的智能系统。智能体通过观察、决策和行动的循环来逐步解决问题,类似于人类处理问题的方法。具备此种特征的智能体可以应用于自然语言处理、智能客服、智能助手、智能创作等场景,为人类提供更加便捷的服务。例如,在智能客服场景中,智能体能够通过对话的方式,为用户提供即时、准确的信息和帮助。在购物平台的应用中,智能客服助手可以回答用户与商品信息、订单状态、退货等有关的问题,甚至能够提供个性化的购物建议,提升用户体验。通过将LLM与智能体结合,可以构建出更加智能化、自主化的系统,为人类提供更加便捷、高效的服务。
1.2 智能座舱系统的发展挑战
以LLM为代表的AI技术的进步为座舱的智能化体验带了巨大的想象空间。但与此同时,智能座舱系统的发展仍然存在诸多挑战。
首先,通用大模型在智能座舱中的应用上存在性能和体验上的妥协。由于缺乏针对汽车行业的深入训练和优化,通用大模型在理解复杂驾驶场景和用户需求时可能无法准确识别和处理特定术语命令,导致交互体验不佳。
其次,以对话为核心的汽车座舱系统在自主性和适应性方面存在局限。虽然对话系统能够提升驾驶体验,但依赖于网络和数据服务的对话系统在网络连接不稳定的情况下可能无法正常工作,限制了系统的可靠性。同时,对话系统往往只能被动响应用户输入,难以实时、主动地交互并提供服务。
最后,传统座舱系统在个性化服务方面也存在不足。传统座舱系统基于广泛用户数据训练,可能难以深入理解特定个体需求,同时无法充分利用车辆和用户的实时数据提供实时个性化体验。这导致用户在使用座舱系统时,无法获得针对其个人偏好的定制化服务。
1.3 LLM与智能体在智能座舱中的应用
定制化座舱大模型以及智能体为智能座舱的发展提供了新的方向。定制化座舱大模型的应用能够显著提升智能座舱的个性化体验。通过收集并训练特定于汽车行业的数据,定制化座舱大模型能够更准确地理解用户需求,提供更加个性化的服务。
智能体的引入使智能座舱具备了主动服务的能力。智能体能够实时分析车辆和用户的实时数据,预测并满足用户需求,如根据天气变化自动调整温控设置、根据驾驶员疲劳状态建议休息等。这种主动服务的能力使智能座舱更加贴心和智能化。
LLM与智能体的协同作用能够共同推动智能座舱向更加智能化、个性化的方向发展。通过引入大模型与智能体,智能座舱不仅能够实现更加高效、智能的人机交互,还能在个性化服务方面取得显著提升。未来,随着技术的不断发展与成熟,大模型与智能体将在智能座舱中发挥更加重要的作用,共同塑造智能座舱的未来面貌。
2 基于大模型及智能体的智能座舱架构
2.1 智能场景Agent中枢:驾驶体验的“智慧核心”
图1展示了基于LLM与智能体的智能座舱系统架构,其中包含智能场景Agent中枢、智能大脑、车机枢纽和平台服务4个模块。
图1 基于LLM与智能体的智能座舱系统
智能场景Agent中枢是智能座舱的“心脏地带”,如同人类大脑中的前额叶,负责处理复杂的信息,进行高级认知活动。通过先进的算法和深度学习模型,Agent中枢能够精准捕捉用户的每一个细微需求,无论是通过语音指令、手势操作还是视觉提示,都能迅速响应并作出决策。
在这一核心结构中,意图识别是其最为关键的能力之一。Agent中枢能够准确理解用户的意图,无论是寻找最近的加油站,还是调整车内温度,都能迅速映射到相应的功能操作上。同时,面对模糊或复杂的指令,Agent中枢展现出非凡的拒识能力,能够礼貌地请求进一步澄清,确保每一次操作都准确无误,从而维护了系统的稳定性和安全性。
此外,Agent中枢还具备强大的工具调控能力,能够灵活调用各种工具和技能库,如个性化推荐、导航服务、娱乐控制等,以满足用户多样化的需求。在交互方式上,Agent中枢同样展现出卓越的判断力,能够根据场景和用户偏好,选择最合适的交互模态,无论是语音对话、视觉反馈还是触觉操作,都能提供自然流畅的体验。
2.2 工具大脑:执行力的“源泉”
如果说Agent中枢是智能座舱的“智慧核心”,那么工具大脑则是其强大执行力的“源泉”。工具大脑由一系列大模型和传统技能库构成,如同智能座舱的“肌肉和骨骼”,负责执行具体的任务和技能。
工具大脑中的个性化技能,能够根据用户的偏好和历史行为,提供量身定制的服务。无论是播放用户喜爱的音乐,还是推荐附近的餐厅,都能精准命中用户的心意。而领域中枢则专注于特定领域,如导航、娱乐、车辆控制等,提供专业化的服务,确保每一次操作都能达到最佳效果。
2.3 车机枢纽:感知与交互的“桥梁”
作为智能座舱的“感官系统”,车机枢纽扮演着与外界交互的重要角色,负责处理来自车辆内外的各种模态输入和输出,时刻捕捉着周围环境的细微变化。
在视觉输入输出方面,车机枢纽通过高清摄像头等视觉传感器,实时收集路况、行人、车辆等环境信息,并在显示屏上以直观的方式呈现给用户。同时,通过麦克风和扬声器,车机枢纽实现了语音交互的流畅沟通,让用户能够用自然语言与智能座舱进行对话。此外,车机枢纽还能主动识别用户手势、触摸等非言语输入,进一步提升了交互的便捷性和灵活性。
2.4 平台服务:资源的无限拓展
智能座舱架构的最后一环,是平台服务的补充和增强。通过连接到外部的服务平台,智能座舱能够获取更多的资源和服务,以补齐和增强其功能。基于语音技术,用户只需简单说出需求,就能获得智能座舱的即时响应。而边云网关,则实现了车与云端的无缝连接,让智能座舱能够充分利用云计算、大数据分析等先进技术,提升数据处理能力和服务资源。作为车辆内部各个系统和模块的连接中心,车机枢纽确保了数据的高效交换和任务协同,为智能座舱的整体性能和稳定性提供了有力保障。
3 云端实现架构
当前制约LLM应用的因素主要是其对计算资源过高的要求。一个可实施的路径是依赖云端部署,以提供必要的计算力与存储空间支持。云端架构使得模型能够以应用程序编程接口(Application Programming Interface,API)形式提供服务,为多样化的终端用户与应用程序所利用。鉴于大型模型对大规模并行处理及高性能硬件的依赖,单一设备难以满足其需求,而云端架构则能实现资源的合理分配与扩展,同时保障服务的高可用性与可靠性。在用户体验层面,用户期望通过各类设备获得迅速、精确且个性化的响应,云端架构恰好满足了这一需求。
图2展示了一个完整的系统云端实现架构,其核心技术流程具体如下。
图2 系统云端实现架构
(1)用户输入处理:用户的语音输入首先经由“语音识别”模块,利用自动语音识别(Automatic Speech Recognition,ASR)算法转换为文本信息,随后输入至规则分发模块,以实现快速新增场景的应用级干预。在干预过程中,规则分发模块可调用外部集成服务,如大模型场景服务、通用知识库、插件系统等,以辅助干预,实现精准调度与严格管控。此外,自研的大模型云端架构支持主动智能场景应用功能。
(2)语义理解:在语义理解阶段,输入被处理以明确用户的意图及请求的上下文,这可能涵盖对用户问题、命令或其他语言输入的理解。
(3)处理决策:随后进入决策模块,该模块可能呈现为逻辑树形式,用于决定如何响应用户请求。根据用户意图,系统会选择相应的处理路径。
同时,该架构的主要功能由如下模块组成。
语音识别:负责将用户语音输入转换为文本数据,作为用户与系统交互的入口点。
规则分发:根据预设规则对输入文本进行分发,可能将文本传递至意图判别、理解增强等处理模块。
拒识处理:在语音识别结果不清晰或不确定时介入,要求用户重新输入或提供更多信息。
理解增强:对初步理解的文本进行深入分析,利用上下文信息或外部知识库提升理解准确性。
意图判别与落域:分析文本意图,确定用户欲执行的动作或请求的信息,并决定最佳响应领域或模块。
对话仲裁管理:在多轮对话中管理对话状态与流程,确保对话的连贯性与上下文相关性。
函数调用(Func-LLM):执行复杂任务的功能性语言模型,如计算、数据检索或特定逻辑函数执行。
安全干预:识别与处理潜在安全问题,如隐私泄露、不适当内容等。
联网意图判断:判断并执行需要联网操作的请求,如Web搜索、在线购买等。
动态指令管理:解析用户输入中的指令,动态管理与执行这些指令以完成任务。
人设LLM模型:可能包含个性化的语言模型,根据用户喜好或系统设定模拟特定人物角色或个性。
情感化文本转语音输出:将文本输出转换为带有情感元素的语音输出,提升语音表达的自然度与情感丰富性。
而上述功能子模块的之间存在联动机制,具体流程拆解如下。
第一步:用户语音输入经语音识别模块转换为文本。第二步:规则分发模块接收文本并根据规则分发至其他模块。第三步:识别结果不清晰时,拒识模块介入要求用户重新输入。第四步:理解增强模块提升系统对输入的理解能力。第五步:意图判别与落域模块确定用户意图并决定响应领域。第六步:对话仲裁管理模块确保对话连贯性。第七步:需要执行函数时,调用Func-LLM处理复杂任务。第八步:安全干预模块全程监视安全风险。第九步:需要网络操作时,Web联网意图判断模块介入。第十步:动态指令管理模块执行与管理用户指令。第十一步:个性化或角色扮演,通过人设LLM模型实现。第十二步:最终处理结果通过情感化文本转语音输出模块以语音形式反馈给用户。
该架构通过集成语音识别、意图判别、情感化TTS输出等特定功能模块,实现了对复杂任务的高效处理。例如,语音识别促进了用户与系统的自然交互,情感化TTS输出则提升了用户体验的自然度与丰富性。此外,该架构通过精细的模块设计,展现出对不断变化需求与新技术挑战的灵活应对能力。
4 结束语
本文探讨了智能座舱的发展趋势,提出了一个基于LLM与智能体的智能座舱系统,并展示了云端实现架构的解决方案。这一架构不仅提升了智能座舱的功能性和个性化,还使其具备了自主性和适应性。未来,随着技术的不断进步,智能座舱将成为更加智能化、自主化和个性化的智能移动空间,为人们的出行带来更好的便捷性和舒适性。
Research and practice of intelligent cockpit based on large language model and agent
REN Xian, XUE Feng, FANG Yunfei, JIANG Zhonglin, CHEN Yong, TANG Wei
(Geely Auto Research Institute (Ningbo) Co., Ltd., Ningbo 315000, China)
Abstract: With the advancement and innovation of technology, automobiles are evolving from traditional mobile transportation tools to intelligent mobile spaces and even intelligent beings. Intelligent cockpit is the main entrance to human-machine interaction. Beyond integrating functionality and entertainment, the development of Artificial Intelligence (AI), particularly general AI, poses numerous requirements for the cockpit, such as autonomy, adaptability, and personalization. To meet these demands, this paper designs a intelligent cockpit system based on large language model and agent, and outlines the technical implementation path of this system through a cloud-based architecture. Starting from application scenarios within the cockpit, this paper constructs a highly intelligent cockpit system with autonomy, adaptability, and personalization.
Keywords: intelligent cockpit; large language model; agent; end-cloud binding
本文刊于《信息通信技术与政策》2024年 第12期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
期刊荣誉与收录情况
AMI(2022版)A刊扩展期刊
RCCSE中国核心学术期刊
入选中国科协信息通信领域高质量科技期刊分级目录
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!
推荐阅读

