大模型上车:端云协同、以大训小|创新场景
本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。
长安汽车将于 2024 年三季度上市发布首款搭载长安大模型的长安启源 E07,而这一切的起源可以追溯到三年前——2021 年 8 月,在长安汽车科技生态战略大会上,长安汽车董事长朱华荣提出了“新汽车新生态”战略,新汽车开始写入长安汽车的未来版图。
作为长安汽车推进智能化战略 - 北斗天枢计划的战略承载体,重庆长安科技有限责任公司(以下简称“长安科 技”)着力于构建全新科技主体,以成为全球一流的智能电动数字解决方案商为愿景,通过以新技术使能新汽车,以新汽车繁荣新生态,助力长安汽车成为智能电动汽车产业链链长和原创技术策源地,向智能低碳出行科 技公司转型。
围绕长安汽车“创新创业 6.0”计划,建立新汽车、新生态,打造一流产品体验、一流核心技术、一流组织团队。自 2021 年成立的长安科技 AI Lab 聚焦研究“下一跳”的 AI 关键核心技术,对内沉淀 AI 关键核心技术和基础能力。AI Lab 通过三年建设,逐步扩大朋友圈,建立软件类新技术研究体系,持续产出新技术。改变合作模式,重新定位合作关系,构建长安软件全球朋友圈,实现合作的国际化。
基于 AI Lab,长安汽车与国内多所顶尖高校相继开展了人工智能合作项目,并在大模型成为技术新趋势后,与阿里云在大模型领域展开了深度合作。
新汽车战略与大模型初探
成立于 2021 年的长安科技 AI Lab,承载着长安汽车新汽车战略转型的 AI 科研目标,早期重点研究支撑核心算法的基本能力,构建核心认知、感知等基础能力团队。同时选择最成熟的领域进行产品孵化。与业界共建生态圈。
AI 汽车空调就是在此背景下长安科技 AI Lab 与国内高校开展的一个合作项目。在车内使用空调往往不需要考虑太多因素,但如果要在这一场景中为空调加入感知能力和认知能力,让车载空调变成一台智能空调,就需要考虑诸多因素。
智能空调是行业内首次提出的空调开关、温度设置、风量设置、吹风模式设置、内外循环模式设置的自动化,能满足 50% 以上用户的需求,进一步解放用户的双手。同时技术输出至场景大脑模型,对原有算法进行改进,指标有显著提升。基于安卓端的 PyTorch 应用部署,实现了 CD569 车机部署以及推荐并控制空调进行合理调整。
这是大模型在国内兴起之前,长安科技 AI Lab 在人工智能领域进行的尝试和探索。彼时,长安科技 AI Lab 已经在用人工智能技术做日志分析、知识提取等研究,并逐渐确立起了交互认知、决策认知、数据保障和数据安全四大研究方向。
随着技术的进一步发展,现在长安汽车的 AI 应用探索正在从语音大模型向多模态智能体(Agent)发展中,为了适应更多汽车行驶的真实场景,长安科技 AI Lab 实验室正基于智能空调升级开发等同于人类智力的基于大模型多感知 + 任务执行的高度智能交互多模态研究,实现自成长自闭环的座舱环境自适应智能空调。
但一个关键问题仍有待解决——究竟应该为团队制定一条怎样的技术路线?长安科技 AI Lab 副主任谢乐成回忆说,“我们当时基于 BERT 做认知方面的模型推理还很困难,用到自动驾驶上也有不小的偏差,在其他技术方向上也做了不少尝试做突破,直到 ChatGPT 的出现,为我们指明了技术路线。”
ChatGPT 正式发布时,背后基于的是 GPT-3.5 大模型,GPT-3.5 是 OpenAI 训练出的预训练大语言模型,参数量上千亿,是一个经过验证并行之有效的人工智能技术路线,正是看到这一技术的价值所在,谢乐成和他的团队快速聚焦,开始基于语音大模型构建垂直领域大模型,并实现座舱智能控制、智能交互等。
经过综合评估后,长安科技 AI Lab 更倾向于基于市面上成熟的基础通用大模型研发自己的汽车垂域大模型。同时,由于要适应云端、车端不同场景下对不同模型大小的需求以及可升级性考虑,长安科技 AI Lab 更多考虑的是开源大模型。早期是在 Meta 开源 LLaMA 后,基于 LLaMA 进行了大模型技术探索,随着国内一些主流大模型陆续开源,开始基于国内开源大模型做技术测试。阿里云是国内开源大模型之一,于 2023 年 4 月对外发布了通义千问大模型,同年 8 月在魔搭社区上线了 Qwen-7B 和 Qwen-7B-Chat 两个开源大模型,9 月 Qwen-14B 及其对话模型 Qwen-14B-Chat 也正式开源。当时,Qwen-14B 在多个权威评测中超越同等规模模型,部分指标甚至接近 Llama2-70B。
基于开源模型研发汽车垂域大模型和功能智能体,从体验效果、开源生态、可二次开发、支持全系列以及工具链开放程度几个维度综合评估后,其中阿里开源生态处于世界头部位置,长安科技 AI Lab 与通义系列大模型的缘分也由此开始。
大模型实践的长安之路
长安汽车的大模型技术策略,主要是构建长安包融性全球座舱交互 ( 星海 ) 大模型架构体系,以交互 ( 星海 ) 大模型为基础实现与车辆、环境、人强交互的车辆环境交互,同时引入生态合作伙伴的信源、智能体等。内部利用车端自有多输入源的车辆环境交互大模型实现 EDC 的强应用类的语音、导航、多媒体等场景;外部构建生态环境交互大模型为生态集成调度集成合作伙伴的多智能体和信源集成。
在工程化部署上来说,大模型端云协同的体系,恰好符合汽车智能化发展路径下的技术需要。
“行车过程中总会遇到网络状况不好的时候,当网络状况不好时,就容易出现延时、甚至中断,这会影响云侧大模型的整体使用体验,所以我们很早就在研究端侧 AI 算法,通过端侧 AI 算法去实现汽车的智能控制。”谢乐成表示。
基于这样的思路,长安汽车构建起了基于车机侧 AI 算力,探索将 1.8B 大模型、拒识模型、分发模型、车控模型、TTS 模型等在端侧进行部署,将通用基座模型、业务智能体、外部生态插件等在云侧进行部署,打造端云一体化高效协同体系。以解决据识、分发、快速控制、隐私安全等能力。
针对这一架构下的大模型应用,作为阿里云一直以来的核心客户,阿里云也派出了大模型团队和架构师团队与长安汽车进行了多轮深入探讨,为长安汽车提供了不少建议和支撑。
针对智能座舱这一典型应用场景,双方团队一致认为端云协同是一个必然趋势。尽管现在端侧部分算力还无法承载超大尺寸的大模型,智能座舱中的核心场景应用算法训练和推理依然需要依赖云端算力,但无论是基于对安全考虑,还是对实时性的考虑,端侧大模型会是诸如智能语音交互和智能控制场景下的一个重要能力补充, 大模型向车端进行部署也是未来的方向。
阿里云在大模型体系上既有 Qwen-plus、Qwen- Max 这样的云上大模型,也有 Qwen-7B、Qwen- 1.8B 等适用于端侧的大模型,云侧大模型用于通用能力的支撑,端侧大模型可以在端侧本地运行,无需网络连接,具有更快的响应速度。
也正是基于这一考虑,在 Qwen1.5 系列开源模型发布后,长安科技 AI Lab 尝试将其中参数规模最小的 Qwen1.5-0.5B-Chat 大模型作为端侧大模型在长安汽车上进行部署,探索端侧大模型为智能汽车带来的可能性。
而在模型策略上,长安汽车则选择以大训小,大小结合。Gartner 技术成熟度曲线指出,一项技术在刚出现时,往往会被寄予过高的期望。谢乐成和他的团队接触大模型后,希望它能直接应用到新汽车座舱的智能控制系统中。
但大模型依然存在模型生成的内容与事实或用户输入不一致的幻觉问题。谢乐成印象深刻的是早期一次夜间测试环境,由于不确定测试车辆上的大模型是否有大灯调节功能,他尝试通过语音指令让大模型将汽车大灯调高一些,这时,大模型直接控制车机关闭了汽车的近光灯。
对汽车的智能控制系统而言,需要精准理解人的意图并精准提供内容或执行操作,幻觉问题虽然是小概率事件,但在操作中仍然难以接受。长安科技 AI Lab 也基于当下大模型能力对其算法策略进行了调整,将云侧大模型作为智能控制系统的“兜底”技术。
例如,在驾驶场景,当驾驶员对车载空调发出指令“将空调开大点”时,由于传统智能语音系统无法理解“开大”该如何定义,在将大模型接入后,就可以先通过大模型判断用户发出的这个指令是否有歧义,如果有歧义,就可以与驾驶员进行再次确认——“是否需要 将空调的风量开大一些”或“是否需要将空调温度调低一些”,得到更明确的指令后,再通过端侧模型进行控制。
而具体到大模型的选型,在 Qwen1.5 发布四个月后,阿里云将开源大模型的版本升级到 Qwen2,长安科技便开始将 Qwen2-72B-Instruct 用到自己的大模型体系中。相比 Qwen1.5,Qwen2 实现了整体性能的代际飞跃,在数学,以及代码、逻辑推理、多语言能力上都取得了明显的提升。在各大基准测试中,Qwen2- 72B 一举斩获了十几项世界冠军,其性能大幅超越了著名的开源模型 Llama3-70B、Mixtral-8x22B。也正是因为在回答问题的准确度上的明显优势,通义大模型通过了谢乐成团队大范围的选型考验。除了大模型的升级,长安科技也联合阿里云大模型团队针对幻觉问题进行了多次联合技术调试,针对汽车座舱应用场景对大模型链路进行了一系列优化,进一步提升了大模型的理解 准确性。
与此同时,长安汽车通过使用大模型经过知识蒸馏后的小尺寸“大模型”,将部署在车端,这种策略也能大大提升车端运行大模型的迭代效率和响应速度。
由此,长安科技 AI Lab 一方面解决了大模型应用中的幻觉问题,提高了交互和控制的准确性,同时也基于端侧大模型降低了响应时延,提升了智能汽车的实际用户体验。
共创汽车产业的智能未来
2024 年 4 月 23 日,阿里云 AI 智领者峰会西安站上,谢乐成正式对外展示了长安科技 AI Lab 在汽车大模型领域的一系列重磅成果。
具体而言,长安科技 AI Lab 如今已经将大模型应用到了汽车的“智能交互”和“智能控制”两大场景,研发出了六大核心智能体——汽车专业问答智能体、通用 + 金融专业增强智能体、多模态可见即可说智能体、汽车场景语音编排智能体、复杂意图理解智能体、多模态智能推荐智能体。
所谓智能体(Agent),是指拥有感知、推理、决策、执行等多种能力的智能实体,它以大模型为核心驱动力,并通过记忆、规划和工具等组件分别实现信息存储、决策制定与反思总结、任务执行等功能,从而实现特定目标。
以智能座舱场景中应用频率最高的汽车专业问答智能体为例,长安科技团队早期在基于阿里云 Qwen 开源大模型研发汽车专业问答智能体时,在问答响应实时性和敏感问题响应表现上不及预期,在与阿里云团队深入交流后,长安科技一方面引入了在搜索响应实时 性更强的夸克搜索引擎,另一方面联合阿里云团队重构了长安科技汽车大模型的安全策略,通过阿里云内容安全产品提供图片、视频、语音、文字等多媒体内容风险检测的能力,识别并屏蔽风险和敏感话题,提升内容质量并进一步改善智能体回答技巧性,改善平台秩序和用户体验,最后才有了长安科技现在的汽车专业问答智能体。
而另一个值得一提的是汽车场景语音编排智能体。谢乐成认为,汽车场景语音编排智能体或将成为改变用户用车习惯,成为智能汽车的杀手级应用。
全场景语音可编排是长安科技 AI Lab 早在 2022 年就提出的概念,当时还没有大模型,业界更多是通过“拖拉拽”的方式来思考和构建这一功能,大模型出现后,基于大模型的理解和生成能力,结合智能体,能轻松实现各类能力模块调度和最终场景生成。在长安汽车发布会上的介绍显示,通过全场景可编排语音功能,基于长安汽车的原子化服务,帮助用户基于自身需求快速定制多个服务组合的应用,车内车外均可用语音控制音乐、空调、车窗、后备厢等相关功能开闭甚至调用各类生态应用,让用户成为车端场景定义的“设计师”。
同时,长安科技内部一边基于大模型进行技术研发,一边也在不断反思:大模型究竟还能带来什么?
长安科技最初是希望将尽可能多的控制能力接入到大模型中,如今,其对大模型的能力有了新的理解——大模型的理解能力和交互能力是它最基础的能力,而大模型为汽车产业带来的变革将不止于智能座舱,生态接入将会是接下来汽车大模型又一关键战场。
在互联网和移动互联网时代,重塑了人类生活方式的应用,如何借大模型之力把这些应用接入到智能汽车中,提升智能汽车的使用体验,是长安科技现在最关注的问题。在生态接入方面,长安科技正在与阿里云等团队进行进一步沟通,一起探讨如何借大模型之力将应用生态接入到的汽车中。
以上长安科技基于大模型研发的这些智能体,以及随着大模型一并接入到汽车上的应用生态,均有望出现在长安汽车今年第三季度即将发布的长安启源 E07 上。
谢乐成坚信,“大模型上车才是检验汽车厂商服务化是否在裸泳的标准。”而长安启源 E07 的发布,也将成为汽车产业进入大模型时代的一个全新起点。