对话上海交大重庆AI研究院齐鹏团队:目前大模型水平只相当于一个五岁孩童
近期,一则关于“大模型测不出9.11和9.9哪个大”的消息引发讨论。
当用户问包括GPT-4o在内的国内外12款 AI大模型“9.11和9.9哪个更大”这样一道小学生难度的数学题,最终结果中,竟然只有阿里通义千问、百度文心一言、Minimax和腾讯元宝4个答对,而ChatGPT-4o等8款大模型给出了错误的答案。
这意味着,大模型的数学能力较差,存在诸多问题亟待解决。
早前与钛媒体AGI独家对话时,上海交通大学重庆人工智能研究院(沪渝人工智能研究院)AI大模型中心主任齐鹏博士表示,尽管大模型潜力巨大,能处理复杂问题并具备学习泛化能力。但大语言模型可能由于模型架构限制,更像是“文科生”,缺乏理科能力。而且目前受限算力不足、文本数据不足、精确度和可靠性有偏差以及模型规模不够大等问题,其智能水平仍在孩童级别,更像是一个“五岁的小孩”,难以处理复杂任务,“幻觉”长期存在。
齐鹏本硕毕业于清华大学,并在美国威斯康星大学完成博士学位,现任职于上海交大重庆人工智能研究院。齐鹏多年深耕数据科学、AI 等领域,参与多个国家级科技课题,拥有多项知识产权。
随着ChatGPT风靡全球,过去一年多时间,齐鹏带领上海交大重庆人工智能研究院AI大模型中心团队,自主研发“兆言”大语言模型,并在今年3月SuperCLUE中文大模型智能体评测基准中位列全球第三、国内第二。
与此同时,今年7月,齐鹏带领上海交通大学博士生庄少彬等人参加开源社区项目成功复现了类Sora文生视频模型,采用先进的Latte时空解耦注意力架构,经过精心训练,能够在InternVid视频数据集上生成长达16秒(128帧)的视频,相比之前开源模型仅能生成3秒(24帧)视频,性能提升了5倍(500%)。
7月12日,齐鹏、庄少彬二人与钛媒体进行约2小时的独家对话,围绕Sora发展现状以及大模型的发展所面临的挑战、行业落地情况,以及未来的发展方向等话题展开对话。
谈及Sora技术带来的影响,齐鹏对钛媒体AGI表示,Sora更像一个新“锤子”,能够解决多种问题。Sora文生视频模型在视频生成之外,还能在自动驾驶、物理世界模拟等多个领域发挥作用。而最直观的应用就是视频生成,用户只需输入文字描述,就能快速生成符合要求的视频内容,提高了视频制作的效率和便捷性。
谈到行业落地,齐鹏指出,大模型在多个垂直行业都有广泛的应用,但真正落地的案例却相对较少。主要原因有两点:一是大模型的数学能力和工程能力的不足;二是大模型作为机器学习范畴的一部分,其基于统计方法的本质决定了它无法做到100%的正确度。
展望未来AGI发展,齐鹏强调,人类社会正处于通往AGI的关键时期。尽管当前模型能力没有达到AGI标准,但将来某一天,人们回顾这段历史时,可能会意识到,ChatGPT让我们正站在一个重要的历史节点上。
“研究院的一个重要目标是实现技术的商业化落地,大模型中心目前专注于AIGC的落地应用,特别是‘最后一公里’问题,如何将研究成果转化为实际的产品或服务,以满足市场需求。尽管大模型智力可以不断提升,从五岁、十岁到十八岁,甚至达到顶级专家的水平,但这样的系统永远需要配套的设施和工具来支持其运行和应用。设施研发成本可能相对较低,但它们在推动大模型的实际应用和社会价值方面起到至关重要的作用。”齐鹏表示。
上海交通大学重庆人工智能研究院AI大模型中心主任齐鹏博士
以下是钛媒体AGI与齐鹏、庄少彬的对话整理:
钛媒体AGI:相比其他视频模型,此次上海交通大学重庆人工智能研究院联合研发复现类Sora文生视频模型核心差异点是什么?
齐鹏:这个项目是由庄少彬博士带领团队研发的。团队选择使用全开源的数据进行模型训练。团队不仅开源了数据,还公开了训练流程。这样,其他研究者或开发者可以根据相同的步骤和参数设置,在自己的环境中重现模型的训练过程,验证模型的有效性和稳定性。
核心差异点主要表现在三方面:
第一,团队使用全开源数据进行模型训练意味着整个训练过程是基于公开可访问的数据集进行的。这样的方式可以保证了训练过程的透明度和可重复性,任何有兴趣的人都可以使用相同的数据集来复现或改进模型。
第二,团队采用了间接式的训练方式,这种方式能够在较低的计算成本下高效地训练出模型。这种方法适用于大规模数据集和复杂模型,因为它们需要更长的训练时间和更高的计算资源。通过使用间接式训练,可以在不增加单个计算节点算力成本的前提下,通过增加计算节点的数量来缩短训练时间。
第三,团队还进行了一些底层的优化工作,特别是针对显存开销的优化。这些优化可以使模型能够在集群或服务器上稳定地进行长视频的训练,提高了模型的训练效率和可扩展性。
钛媒体AGI:选择开源模式的背后逻辑和原因是什么?
齐鹏:与商业化项目不同,团队和开源社区合作的研究类项目采用开源模型的优势是能够吸引更多研发人员的参与。由于没有版权和商业化的限制,任何对这个项目感兴趣的人都可以轻松地获取和使用模型,可以提出自己的改进意见或贡献新的代码。这种模式可以帮助模型的持续改进和优化,还可以加强跨学科、跨领域的交流与合作。
钛媒体AGI:这款复现的类Sora视频模型采用Latte时空耦合注意力架构,没有与DiT架构产生联系的原因是什么?
齐鹏:团队研发类Sora模型架构并不是完全摒弃了Transformer或其他传统模型,是在DiT的基础上进行了扩展,加入了时间维度以支持视频处理。这种新架构的考量可能是为了更好地适应视频数据的特性,提高模型在视频生成或处理任务上的性能。
钛媒体AGI:DiT架构在生成长视频方面存在限制,而Latte时空耦合注意力架构是否能解决这些问题?
庄少彬:目前团队正在训练的最好模型能够生成最长16秒的视频。这相较于之前基于unet架构的模型已经有了很大的进步,因为那时的模型通常只能生成两到三秒的视频。16秒并不是特别长的时长,但在目前在视频生成领域已经是一个相对较长的记录了。
视频生成中连续性和连贯性的问题,这主要受到数据质量的影响。如果视频数据中存在画面跳变等不连贯的情况,那么训练出来的模型也很可能会生成不连贯的视频。此外,模型训练时的帧率和分辨率对视频生成质量的影响。如果模型只训练在较低分辨率和帧率的数据上,那么它可能无法生成高分辨率和流畅的视频。
为什么无法端到端生成一两分钟长度的视频?端到端的一两分钟的视频意味着上千帧甚至两三千帧的数据,这需要上百上千倍的计算资源消耗。虽然Latte时空耦合注意力架构在理论上可以扩展到这样的时长,但目前还没有机构拥有足够的算力和数据来支撑这样的训练。
钛媒体AGI:目前来看,Sora到底谁在用?解决哪些问题?带来哪些价值?
庄少彬:在C端,对于非专业的视频制作者,如普通家庭用户,Sora这类视频生成模型能够极大地降低视频制作的难度。用户只需简单输入文字描述,即可生成精美的视频内容,从而更容易地参与到视频创作中来。
在B端,对于专业的视频剪辑师和创意人员,Sora能够生成复杂的、或者一些天马行空的视频素材。专业人员可以在模型提供的素材基础上进行微调和优化,从而提高了工作效率和创作质量。
Sora不仅仅用在视频制作上,在自动驾驶、3D生成与建模、物理学研究等多个领域也有一系列的探索。自动驾驶系统需要准确预测周围物体的动态变化,而Sora作为“世界模拟器”,能够模拟和预测物体的运动轨迹,为自动驾驶系统提供更为精准的环境建模。
例如在自动驾驶领域,特斯拉的自动驾驶方案以及类似的高级驾驶辅助系统在技术上已经取得了显著的进步,它们能够实时感知周围环境,包括车辆、行人、障碍物等,这是实现自动驾驶的基础。Sora帮助自动驾驶系统提前做出决策,避免潜在的危险情况,如碰撞、追尾等。同时,通过预判物体的移动,系统还可以优化行驶路线和速度,提高交通效率,减少拥堵和排放。
总的来说,Sora降低了视频制作的门槛,使得更多人能够参与到视频创作中来,无论是C端的非专业用户还是B端专业视频制作者都能从中受益。
齐鹏:Sora更像一个“锤子”,一种新工具,能够解决多种问题的工具。Sora文生视频模型在视频生成之外,还能在自动驾驶、物理世界模拟等多个领域发挥作用。最直观的应用就是视频生成,用户只需输入文字描述,就能快速生成符合要求的视频内容,提高了视频制作的效率和便捷性。
很多时候,技术的发展并不是为了解决某个特定问题而进行的,而是在研究过程中意外发现了强大的解决方法。这种方法一旦成熟,就能够广泛应用于多个领域,解决一系列问题。
目前,Sora仍处于测试阶段,并未广泛公开使用。在中国,可能有一些内测或外测版本的应用案例,但数量相对较少,且主要限于生成短小的视频或电影片段。由于这是测试版,很多情况下可能是免费提供的。如果未来开始收费,成本也是当前视频制作费用的很小一部分,比如几百元,从而极大地降低视频制作的成本。
钛媒体AGI:团队在做Sora模型研发过程中遇到哪些挑战?如何克服这些挑战?
齐鹏:这个项目主要是和开源社区合作的,主要的研发工作是由庄少彬博士和一、两名研发人员合作进行的。项目整体被分为了四个组,分别负责数据采集与打标、模型训练、模型评测以及训练提速和机器优化。
庄少彬:在模型训练过程中,团队面临的最大挑战是计算资源不够。特别是在处理大规模数据和复杂模型时,对计算资源的需求非常高。为了更高效地利用有限的机器资源,项目组的算法团队进行了大量的优化工作。
这些优化包括模型并行、流水线并行等高级优化策略,以及针对单个模型的显存优化。
此外,团队还针对视频领域进行的优化,这样可以使项目有明确的应用场景和目标领域,更好满足项目的实际应用需求。
钛媒体AGI:之前上海交通大学重庆人工智能研究院还与乡村振兴(重庆)研究院发布了乡村振兴农业大模型“兆言·兆丰”,为何要开发这种模型?
齐鹏:重庆作为唯一一个有农村场景的直辖市,为农业大模型的应用提供了丰富的场景和广阔的空间。乡村振兴大模型利用了海量的网上数据和农科院的农业数据,这些数据为模型的构建和训练提供了基础,能够更准确地反映农业生产的实际情况。目前,此项目是与政府机构、乡村振兴(重庆)研究院等多方联合开发的。这种合作模式有助于整合资源、技术和资金,共同推动农业大模型的研发和应用。
乡村振兴大模型计划打造14款,目前已有3-4款相关产品,通过大模型将专家的知识转化为可普及、易理解的信息,解决农业生产、管理和民生中的问题,帮助农业从业者能够像城镇居民一样方便地获取和使用农业知识,助于缩小城乡之间的信息差距,提高农业生产的效率和效益。
钛媒体AGI:现阶段,大模型技术的发展瓶颈是什么?
齐鹏:首先,明确团队对大模型的定义是什么,是大语言模型。大语言模型是主流,核心在于知识和逻辑。随着大语言模型的不断发展,其智能水平可能会从五岁小孩的智商逐渐提升到十岁、十八岁甚至超人的水平。这一过程主要依赖于模型对知识和逻辑的掌握和应用。
与大语言模型不同,文生视频模型是大模型的另一条线,不涉及复杂的知识和逻辑,而是更侧重于对物理世界规律的理解和模拟。文生视频建模这类模型能够基于感知和经验来预测和应对物理世界的变化,但缺乏高层次的逻辑理解和知识总结能力。
此外,还有多模态模型,这类模型能够将文字、图像、声音等多种信息形式进行编码并统一处理。多模态模型是未来的发展方向之一,它能够更全面地理解和处理现实世界中的复杂信息。
目前,大模型目前进入平台期,在智能水平上好像难以实现质的飞跃。我们还是相信更大的模型往往能处理更复杂的问题,具有更强的学习和泛化能力。一旦有一个模型能够达到99.9%正确率,那么这种大模型将成为一种全新的生产力工具,能够胜任各种任务。
大模型的发展存在算力不足、文本数据不足、精确度和可靠性有偏差以及模型规模不够大等问题。这样,使大模型“智商”还不够高,更像一个五六岁小孩智商的水平,大模型的处理复杂任务的能力有限,无法达到人们期望的程度。
其次,由于大语言模型架构限制,大模型有点像“文科生”,它对语言的处理非常好,但是做数学、工程就就不太行。可以把大模型比作企业的“CEO或COO”。这个“CEO或COO”,虽然可能对技术不太懂,但能够调动各种高技术的组件。
同时,国内的大厂和初创企业在发展大模型遇到的的困境,主要是因为投入成本巨大,而商业化又不足以支撑算力和数据持续的投入。
如果大模型的智能水平无法在短时间内实现显著提升,那么发展应用便成为了一个可行的选择。现阶段的大模型发展,客户需要在不同应用场景实践中探索和提升。通过应用商业化,可以产生收入,进而支撑大模型的持续发展和优化。这既保证了项目的经济可持续性,也为未来的技术创新提供了可能。
此外,大模型企业还可以通过融资来支持项目的发展。不过融资并非易事,需要看市场是否认可项目的潜力和价值。
钛媒体AGI:市场对大模型热情很高,但落地应用推进缓慢,与市场期待有误差,为什么大模型应用推进缓慢?
齐鹏:原因有两点:
第一,当前技术能力不足导致提升有限,降低了主动升级的积极性;
第二,新技术的应用需要新的硬件和算力支持,但各个企业准备不足,缺乏足够的机房和智能算力资源来部署和运行大模型,使得大模型落地到垂直行业变得困难重重。第二个问题其实可以通过相应政策解决,如果企业可以信任政府投资的研究院或者算力中心对于数据安全的保证,就可以在建设自己的智能算力机房前开始大模型解决方案开发。
大模型,尤其是那些能够生成高质量文本、图像等内容的模型,通常需要大量的计算资源来运行。例如100万用户同时使用大模型时,每年的算力成本可能会上亿,难以商业化。对于普通用户来说,这样高成本大模型应用产品可能难以承受,这也限制了C端应用的推广。
现阶段,解决方案可能包括采用更高效的算法、优化模型结构以减少计算量,或者利用云计算等分布式计算资源来分摊成本。
而当前大模型的智能体在某些方面还像是一个“五岁的小孩”,存在“智商”不够高,发挥不稳定、容易产生幻觉等问题,这严重影响了用户体验和信任度。这些问题需要高准确性的应用场景,如政府或金融客服场景中是不可接受的。即便是在一些对准确性要求不那么高的咨询或运维领域,当前的准确率如80%或60%也还未达到广泛应用的临界点。
提高智能体的性能和稳定性需要不断优化算法、增加训练数据的多样性和数量、引入更复杂的模型架构等。同时,也需要加强实时监控和错误处理机制,以确保大模型在复杂环境下的稳定性。
图像识别是多模态大模型应用中一个非常重要的领域,在预训练模型基础上,可以以极低成本开发新图像识别模型,覆盖众多长尾场景,具有较大的市场潜力。尽管图像识别有很多应用场景,但当前的图像识别大模型仍然有精度低的问题,同时算力要求也相对较高。
此外,由于之前一代的人工智能,在图像理解方面已经做得相对成熟,人们对大模型能够产生的额外价值还没有完全接受,这也影响了其推广速度。
钛媒体AGI:如何看待当前垂直行业大模型的产业创新,为什么落地的垂直行业案例很少?
齐鹏:在垂直行业落地方面,以制造业的人形机器人为例,人形机器人要达到家庭可用的程度,可能还需要五到十年的时间,这主要是因为它们在软件上的泛化能力尚不足够,同时硬件方面也需要进一步的研发和完善。
更实际的研究方向,就是专注于制造业场景中的机械臂泛化问题。虽然机械臂本身已经非常成熟,并且在市场上被国内外的主要制造商所占据,现有的机械臂缺乏足够的泛化能力,它们不能灵活地适应多种不同的工作任务。这导致在实际应用中,每当需要机械臂执行新的任务时,都需要进行重新的编程,这在任务频繁变化的情况下是不切实际的。
解决机械臂泛化问题的关键在于软件开发,特别是那些能够使机械臂处理更广泛场景的软件。预计在一两年之内,通过软件的优化和开发,机械臂的泛化能力将能够得到显著提升。
当然,要实现机械臂的泛化能力这一目标需要面临一些挑战,就是数据的不足。为了训练出能够处理多种场景的机械臂,需要大量的高质量数据来支持算法的学习和优化。
其实,大模型在制造业中可以作为一种智能体,能够整体地调用不同的软件。意味着,在制造业的复杂系统中,原本需要人工操作或编程连接的各种软件,现在理论上可以通过大模型来实现自动化的调用和整合。
用户只需通过语言或想法与大模型交互,大模型便能自动执行相应的程序,完成各种任务。但由于不同制造业公司的生产环境、系统和API各不相同,大模型在不同场景下的适配性成为一大挑战。即使在一个场景中调优得很好的大模型,换到另一个环境也可能无法正常工作。因此,企业开发者需要针对具体场景进行精调,以提高大模型的性能和精度。
这一限制直接影响了大模型在制造业中的广泛应用和深入发展。因为制造业往往涉及高度复杂和精细化的操作,需要高精度的计算和控制。如果大模型无法胜任这些任务,那么它就无法在制造业中发挥出应有的潜力。
除了大模型自身的能力限制外,系统间的兼容性问题也是制约大模型在制造业中应用的一个重要因素。不同公司或生产单位可能使用完全不同的系统,包括不同的软件、硬件和API。这使得大模型在一个场景下调优后,很难直接应用于另一个场景,因为两个场景的系统环境可能截然不同。这种系统间的差异性增加了大模型在制造业中应用的复杂性和成本。
其实有一种解决的办法。针对制造业或者金融、零售等垂直行业,可以定义标准化大模型的接口。这些接口将明确大模型能够提供的具体能力,使得所有系统都能够通过这些接口来调用大模型的功能。这样做的好处是,无论系统环境如何变化,只要它们遵循这些标准化的接口规范,就能够与大模型进行无缝对接。
所以,通过定义标准化的接口,企业开发者可以大大降低大模型与不同系统之间的匹配难度,使得大模型能够更加快速地适应不同的生产环境。标准化的接口有助于确保大模型能够在各种系统中稳定运行,减少因系统差异而导致的兼容性问题。
总的来说,大模型在多个垂直行业都有广泛的应用,但真正落地的案例却相对较少。主要是是两方面的原因:一是数学能力和工程能力的不足,大模型在实际应用中难以达到足够的精度和稳定性。二是大模型本身作为机器学习范畴的一部分,其基于统计方法的本质决定了它无法做到百分之百的正确。
其实,人类的大脑结构也不是百分之百精确,但人的判断往往足够精确,能够满足大多数实际场景的需求。相比之下,大模型即使经过训练,其精确度可能仍停留在95%左右,这在某些对精度要求极高的场景中可能不够用。此外,大模型的数学能力相对较差,也限制了其在某些领域的应用。
如果想克服这些限制,需要意识到大模型配套设施的重要性。通过为大模型提供必要的配套设施和工具,可以弥补其数学和工程能力上的不足,从而使其更好地适应实际应用场景的需求。这种配套设施可能包括更精确的数据集、更高效的算法、更稳定的硬件平台等。
钛媒体AGI:为什么大模型会产生幻觉?
齐鹏:有时候是由于原始数据本身缺失或者存在问题,大语言模型在训练过程中无法学习到正确的知识,因此无法做出正确的推断。这种错误不是由于大语言模型本身的缺陷造成的,而是由于输入数据的不准确性。
如果在一个假设的、所有信息都指向错误结论的环境中训练大模型,那么这个大模型也会基于这些错误的信息做出错误的判断。这强调了数据和环境对智能体和大模型性能的重要影响。
有时候大模型可能会生成看似有逻辑、有思想但实际上并不真实或准确的响应。这类似于5岁小孩经常会信誓旦旦的描述一些错误的记忆。
成人在处理信息和记忆时也经常出现幻觉或记忆错误。例如在庭审记录、案件分析时候,当事人在非常严肃和重要的场合下,也可能因为各种压力、误导性信息等而产生错误的记忆或幻觉。
钛媒体AGI:国内外大模型市场环境的差异化体现在哪里?
齐鹏:目前,国外在提升技术方面仍然保持着较强的信心,并没有完全转向应用发展。这可能与国外市场相对较为成熟和稳定有关,使得企业能够有更多的资源和空间来专注于技术研发和创新。相比之下,国内市场则面临着更为激烈的竞争环境,大部分大模型底座研发企业已经大规模转向应用。
国内市场的竞争不仅体现在企业数量上,还体现在价格战上。由于多家企业同时提供类似的服务,导致大模型的价格迅速下降,这使得企业难以通过提供服务来收回成本。而在国外,以ChatGPT为代表的企业能够凭借其在技术上的领先地位和市场认可度,持续获得收入并用于进一步的研发和创新。
在国内市场,由于价格战的激烈和付费意愿的相对较弱,企业可能不得不将更多的精力放在开发新的应用上,以寻求商业化的突破。这种策略虽然能够在一定程度上缓解企业的经济压力,但也可能导致企业在技术研发上的投入不足,从而影响其长期的竞争力。
钛媒体AGI:未来AGI发展方向有哪些?
齐鹏:我认为,人类社会正处于通往AGI的关键时期。尽管现阶段业界认为某些技术或模型没有在通向AGI的正确道路上,认为这些技术或者模型不属于AGI。但将来某一天,我们回顾这段历史时,可能会意识到我们正站在一个重要的历史节点上。
以特斯拉的自动驾驶技术为例,五年前人们可能还认为L4级别的自动驾驶技术需要一二十年才能实现,但现在这一技术已经取得了显著的进展。这种偶然性的进步让业界可以相信,真正的AGI也可能在不经意间就实现了。
庄少彬:AGI的理想状态是什么?AGI应该不仅具备高阶的思维能力,更重要的是能够应用于实际生活中,特别是在产业界。
目前,人们已经看到了很多机器人和AI技术在实体设备上的应用,这表明人们正在努力将AI技术从计算机中解放出来,转变为有形的、能动的实体。这一跨越对于AI技术来说是非常重要的,只有在实际应用中,AI才能创造出更大的价值。
钛媒体AGI:除了DiT这条路线之外,AGI的发展是否还存在其他可能的路线或策略?AGI的实现路径是什么?
齐鹏:在AGI发展过程中,人类需要有一种多元和包容的态度。如果把AGI比作一个班级中不同成绩的学生作业,尽管学生们的能力有所差异,但都能完成一些最基本的事情。类似地,即使各架构在性能上存在差异,但它们都能完成一些基本任务,只是在高难度任务上能力有所不同。
尤其是,在大量数据和算力的支持下,不同的架构可能会通过增加参数量等方式来提升其基础能力,使得它们都能表现出一定的水平。同时,当前大模型领域也有一些新的趋势,如线性注意力机制等优化方法,这些方法旨在减少传统Transformer模型的计算量,提升效率
对于AGI的最终实现路径,其实没有一条固定的路线,目前的各种模型和技术都有其优点和局限性。在AGI的发展过程中,需要多种架构和技术的不断探索和融合。不同的架构和技术都会在这个过程中为AGI提供重要的参考和借鉴,推动其不断向前发展。同时也需要关注模型的实用性和自我修正能力。
钛媒体AGI:国内大模型领域研究创新与商业化落地之间如何进行平衡?
齐鹏:在创新研究方面,由于资金有限,研究院需要明确自己能够努力达成的目标,而不是盲目追求那些需要大量资源的项目,如百度等大公司才能承担的大语言模型。
其次,研究院团队要选择可以通过一定努力可以实现的、具有实际价值的研究项目。例如,团队研发的基于Latte时空耦合注意力架构的类Sora模型,以16秒高清视频生成为例,这是研究院在现有资源下可以努力达成的目标。同时,研究院也需要选择一些可能需要较少资源的研究方向,如模型优化或配套应用等。
在商业化落地方面,研究院应该专注于AIGC的落地应用,特别是“最后一公里”的问题。这就意味着研究院需要关注如何将研究成果转化为实际的产品或服务,以满足市场需求,实现商业化落地。
尽管大模型的智商可以不断提升,从五岁、十岁到十八岁,甚至达到顶级专家的水平,但这样的系统永远需要配套的设施或工具来支持其运行和应用。这些配套设施的研发成本可能相对较低,但它们在推动大模型的实际应用和社会价值方面起着至关重要的作用。
因此,国内AI领域的研究机构团队应该主要专注于这些配套设施的研发,以支持大模型的运行和落地应用。