100天加速度,阶跃星辰大模型“全家桶”首次亮相,万亿参数性能逼近GPT-4|直击WAIC 2024

要闻 2024-07-04 17:47:12
导读 如果有100天,你能学会做什么?AI效率工具“跃问”是这样告诉我的:利用100天的时间,可选择学会一门新的语言,如法语、西班牙语或日语;10...
2024-07-04 17:47:12

如果有100天,你能学会做什么?

AI效率工具“跃问”是这样告诉我的:利用100天的时间,可选择学会一门新的语言,如法语、西班牙语或日语;100天可学会一门编程语言,如Python;100天可学会演奏吉他、钢琴或小提琴等乐器;100天也可以学习绘画、摄影、视频制作、烹饪等等。

而跃问背后的缔造者“阶跃星辰”给出的答案是:从万亿参数规模以及多模态,到应用落地的大模型“全家桶”系列。

7月4日举行的2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,首次参展的阶跃星辰发布万亿级参数MoE(混合专家)大语言模型Step-2正式版,Step-1.5V多模态大模型,以及Step-1X 图像生成大模型。

不只是模型技术能力。同时在WAIC 2024期间,阶跃星辰还首秀与上影合作的AI互动体验,全面展示AI大模型的应用落地效果。

阶跃星辰创始人、CEO姜大昕认为,多模态理解和生成的统一是通向AGI(通用人工智能)的必经之路。模型参数量决定模型能力上限,Scaling Law 全面跨入万亿参数是通向 AGI 的另一核心,而通用大模型的能力决定了垂直领域大模型的上限。

随着新一轮 AI 技术革新浪潮席卷全球,越来越多的人认识到 AI 推动社会与经济发展中的巨大潜力,因此,作为国内领先的 AGI 公司,阶跃星辰正利用大模型技术和应用推动中国在全球 AI 领域的持续领先。

亮相100天,阶跃星辰“暴力”出万亿大模型奇迹

自计算机科学家图灵在20世纪50年代提出人工智能(AI)概念以来,这一领域便经历了数十年的技术迭代与沉淀。从最初的符号主义到后来的联结主义,再到如今深度学习的崛起,每一次技术的飞跃都为 AI 注入了新的活力。

2022年底,AI 聊天机器人ChatGPT的横空出世,就像是一场突如其来的盛夏大雨,以其前所未有的速度和影响力,迅速席卷全球,开启了 AI 的新纪元。

同时,这也让我们看到了生成式 AI 产业从青涩少年成长为壮年巨人的清晰轨迹。

2024年3月,成立不到一年的阶跃星辰带着Step-1千亿参数语言大模型,Step-1V千亿参数多模态大模型首次公开亮相,引发关注。

阶跃星辰创始人和 CEO 是前微软全球副总裁,微软亚洲互联网工程院首席科学家姜大昕博士,同时也是算法负责人。核心研发团队聚集来自微软、谷歌、字节、腾讯等公司的顶尖人才。公司以实现AGI为目标,专注研发通用大模型,基于自研通用大模型打造新一代“Ai +”应用,“智能阶跃,十倍每一个人的可能”。

时隔仅100天,阶跃星辰再度发力,推出万亿参数规模的大语言模型——Step-2正式版。

具体来说,阶跃星辰Step-2 万亿参数语言大模型正式版,采用MoE 混合专家模型架构,在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

阶跃星辰透露,其团队在设计 Step-2 MoE 架构时候选择迎难而上,采用创新算法架构,选择从头开始训练 MoE 模型,虽然训练难度高,但能获得更高的模型上限。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,让 Step-2 中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分普通的Dense模型。

“千亿参数的GPT-3.5模型是一个重要的分水岭。要达到 GPT-4 的万亿规模参数,各个维度的要求都上了一个台阶。训练万亿模型需要的算力集群,高效稳定的训练,高质量的数据,加上驾驭新颖的 MoE 架构。这里面有任何一个短板,Scaling Law就很难攀登上去。”姜大昕告诉钛媒体App。

因此,万亿参数的大模型当然需要大量的数据、算力训练。在 Step-2 训练过程中,阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术。

另外,此次阶跃星辰还发布全新Step-1.5V 多模态大模型,在多模理解和生成统一的技术路线上快速突破。

其中,相比此前的Step-1V,新的1.5V在感知能力、推理能力、视频理解能力等方面均有大幅升级。而且,Step-1X 图像生成大模型采用全链路自研的 DiT模型架构,包括600M、2B、8B(80亿)三种不同的参数量版本,提供给客户差异化和性价比选择。

比如这张具有中国元素的“上海东方明珠电视塔”,就是由Step-1X生成的。

值得一提的是,基于阶跃星辰Step系列通用大模型的技术创新和广泛的落地应用实力,阶跃星辰 Step 系列通用大模型荣获 WAIC 2024 SAIL 之星。

持续扩大商业化,大模型下半场争夺“第一梯队”

阶跃星辰不止提供超强的大模型能力和方案,应用落地层面也在持续扩大。

如果说ChatGPT引爆的2023年是世界发现生成式 AI 的一年。那么2024年,已经成为企业真正使用 AI 大模型和生成式 AI 技术并从中获得商业价值的一年。

作为新生产工具,AI 正融入社会生产各环节,在制造、医疗、教育、交通、农业等多个领域,人工智能已得到广泛应用,推动传统行业的转型升级和社会经济结构的变革。

数据显示,中国已经建成的2500多个数字化车间和智能工厂中,经过AI改造的工厂研发周期缩短了约20.7%、生产效率提升了约34.8%,大大提升了制造效率。另据世界经济论坛《2023年未来就业报告》估计,到2025年,自动化技术和 AI 在全球范围内将影响近40%的工作岗位。

今年3月,阶跃星辰团队公布了两款面向消费端的自研大模型产品——效率工具跃问和 AI 开放世界平台冒泡鸭,目前均已全面开放使用。

其中,钛媒体AGI用跃问提问“钛媒体是一家怎样的公司”、“上海有哪些标志性建筑”等问题,都可以得到逻辑清晰的回答。它不仅可以提供信息查询、语言学习、创意写作、图文解读等多样化服务,而且能够结合联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话,帮助用户在工作、学习、生活等各种场景下解决问题。而“冒泡鸭”则提供了探索故事、创作角色,沉浸属于自己的开放世界的产品。

除此以外,今年WAIC期间,正值《大闹天宫》制作完成60周年,阶跃星辰联合上影联合推出了一款AI互动体验,将最先进的 AIGC 和大模型技术与《大闹天宫》情境深度融合,用当代全新视角领略中国传统文化的魅力、回顾经典动画作品艺术成就,同时也为广大创作者打开无限的想象空间。

“我把模型和产品的关系比喻成灵魂和皮囊。大家一定听过一句话,好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望灵魂能更加有趣一点才能显示出产品的不同。”姜大昕今年3月对钛媒体AGI表示。

同时,阶跃星辰在内容创作、金融财经等领域与合作伙伴达成深度合作,共同探索面向C端用户的创新应用。同时,阶跃星辰还推出开放平台“繁星计划”,面向行业优秀企业与开发团队开放 API,共同加速 AI 在行业场景的应用落地与繁荣。

当前,中国拥有万亿 AI 产业规模、13亿人的参与,而且中国政府全面鼓励 AI+产业发展,促使中国在 To C 端的 AI 应用会比To B 端有更大规模效应。而阶跃星辰顺势而为,利用从头自研的万亿大模型技术实力,推动中国 AI 产业蓬勃发展。

无论是大模型技术、研发、人才,还是大模型落地应用、规模化回报,从3月首次亮相到今天,Step系列模型矩阵从万亿参数到多模能力取得全面进展,围绕阶跃大模型,逐渐形成丰富的产业应用生态圈,重点行业领先落地。

因此,阶跃星辰已经成为“中国大模型创业公司第一梯队”。

姜大昕曾向钛媒体AGI等坦言,ChatGPT是一个划时代的技术变革,大模型创业之路非常长。“我一定要自己下场,以最快速、最灵活、最全面的方式来投身到变革中去。”

(作者|林志佳,编辑|胡润峰)

免责声明:本文由用户上传,如有侵权请联系删除!