2025-06-04万象ai
在此基础上搭建的第二层为通用模型和专用知识库。通用模型提供强大的信息处理能力,专用知识库提供专业领域的深度和精准度,两者结合实现低成本、高效率地打造第三层智能体(小模型)。
随着一个个小模型参数量、数据结构复杂度等不断增加,就能逐步搭建起最顶层的操作程序,即大模型最终结构。
在华为昇腾计算业务CTO周斌看来,如今大模型的发展离不开三大定律。第一定律为Scaling Law,即尺度定律,模型的规模大小决定了模型的能力上限。目前来看,大模型表现出对模型规模的依赖性,随着计算量、数据量和参数量的提升而提升,而这一提升是可以预测的。
因此引出第二定律Chinchilla Law(龙猫定律),即在有限的计算资源下,寻找模型的参数量和数据量之间一个最优比例,模型大小和训练token的数量也应该以相等的比例进行扩展。
第三定律Emergent Abilities(涌现能力),是计算量达到一定阈值后才可能出现。目前测试数据显示,LLMs的“涌现能力”普遍出现在进行10的22次方浮点运算之后,在10的22次方至10的24次方之间能力成线性增长。
周斌认为,在大模型达到百万亿参数级之前,Scaling Law将持续奏效,此后,Gemini、sora这样突破百万tokens的超长序列将成为大模型主流标配。这就意味着,更大的模型+更多的数据+更多的计算才能让大模型从数据驱动走向算力驱动,形成下一代大模型。
“我们一直在规划下一代基础设施创新,以继续推动 AI能力越来越强大。”微软首席沟通官Frank Shaw曾表示,这意味着前所未有的投入、算力、能源等需求将为下一代大模型的发展带来诸多挑战。
从算力维度来看,训练单模型的算力规模呈现指数级别增长。从GPT-2到GPT-4,训练算力增加了3000~10000倍;过去十多年来,每年模型算力需求约增长3倍多;2027年前可能会出现价值百亿美元的单集群。不过,算力规模预计,指数级增长可能在2028年达到顶峰。
数据量方面,周斌现场展示了三组数据图,高质量语言数据存量40T Tokens ,预计2026年前耗尽;低质量数据可以支持到2040年左右;目前,图像数据集年增长率大约18%~31%,预计在2030年到2060年之间耗尽。
随着AI模型增大,单NPU/GPU芯片所需要的互联带宽快速增长,需求已经超过了传统交换芯片容量的增长速度;AI算力集群规模的增长加上单芯片互联带宽的增长,将互联网络的规模推向了新高,百万卡集群需近千万的互联端口,而因为能源供给等问题,也会进一步推高跨区域的DC互联带宽,这些都将成为下一代大模型基础设施建设的挑战。
周斌还表示,大模型训练是一个大型分布式全机应用,随着集群规模增加,故障发生间隔快速缩短,严重影响集群系统实际的可用计算时间,如何预测、检测、隔离和恢复系统故障,提升大模型训练的有效计算效率?这是大规模算力集群的另一个挑战。
智能手机的发展关键点是迎来了“iPhone时刻”,大模型走进大众视野的关键点是ChatGPT的横空出世,那么下一代大模型发展的新奇点会是什么?
“我们猜想是AI的研究自动化,可能会迎来智能爆炸时代。”周斌口中的AI研究自动化,即用AI来自动研究AI。在他看来,未来智能计算技术发展路径整体为摩尔定律延长线走向非冯架构(突破冯·诺依曼架构局限),再到新计算范式的兴起。
具体来看,是存、传、算、电、质五大方面的改变。计算介质由电子计算发展为量子计算,从近似计算发展为模拟计算;软件使能从混合精度变为AI OS;计算架构从对等架构变为存算一体架构;工艺工程的wafer scale尺寸将升级为M3D。在这些细节改变提升后,带宽、计算速度、计算能效、信息压缩等也能得到大幅提升,下一代大模型将拥有更强的智能计算能力。
对于如何打造下一代大模型,周斌认为,可以塑造一个新的模型结构,比如全连接基础上增加bypass路径,来提升大模型局部性计算的能力。目前,知识图谱、检索增强生成技术还处于一个早期状态,可以考虑制造通用大模型+领域大模型的混合模型,解决异构模型、小模型消费数据量少的情况。同时,将专业知识、物理和化学模型、生物和认知行为以及社会科学等机理融入到AI能力中。使大模型在线学习能力、强化学习能力可以持续演进。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜/热门榜