目录
为什么 CPU 不足以满足现代人工智能的需求?
传统 CPU 的用途极为广泛,擅长执行各种计算任务。它们针对顺序运算、操作系统、商业软件、数据库和无数其他工作负载进行了优化。
人工智能则不同。训练和运行现代人工智能模型需要同时执行大量数学运算。这种类型的工作量很快就会让传统处理器不堪重负。
虽然 CPU 仍是人工智能系统的重要组成部分,但它们无法有效提供当今最大型模型所需的大规模并行处理能力。

并行处理的力量
GPU 最初是为渲染计算机图形而开发的。渲染图像需要同时对数百万像素进行类似的计算,因此并行处理至关重要。
人工智能工作负载具有许多此类特征。神经网络可执行大型矩阵运算,这些运算可同时在数千个处理内核上进行。
由于 GPU 包含的并行执行单元远远多于 CPU,因此 GPU 可以显著加速人工智能计算,同时提高整体效率。
训练大型人工智能模型
训练人工智能模型需要处理庞大的数据集,调整数十亿甚至数万亿个参数。这一过程需要大量的计算资源。
大型语言模型通常使用由数百、数千甚至数万个 GPU 组成的集群进行训练,这些 GPU 在一起工作数周或数月。
如果没有 GPU 加速,训练当今许多最先进的人工智能模型在经济上或技术上都是不切实际的。
推理也需要 GPU
许多人认为,只有在训练过程中才需要 GPU。实际上,推理也会消耗大量的计算资源。
每次用户提交提示、生成图像或与人工智能助手互动时,硬件都必须执行数十亿次计算才能做出响应。
随着人工智能应用的增长,要同时为数百万用户提供服务,往往需要分布在多个数据中心的庞大 GPU 机群。
公司为何部署数千个 GPU
领先的人工智能公司以超乎寻常的规模运营基础设施。大型部署经常涉及通过超高速网络技术连接的数千台加速器。
这些集群可以更快地训练人工智能模型,为更多用户提供服务,并在需求量大的情况下保持可接受的响应时间。
由此产生的基础设施投资解释了为什么 GPU 已成为人工智能行业最具战略意义的资源之一。
人工智能是否总是需要这么多 GPU?
未来的硬件几乎肯定会变得更加高效。专门的人工智能加速器、改进的软件优化和新的芯片架构可能会减少特定工作负载所需的硬件数量。
与此同时,人工智能模型不断变得更大、功能更强。不断增长的需求可能会抵消未来几代硬件实现的许多效率提升。
在可预见的未来,图形处理器和人工智能加速器仍将是全球人工智能生态系统的重要组成部分。

