目录
什么是人工智能数据中心?
人工智能数据中心是一种专门用于大规模运行人工智能工作负载的设施。与传统的虚拟主机基础设施不同,人工智能数据中心经过优化,可同时使用数千个 GPU 和加速器进行高性能计算。
这些设施为大型语言模型、人工智能图像生成、推荐系统、自主系统和科学人工智能应用等服务提供动力。包括 OpenAI、谷歌、微软、Meta 和 Anthropic 在内的公司都依赖于大规模的人工智能基础设施。
与传统云服务相比,现代人工智能工作负载需要巨大的计算密度、网络带宽和能源传输系统。
图形处理器和人工智能加速器
大多数现代人工智能系统都依赖 GPU,因为 GPU 在并行数学运算方面效率极高。人工智能的训练和推理涉及数十亿或数万亿次计算,这些计算可同时分布在许多处理核心上。
人工智能数据中心通常包含利用超高速网络技术连接在一起的高端加速器集群。这些 GPU 集群的规模可以从数十台机器扩展到数万台处理器协同工作。
随着人工智能模型的不断扩大和功能的不断增强,全球对先进加速器和专用人工智能芯片的需求也在不断增加。

训练与推理
人工智能基础设施支持两大类工作负载:训练和推理。训练涉及使用超大数据集和计算资源建立或更新人工智能模型。
推理发生在训练之后。这是用户与已部署的人工智能系统(如聊天机器人、助手、搜索系统或图像生成器)进行交互的过程。
训练会消耗大量的计算量,而推理则会产生持续的需求,因为每天可能有数百万用户与人工智能系统进行交互。
耗电量
人工智能数据中心需要消耗大量电力,因为 GPU 要在高计算负荷下持续运行。大型 GPU 集群可能需要兆瓦级的电力。
电力不仅被 GPU 本身消耗。网络设备、存储系统、冷却基础设施、备份系统和设施运行也需要电力。
随着全球人工智能应用的加速,人工智能基础设施的电力需求正成为能源供应商、政府和环境研究人员的重要课题。
冷却系统和用水
人工智能硬件使用的大部分电能最终都会变成热量。消除这些热量对于保持安全的工作温度和可靠的性能至关重要。
许多人工智能数据中心都依赖于使用冷冻水、蒸发冷却或液体冷却技术的先进冷却系统。水之所以常用,是因为它能高效地传递热量。
冷却基础设施已成为现代人工智能设施最重要的工程挑战之一,尤其是随着 GPU 密度的不断提高。
网络和存储
人工智能系统需要极快的网络速度,因为 GPU 在训练和推理过程中会不断交换大量数据。
存储基础设施同样重要。人工智能模型、数据集、检查点、日志和用户交互会产生大量信息,必须高效地存储和传输。
与大多数传统数据中心不同,GPU、网络、存储和冷却系统的组合创造了高度专业化的基础设施。
人工智能基础设施的未来
随着企业竞相部署功能更强的模型和服务,人工智能基础设施正在全球范围内迅速扩张。新的数据中心正专为人工智能工作负载而非传统云计算而建。
未来的人工智能数据中心可能会更加依赖液体冷却、可再生电力、优化的人工智能芯片和更高效的基础设施设计。
随着人工智能融入更多行业和服务,了解人工智能基础设施如何运作对于技术、能源和环境讨论将变得越来越重要。

