什么是人工智能推理？

简短回答

推理发生在已训练好的人工智能模型处理提示、图像、音频文件或其他输入以生成结果时。每个 ChatGPT 响应、人工智能图像生成或推荐请求都需要推理计算。

在推理过程中，训练有素的模型会分析输入的数据，并生成预测或生成内容。与训练不同，推理不会向模型传授新知识。相反，它使用以前学习的参数来实时响应用户。

训练是通过使用海量计算长期处理海量数据集来建立模型。推理是用户与训练好的模型进行交互的操作阶段。训练通常对每个事件的计算密集度较高，但推理是在全球范围内持续进行的。

现代人工智能推理通常在 GPU 或为并行处理而优化的人工智能加速器上运行。大型语言模型可能需要大量内存带宽和计算能力，尤其是在同时为数百万用户提供服务时。

每个推理请求都会通过计算硬件、网络、存储和冷却基础设施消耗电力。随着人工智能在全球范围内的广泛应用，推理工作负载在全球数据中心电力需求中的地位日益重要。

人工智能供应商通过批处理、量化、模型提炼、缓存和更高效的硬件不断优化推理。这些技术旨在降低延迟、耗电量和运营成本，同时保持模型质量。