简短回答
推理发生在已训练好的人工智能模型处理提示、图像、音频文件或其他输入以生成结果时。每个 ChatGPT 响应、人工智能图像生成或推荐请求都需要推理计算。
推理是人工智能模型的执行
在推理过程中,训练有素的模型会分析输入的数据,并生成预测或生成内容。与训练不同,推理不会向模型传授新知识。相反,它使用以前学习的参数来实时响应用户。
训练和推理是不同的
训练是通过使用海量计算长期处理海量数据集来建立模型。推理是用户与训练好的模型进行交互的操作阶段。训练通常对每个事件的计算密集度较高,但推理是在全球范围内持续进行的。
推理需要 GPU 和专用硬件
现代人工智能推理通常在 GPU 或为并行处理而优化的人工智能加速器上运行。大型语言模型可能需要大量内存带宽和计算能力,尤其是在同时为数百万用户提供服务时。
推理耗电
每个推理请求都会通过计算硬件、网络、存储和冷却基础设施消耗电力。随着人工智能在全球范围内的广泛应用,推理工作负载在全球数据中心电力需求中的地位日益重要。
可优化推理
人工智能供应商通过批处理、量化、模型提炼、缓存和更高效的硬件不断优化推理。这些技术旨在降低延迟、耗电量和运营成本,同时保持模型质量。
