短い答え
AIの推論とは、すでに学習済みのモデルが実際に使用される瞬間を指します。推論では、プロンプト、画像、音声ファイル、その他の入力を処理し、結果を返します。ChatGPTの応答、AIによる画像生成、あるいはレコメンデーションのリクエストのすべてにおいて、推論処理のための計算リソースが必要となります。
推論はAIモデルの実行
AIにおいて、推論とは、学習済みのモデルを新しいデータに適用することを指します。モデルは入力を分析し、予測や回答、生成されたコンテンツを出力します。学習とは異なり、推論ではモデルに新しい知識を教えることはありません。その代わりに、以前に学習したパラメータを用いて、ユーザーに対してリアルタイムで応答します。
トレーニングと推論は異なる
トレーニングは、膨大なデータセットを膨大な計算量を用いて長期間処理することでモデルを構築する。推論は、ユーザーが訓練されたモデルと対話する運用段階である。トレーニングは通常、イベントごとに計算負荷がかかるが、推論はグローバル・スケールで継続的に行われる。
推論にはGPUと専用ハードウェアが必要
最新のAI推論は、並列処理に最適化されたGPUやAIアクセラレータ上で実行されることが多い。大規模な言語モデルは、特に数百万人のユーザーに同時にサービスを提供する場合、大きなメモリ帯域幅と計算能力を必要とします。
推論は電気を消費する
すべての推論リクエストは、計算ハードウェア、ネットワーク、ストレージ、冷却インフラを通じて電力を消費します。世界中でAIの導入が進むにつれ、推論ワークロードは世界のデータセンターの電力需要の重要な部分を占めるようになってきている。
推論を最適化できる
AIプロバイダーは、バッチ処理、量子化、モデルの蒸留、キャッシング、より効率的なハードウェアを通じて、推論を継続的に最適化している。これらの技術は、モデルの品質を維持しながら、レイテンシー、電力消費、運用コストを削減することを目的としている。
