Krótka odpowiedź
Inferencja AI to moment, w którym wykorzystywany jest już wytrenowany model. Przetwarza on polecenie, obraz, plik audio lub inne dane wejściowe i zwraca wynik. Każda odpowiedź ChatGPT, generowanie obrazu przez AI lub żądanie rekomendacji wymaga mocy obliczeniowej przeznaczonej na inferencję.
Wnioskowanie to wykonywanie modelu AI
W dziedzinie sztucznej inteligencji wnioskowanie oznacza zastosowanie wytrenowanego modelu do nowych danych. Model analizuje dane wejściowe i generuje prognozy, odpowiedzi lub treści. W przeciwieństwie do uczenia, wnioskowanie nie dostarcza modelowi nowej wiedzy. Zamiast tego wykorzystuje ono wcześniej wyuczone parametry, aby odpowiadać użytkownikom w czasie rzeczywistym.
Trening i wnioskowanie różnią się od siebie
Trening buduje model poprzez przetwarzanie ogromnych zbiorów danych przez długi czas przy użyciu ogromnych ilości obliczeń. Wnioskowanie to faza operacyjna, w której użytkownicy wchodzą w interakcję z wytrenowanym modelem. Trening jest zwykle bardziej intensywny obliczeniowo na zdarzenie, ale wnioskowanie odbywa się w sposób ciągły w skali globalnej.
Wnioskowanie wymaga procesorów graficznych i specjalistycznego sprzętu
Nowoczesne wnioskowanie AI często działa na procesorach graficznych lub akceleratorach AI zoptymalizowanych pod kątem przetwarzania równoległego. Duże modele językowe mogą wymagać znacznej przepustowości pamięci i mocy obliczeniowej, zwłaszcza gdy obsługują miliony użytkowników jednocześnie.
Wnioskowanie zużywa energię elektryczną
Każde żądanie wnioskowania zużywa energię elektryczną za pośrednictwem sprzętu obliczeniowego, sieci, pamięci masowej i infrastruktury chłodzenia. Wraz ze wzrostem popularności sztucznej inteligencji na całym świecie, obciążenia związane z wnioskowaniem stają się coraz ważniejszą częścią globalnego zapotrzebowania na energię elektryczną w centrach danych.
Wnioskowanie można zoptymalizować
Dostawcy AI stale optymalizują wnioskowanie poprzez batching, kwantyzację, destylację modeli, buforowanie i bardziej wydajny sprzęt. Techniki te mają na celu zmniejszenie opóźnień, zużycia energii elektrycznej i kosztów operacyjnych przy jednoczesnym zachowaniu jakości modelu.
