Kort antwoord
Inference vindt plaats wanneer een reeds getraind AI-model een prompt, afbeelding, audiobestand of andere input verwerkt om een resultaat te genereren. Voor elk ChatGPT-antwoord, elke AI-afbeelding die wordt gegenereerd of elk aanbevelingsverzoek moet inference worden berekend.
Inferentie is AI-modeluitvoering
Tijdens inferentie analyseert een getraind model binnenkomende gegevens en produceert het voorspellingen of gegenereerde inhoud. In tegenstelling tot training leert het model bij inferentie geen nieuwe kennis. In plaats daarvan gebruikt het eerder geleerde parameters om in realtime op gebruikers te reageren.
Training en inferentie zijn verschillend
Training bouwt het model op door het verwerken van enorme datasets over lange perioden met behulp van enorme hoeveelheden rekenkracht. Inference is de operationele fase waarin gebruikers interageren met het getrainde model. Training is meestal meer rekenintensief per gebeurtenis, maar inferentie gebeurt continu op globale schaal.
Inferentie vereist GPU's en gespecialiseerde hardware
Moderne AI-inferentie draait vaak op GPU's of AI-versnellers die geoptimaliseerd zijn voor parallelle verwerking. Grote taalmodellen kunnen een aanzienlijke geheugenbandbreedte en rekenkracht vereisen, vooral wanneer ze miljoenen gebruikers tegelijk bedienen.
Inferentie verbruikt elektriciteit
Elk inferentieverzoek verbruikt elektriciteit via computerhardware, netwerken, opslag en koelinfrastructuur. Naarmate het gebruik van AI wereldwijd toeneemt, worden inferentiewerkbelastingen een steeds belangrijker onderdeel van de wereldwijde vraag naar elektriciteit in datacenters.
Inferentie kan worden geoptimaliseerd
AI-aanbieders optimaliseren de inferentie voortdurend door middel van batching, kwantisering, modeldistillatie, caching en efficiëntere hardware. Deze technieken hebben als doel de latentie, het elektriciteitsverbruik en de operationele kosten te verlagen terwijl de kwaliteit van het model behouden blijft.
