Kort antwoord
AI-inferentie is het moment waarop een reeds getraind model wordt gebruikt. Het verwerkt een prompt, afbeelding, audiobestand of andere invoer en levert een resultaat op. Elk antwoord van ChatGPT, elke AI-afbeeldingsgeneratie of elk verzoek om een aanbeveling vereist rekenkracht voor inferentie.
Inferentie is AI-modeluitvoering
In de kunstmatige intelligentie (AI) betekent ‘inferentie’ het toepassen van een getraind model op nieuwe gegevens. Het model analyseert de invoer en levert voorspellingen, antwoorden of gegenereerde inhoud op. In tegenstelling tot training wordt het model bij inferentie geen nieuwe kennis bijgebracht. In plaats daarvan maakt het gebruik van eerder aangeleerde parameters om in realtime op gebruikers te reageren.
Training en inferentie zijn verschillend
Training bouwt het model op door het verwerken van enorme datasets over lange perioden met behulp van enorme hoeveelheden rekenkracht. Inference is de operationele fase waarin gebruikers interageren met het getrainde model. Training is meestal meer rekenintensief per gebeurtenis, maar inferentie gebeurt continu op globale schaal.
Inferentie vereist GPU's en gespecialiseerde hardware
Moderne AI-inferentie draait vaak op GPU's of AI-versnellers die geoptimaliseerd zijn voor parallelle verwerking. Grote taalmodellen kunnen een aanzienlijke geheugenbandbreedte en rekenkracht vereisen, vooral wanneer ze miljoenen gebruikers tegelijk bedienen.
Inferentie verbruikt elektriciteit
Elk inferentieverzoek verbruikt elektriciteit via computerhardware, netwerken, opslag en koelinfrastructuur. Naarmate het gebruik van AI wereldwijd toeneemt, worden inferentiewerkbelastingen een steeds belangrijker onderdeel van de wereldwijde vraag naar elektriciteit in datacenters.
Inferentie kan worden geoptimaliseerd
AI-aanbieders optimaliseren de inferentie voortdurend door middel van batching, kwantisering, modeldistillatie, caching en efficiëntere hardware. Deze technieken hebben als doel de latentie, het elektriciteitsverbruik en de operationele kosten te verlagen terwijl de kwaliteit van het model behouden blijft.
