TheAImeters Logo

Wat is AI-inferentie?

AI-inferentie houdt in dat een getraind AI-model wordt toegepast op een nieuwe prompt, afbeelding of invoer, zodat het een antwoord, voorspelling of gegenereerde output kan produceren.

Kort antwoord

AI-inferentie is het moment waarop een reeds getraind model wordt gebruikt. Het verwerkt een prompt, afbeelding, audiobestand of andere invoer en levert een resultaat op. Elk antwoord van ChatGPT, elke AI-afbeeldingsgeneratie of elk verzoek om een aanbeveling vereist rekenkracht voor inferentie.

Inferentie is AI-modeluitvoering

In de kunstmatige intelligentie (AI) betekent ‘inferentie’ het toepassen van een getraind model op nieuwe gegevens. Het model analyseert de invoer en levert voorspellingen, antwoorden of gegenereerde inhoud op. In tegenstelling tot training wordt het model bij inferentie geen nieuwe kennis bijgebracht. In plaats daarvan maakt het gebruik van eerder aangeleerde parameters om in realtime op gebruikers te reageren.

Training en inferentie zijn verschillend

Training bouwt het model op door het verwerken van enorme datasets over lange perioden met behulp van enorme hoeveelheden rekenkracht. Inference is de operationele fase waarin gebruikers interageren met het getrainde model. Training is meestal meer rekenintensief per gebeurtenis, maar inferentie gebeurt continu op globale schaal.

Inferentie vereist GPU's en gespecialiseerde hardware

Moderne AI-inferentie draait vaak op GPU's of AI-versnellers die geoptimaliseerd zijn voor parallelle verwerking. Grote taalmodellen kunnen een aanzienlijke geheugenbandbreedte en rekenkracht vereisen, vooral wanneer ze miljoenen gebruikers tegelijk bedienen.

Inferentie verbruikt elektriciteit

Elk inferentieverzoek verbruikt elektriciteit via computerhardware, netwerken, opslag en koelinfrastructuur. Naarmate het gebruik van AI wereldwijd toeneemt, worden inferentiewerkbelastingen een steeds belangrijker onderdeel van de wereldwijde vraag naar elektriciteit in datacenters.

Inferentie kan worden geoptimaliseerd

AI-aanbieders optimaliseren de inferentie voortdurend door middel van batching, kwantisering, modeldistillatie, caching en efficiëntere hardware. Deze technieken hebben als doel de latentie, het elektriciteitsverbruik en de operationele kosten te verlagen terwijl de kwaliteit van het model behouden blijft.

Verwante onderwerpen AI-infrastructuur en energie

Verwante artikelen

Gerelateerde vragen

Deel deze pagina