Krátka odpoveď
Inferencia umelej inteligencie je moment, keď sa použije už vytrénovaný model. Ten spracuje zadanie, obrázok, zvukový súbor alebo iný vstup a vráti výsledok. Každá odpoveď ChatGPT, generovanie obrázkov umelou inteligenciou alebo žiadosť o odporúčanie si vyžaduje výpočtovú kapacitu na inferenciu.
Inferencia je vykonávanie modelu umelej inteligencie
V oblasti umelej inteligencie sa pod pojmom „inferencia“ rozumie aplikácia vytrénovaného modelu na nové údaje. Model analyzuje vstupné údaje a vytvára predpovede, odpovede alebo generovaný obsah. Na rozdiel od trénovania inferencia modelu neposkytuje nové vedomosti. Namiesto toho využíva predtým naučené parametre, aby v reálnom čase reagoval na požiadavky používateľov.
Školenie a odvodzovanie sú odlišné
Tréning vytvára model spracovaním obrovských súborov údajov počas dlhého obdobia s použitím obrovského množstva výpočtovej techniky. Inferencia je operačná fáza, v ktorej používatelia interagujú s natrénovaným modelom. Trénovanie je zvyčajne náročnejšie na výpočet jednej udalosti, ale odvodzovanie prebieha nepretržite v globálnom meradle.
Odvodzovanie si vyžaduje GPU a špecializovaný hardvér
Moderné odvodzovanie umelej inteligencie často prebieha na grafických procesoroch alebo akcelerátoroch umelej inteligencie optimalizovaných na paralelné spracovanie. Veľké jazykové modely môžu vyžadovať značnú šírku pamäťového pásma a výpočtový výkon, najmä ak slúžia miliónom používateľov súčasne.
Inferencia spotrebúva elektrickú energiu
Každá požiadavka na odvodenie spotrebuje elektrickú energiu prostredníctvom výpočtového hardvéru, sietí, úložísk a chladiacej infraštruktúry. S celosvetovo rastúcim zavádzaním umelej inteligencie sa inferenčné pracovné zaťaženia stávajú čoraz dôležitejšou súčasťou globálneho dopytu po elektrickej energii v dátových centrách.
Odvodzovanie sa dá optimalizovať
Poskytovatelia AI neustále optimalizujú odvodzovanie prostredníctvom dávkovania, kvantizácie, destilácie modelov, ukladania do vyrovnávacej pamäte a efektívnejšieho hardvéru. Cieľom týchto techník je znížiť latenciu, spotrebu elektrickej energie a prevádzkové náklady pri zachovaní kvality modelu.
