Krátká odpověď
Inference umělé inteligence je okamžik, kdy se použije již vycvičený model. Ten zpracuje zadání, obrázek, zvukový soubor nebo jiný vstup a vrátí výsledek. Každá odpověď ChatGPT, generování obrázku pomocí umělé inteligence nebo žádost o doporučení vyžaduje výpočetní výkon pro inferenci.
Inference je provádění modelu umělé inteligence
V oblasti umělé inteligence se pod pojmem „inference“ rozumí použití vycvičeného modelu na nová data. Model analyzuje vstupní data a generuje předpovědi, odpovědi nebo obsah. Na rozdíl od trénování inferenční proces modelu nepřináší nové znalosti. Místo toho využívá dříve naučené parametry k tomu, aby uživatelům odpovídal v reálném čase.
Školení a odvozování se liší
Při tréninku se model vytváří dlouhodobým zpracováním rozsáhlých souborů dat za použití velkého množství výpočetní techniky. Inference je operační fáze, ve které uživatelé pracují s natrénovaným modelem. Školení je obvykle výpočetně náročnější na jednu událost, ale inference probíhá průběžně v globálním měřítku.
Inference vyžaduje GPU a specializovaný hardware
Moderní odvozování umělé inteligence často probíhá na grafických procesorech nebo akcelerátorech umělé inteligence optimalizovaných pro paralelní zpracování. Velké jazykové modely mohou vyžadovat značnou šířku paměťového pásma a výpočetní výkon, zejména pokud slouží milionům uživatelů současně.
Inference spotřebovává elektrickou energii
Každý požadavek na inferenci spotřebovává elektrickou energii prostřednictvím výpočetního hardwaru, sítí, úložišť a chladicí infrastruktury. S celosvětově rostoucím zaváděním umělé inteligence se inferenční zátěže stávají stále důležitější součástí globální poptávky po elektřině v datových centrech.
Odvozování lze optimalizovat
Poskytovatelé umělé inteligence neustále optimalizují odvozování pomocí dávkování, kvantizace, destilace modelu, ukládání do mezipaměti a efektivnějšího hardwaru. Cílem těchto technik je snížit latenci, spotřebu elektrické energie a provozní náklady při zachování kvality modelu.
