Krátká odpověď
K odvozování dochází, když již vycvičený model umělé inteligence zpracovává výzvu, obrázek, zvukový soubor nebo jiný vstup a vytváří výsledek. Každá odpověď na ChatGPT, generování obrázku AI nebo požadavek na doporučení vyžaduje výpočet inference.
Inference je provádění modelu umělé inteligence
Během inference trénovaný model analyzuje příchozí data a vytváří předpovědi nebo generovaný obsah. Na rozdíl od trénování se při inferenci model neučí novým znalostem. Místo toho využívá dříve naučené parametry k tomu, aby reagoval na uživatele v reálném čase.
Školení a odvozování se liší
Při tréninku se model vytváří dlouhodobým zpracováním rozsáhlých souborů dat za použití velkého množství výpočetní techniky. Inference je operační fáze, ve které uživatelé pracují s natrénovaným modelem. Školení je obvykle výpočetně náročnější na jednu událost, ale inference probíhá průběžně v globálním měřítku.
Inference vyžaduje GPU a specializovaný hardware
Moderní odvozování umělé inteligence často probíhá na grafických procesorech nebo akcelerátorech umělé inteligence optimalizovaných pro paralelní zpracování. Velké jazykové modely mohou vyžadovat značnou šířku paměťového pásma a výpočetní výkon, zejména pokud slouží milionům uživatelů současně.
Inference spotřebovává elektrickou energii
Každý požadavek na inferenci spotřebovává elektrickou energii prostřednictvím výpočetního hardwaru, sítí, úložišť a chladicí infrastruktury. S celosvětově rostoucím zaváděním umělé inteligence se inferenční zátěže stávají stále důležitější součástí globální poptávky po elektřině v datových centrech.
Odvozování lze optimalizovat
Poskytovatelé umělé inteligence neustále optimalizují odvozování pomocí dávkování, kvantizace, destilace modelu, ukládání do mezipaměti a efektivnějšího hardwaru. Cílem těchto technik je snížit latenci, spotřebu elektrické energie a provozní náklady při zachování kvality modelu.
