Vsebina
Kaj se zgodi, ko pošljete poizvedbo umetne inteligence?
Ko pošljete poziv storitvi umetne inteligence, zahteva najprej potuje prek interneta do infrastrukture ponudnika. Usmerjevalni sistemi preverijo pristnost zahteve, uporabijo varnostne kontrole in kontrole uporabe ter jo usmerijo k razpoložljivemu inferenčnemu strežniku. Izravnalnik obremenitve lahko izbira med številnimi stroji, tako da se promet uporabnikov porazdeli, ne da bi bil preobremenjen en del sistema.
Strežnik pretvori poziv v žetone, številčne enote, ki jih obdela jezikovni model. Ti žetoni in morebitni kontekst predhodnega pogovora se naložijo v pomnilnik pospeševalnika. Grafični procesorji ali drugi čipi umetne inteligence nato izvedejo več plasti matričnih izračunov parametrov modela, da predvidijo naslednji žeton. Postopek se večkrat ponovi, dokler odziv ni popoln ali dokler ne doseže nastavljene meje.
Ustvarjeni rezultat se dekodira v besedilo in posreduje nazaj uporabniku, pogosto še med izračunavanjem kasnejših žetonov. Okrog te vidne interakcije so še naprej dejavni oprema za shranjevanje, omrežje, spremljanje, pretvorbo energije in hlajenje. Poizvedba zato porabi več kot samo električna energija, izmerjena na grafičnem procesorju, čeprav pospeševalnik običajno opravi večino intenzivnih izračunov.
Zakaj poizvedbe umetne inteligence porabijo električno energijo
Ugotavljanje umetne inteligence je aktivno računanje in ne preprosto iskanje iz podatkovne zbirke. Velik model mora za vsak ustvarjen znak ovrednotiti številne numerične operacije in pri tem uporabiti parametre, ki lahko zasedajo desetine ali stotine gigabajtov pomnilnika. Premikanje teh parametrov in vmesnih vrednosti med pomnilnikom z visoko pasovno širino in procesorskimi jedri porabi električno energijo poleg samih izračunov.
Obseg dela narašča z modelom, pozivom in zahtevanim rezultatom. Dolge zgodovine pogovorov zahtevajo več konteksta za obdelavo, dolgi odgovori pa pospešiteljem omogočajo več korakov generiranja. Slikovni, zvočni in video sistemi lahko zahtevajo različne postopke obdelave ali ponavljajoče se operacije izpopolnjevanja, zato poizvedba umetne inteligence ni ena standardizirana enota dela.
Pomembni so tudi režijski stroški podatkovnega centra. Strežniki potrebujejo napajalnike, omrežje, shranjevanje in hlajenje, nekaj električne energije pa se izgubi pri pretvorbi in distribuciji energije. Upravljavci te splošne stroške pogosto izražajo z učinkovitostjo porabe energije ali PUE. Učinkovit objekt približa skupno energijo energiji, ki jo porabi računalniška oprema, medtem ko manj učinkovit objekt potrebuje več podporne električne energije za enako delovno obremenitev pri sklepanju.
Koliko električne energije porabi poizvedba umetne inteligence?
Za poizvedbo umetne inteligence ni univerzalnega podatka o električni energiji. Javne ocene za besedilne interakcije se običajno gibljejo od delčkov vatne ure do več vatnih ur, vendar je treba ta razpon obravnavati kot red velikosti in ne kot fiksno pretvorbo. Kratka zahteva, ki jo obravnava optimiziran, dobro izkoriščen model, lahko porabi veliko manj energije kot dolg odgovor večjega modela, ki deluje na premalo izkoriščeni strojni opremi.
Vatna ura meri energijo in ne trenutne moči. Na primer, strežnik, ki delček sekunde porablja veliko energije, lahko porabi manj skupne energije kot sistem z manjšo močjo, ki deluje dlje časa. Za verodostojno oceno na posamezno zahtevo je zato treba navesti porabo energije opreme ter trajanje in delež te opreme, ki ga je mogoče pripisati zahtevi.
Primerjave s spletnimi iskanji, žarnicami ali polnjenjem telefona lahko olajšajo vizualizacijo lestvice, vendar pogosto skrivajo pomembne predpostavke. Pomembno vprašanje ni, ali vsak poziv porabi točno določeno količino. Gre za to, kateri model je obravnaval zahtevo, koliko žetonov in modalitet je bilo obdelanih, kako učinkovito so bile zahteve razvrščene v skupine in koliko energije infrastrukture je bilo vključene v izračun.
Zakaj se ocene razlikujejo
Ponudniki umetne inteligence le redko objavijo popolne meritve, ki povezujejo posamezne zahteve z velikostjo modela, izkoriščenostjo strojne opreme, številom žetonov in režijskimi stroški objekta. Raziskovalci morajo zato združiti razkrite specifikacije strojne opreme, rezultate primerjalnih testov, ocenjene čase strežbe in predpostavke o učinkovitosti podatkovnega centra. Različne izbire na katerem koli koraku lahko dajo bistveno drugačne odgovore.
Eden od glavnih virov odstopanj je doziranje. Inferenčni strežnik lahko obdeluje več uporabnikov skupaj, tako da si v seriji delijo nalaganje modela in izračunavanje. Visoka izkoriščenost lahko zmanjša povprečno energijo, dodeljeno vsaki zahtevi, medtem ko lahko zaradi praznih zmogljivosti, zahtev po zakasnitvi ali skokovitega prometa draga strojna oprema ostane delno izkoriščena. Novejši pospeševalniki lahko isto delovno obremenitev opravijo hitreje ali z manj jouli.
Rezultat se spremeni tudi zaradi meje ocene. Nekateri izračuni upoštevajo samo energijo pospeševalnika, drugi vključujejo procesorje, pomnilnik, omrežje, hlajenje in izgube energije. Večina podatkov na poizvedbo ne vključuje energije, ki je bila prej porabljena za proizvodnjo strojne opreme in usposabljanje modela. Ocene so najbolj uporabne, če so njihove sistemske meje in predpostavke izrecne, ne pa če je ena sama številka predstavljena kot univerzalna.
Poizvedbe umetne inteligence v primerjavi z usposabljanjem umetne inteligence
Pri usposabljanju se model ustvarja ali posodablja z večkratno obdelavo velikih naborov podatkov in prilagajanjem njegovih parametrov. Večje usposabljanje lahko za več dni ali tednov zasede na tisoče pospeševalnikov, kar pomeni, da gre za koncentriran in zelo opazen računalniški dogodek. Ko je usposabljanje končano, se lahko dobljeni model razporedi po številnih inferenčnih strežnikih in odgovori na zahteve uporabnikov.
Pri eni interakciji je sklepanje običajno veliko manjše, vendar je neprekinjeno. Proizvodni sistemi se morajo odzivati ob vsaki uri, imeti na voljo dovolj zmogljivosti za konice in oskrbovati uporabnike v več regijah. Energetski profil je zato porazdeljen po več podatkovnih centrih in se ponovi vsakič, ko se ustvarijo besedilo, slike, zvok ali drugi izpisi.
Za nobeno od teh obremenitev se ne sme samodejno domnevati, da bo prevladovala nad porabo električne energije v življenjski dobi modela. Usposabljanje je lahko največja posamezna obremenitev, zlasti pri mejnih sistemih, medtem ko jo lahko sklepanje sčasoma preseže, če storitev več mesecev ali let obdeluje ogromen promet. Ravnovesje je odvisno od tega, kako pogosto se modeli prekvalificirajo, kako široko se uporabljajo in kako intenzivno jih ljudje uporabljajo.

Milijarde poizvedb se seštevajo
Okoljski pomen poizvedb umetne inteligence izhaja predvsem iz pomnoževanja. En sam kratek poziv lahko predstavlja majhno količino energije, vendar lahko pomočniki za potrošnike, iskalne funkcije, orodja za kodiranje in poslovne aplikacije ustvarijo ogromno število zahtevkov. Ob nenehnem ponavljanju postane skromna energija na zahtevo precejšnja obremenitev podatkovnega centra.
Povpraševanje ni omejeno na vidna sporočila klepetalnega robota. Aplikacije lahko za odgovor na eno dejanje uporabnika pokličejo več modelov, uporabljajo ločene modele za moderiranje ali pridobivanje, ponavljajo neuspešne zahteve in ustvarjajo povzetke ali priporočila v ozadju. Agentični sistemi lahko ta vzorec razširijo s ponavljajočimi se klici modelov in programskih orodij med opravljanjem ene same naloge.
Velikost vpliva tudi na načrtovanje infrastrukture. Ponudniki gradijo zmogljivosti za rast in največji promet, kar lahko poveča povpraševanje po električni energiji, preden je vsak strežnik popolnoma izkoriščen. Skupni učinek je odvisen od učinkovitosti na poizvedbo in hitrosti povečevanja uporabe. Če povpraševanje narašča hitreje kot učinkovitost, se lahko skupna poraba električne energije še naprej povečuje, čeprav je vsaka posamezna interakcija manj energetsko potratna.
Bodo poizvedbe umetne inteligence učinkovitejše?
Ugotavljanje z umetno inteligenco bo verjetno postalo energetsko učinkovitejše na ravni primerljive naloge. Novi pospeševalniki omogočajo več računanja na enoto električne energije, medtem ko lahko kvantizacija, obrezovanje, spekulativno dekodiranje in izboljšane arhitekture modelov zmanjšajo operacije, potrebne za uporaben rezultat. Z boljšim načrtovanjem in paketnim izvajanjem lahko povečamo tudi izkoriščenost strojne opreme, ne da bi spremenili uporabniško izkušnjo.
Manjši specializirani modeli ponujajo drugo pot. Služba ne potrebuje vedno največjega modela za klasifikacijo, ekstrakcijo ali rutinska vprašanja. Usmerjanje preprostega dela v kompaktne modele, omejevanje nepotrebnega konteksta in predpomnjenje ponovno uporabnih rezultatov lahko zmanjša zakasnitev in porabo električne energije. Podatkovni centri lahko dodatno izboljšajo skupno učinkovitost z zagotavljanjem energije, hlajenjem in razporeditvijo delovne obremenitve.
Učinkovitost ne zagotavlja manjše skupne porabe. Hitrejša in cenejša umetna inteligenca lahko spodbuja več aplikacij, daljše interakcije in nove računalniško intenzivne funkcije, kar je včasih opisano kot odbito povpraševanje. Prihodnji električni odtis poizvedb UI bo torej odvisen od dveh konkurenčnih trendov: kako hitro bo vsaka enota koristnega dela postala učinkovitejša in kako hitro bo naraščal skupni obseg in zapletenost uporabe UI.

