Nedavno je ChatGPT postao nova vruća točka za umjetnu inteligenciju, s Microsoftom i Googleom u Silicijskoj dolini koja ulažu velika sredstva u takvu tehnologiju (Microsoft ima udio od 10 milijardi dolara u OpenAI-u, tvrtki koja stoji iza ChatGPT-a, a Google je nedavno objavio vlastiti model BARD), dok su internetske tehnološke tvrtke u Kini, koje zastupa Baidu i drugi, također naznačile da razvijaju takvu tehnologiju i da će se pokrenuti u bliskoj budućnosti. U Kini, Baidu i druge internetske tehnološke tvrtke također su naznačile da razvijaju takve tehnologije i da će se pokrenuti u bliskoj budućnosti.
Generativni modeli koje predstavlja ChatGPT imaju zajedničku značajku, a to je da koriste ogromne podatke za prethodnu obuku i često su upareni s moćnijim jezičnim modelom. Glavna funkcija jezičnog modela je učiti iz masivnog postojećeg korpusa, a nakon učenja može razumjeti korisnikove jezične upute, ili nadalje, generirati relevantan tekstualni izlaz prema korisničkim uputama.
Generativni modeli mogu se općenito klasificirati u dvije kategorije, jedna su generativni modeli temeljeni na jeziku, a druga su generativni modeli temeljeni na slici. Generativne modele temeljene na jeziku predstavlja ChatGPT, čiji jezični model ne samo da može naučiti razumjeti značenje korisničkih naredbi (npr. "napiši pjesmu, u stilu Li Baija"), već i generirati relevantan tekst na temelju korisnika naredbe nakon treninga s masivnim podacima (u gornjem primjeru pisanje pjesme u stilu Li Baija). pjesma). To znači da ChatGPT treba imati veliki jezični model (LLM) koji razumije korisnikov jezik i može proizvesti visokokvalitetni jezični izlaz - na primjer, model mora razumjeti kako generirati pjesme, kako generirati pjesme u stilu Li Baija , i tako dalje. To također znači da veliki jezični modeli u generativnoj umjetnoj inteligenciji koja se temelji na jeziku zahtijevaju vrlo velik broj parametara kako bi izvršili ovu vrstu složenog učenja i zapamtili toliko informacija. ChatGPT, primjerice, ima 175 milijardi parametara (700 GB prostora za pohranu ako se koriste standardni brojevi s pomičnim zarezom), što pokazuje koliko je "velik" njegov jezični model.
Još jedna klasa generativnih modela je model generiranja slike kojeg predstavlja Diffusion, obično Dalle iz OpenAI-ja, ImaGen iz Googlea i trenutno najpopularniji Stable Diffusion iz Runway AI. Ovi modeli generiranja sličnih slikama također koriste jezični model za razumijevanje korisničkih lingvističkih naredbi, a zatim generiraju visokokvalitetne slike na temelju tih naredbi. Za razliku od generativnih modela temeljenih na jeziku, jezični model koji se ovdje koristi uglavnom koristi jezik za razumijevanje korisničkog unosa bez generiranja jezičnog izlaza, tako da broj parametara može biti prilično mali (reda nekoliko stotina milijuna), dok broj parametara za modela difuzije temeljenih na slikama je relativno malen, sveukupno reda veličine nekoliko milijardi, ali računalni napor nije mali jer razlučivost generiranih slika ili videa može biti vrlo visoka.
Generativni modeli mogu proizvesti ispis visoke kvalitete bez presedana kroz masovnu obuku podataka, a već postoji niz jasnih tržišta aplikacija, uključujući pretraživanje, botove za dijalog, generiranje i uređivanje slika, itd. U budućnosti se očekuje više aplikacija, što također postavlja potražnju za povezani čipovi.
Potreba za čipovima za generiranje modela klasa
Kao što je ranije spomenuto, ChatGPT predstavlja generativni model koji treba učiti iz velikih količina podataka o obuci kako bi postigao visokokvalitetni generativni izlaz. Kako bi podržali učinkovitu obuku i zaključivanje, generativni modeli imaju vlastite zahtjeve za povezane čipove.
Prva je potreba za distribuiranim računanjem; broj parametara za jezične generativne modele kao što je ChatGPT kreće se u stotinama milijardi i gotovo je nemoguće koristiti obuku i zaključivanje na jednom računalu, ali se mora koristiti puno distribuiranog računanja. U distribuiranom računalstvu, propusnost međupovezivanja podataka između strojeva i računalnog čipa za takvo distribuirano računalstvo (kao što je RDMA) ima veliku potražnju, jer često usko grlo zadatka možda nije u računalstvu, već u međupovezivanju podataka iznad, posebno u Ova vrsta distribuiranog računarstva velikih razmjera, čip za učinkovitu podršku distribuiranog računarstva postao je kritičniji.
Sljedeći je kapacitet memorije i propusnost. Iako su distribuirana obuka i zaključivanje neizbježni za generativne modele temeljene na jeziku, lokalna memorija i širina pojasa svakog čipa uvelike će odrediti učinkovitost izvršenja jednog čipa (jer se memorija svakog čipa koristi do svoje granice). Za generativne modele temeljene na slici, moguće je sve modele (oko 20 GB) staviti u memoriju čipa, ali kako se generativni modeli temeljeni na slici dalje razvijaju u budućnosti, vjerojatno je da će i zahtjevi za memorijom dodatno rasti. . Iz ove perspektive, memorijska tehnologija ultra-visoke propusnosti koju predstavlja HBM postat će neizbježan izbor za srodne akceleratorske čipove, dok će modeli generativne klase također ubrzati HBM memoriju kako bi dodatno povećali kapacitet i propusnost. Uz HBM, nove tehnologije pohrane kao što je CXL u kombinaciji s optimizacijom softvera također će imati potencijal za povećanje kapaciteta i performansi lokalne pohrane u takvim aplikacijama i procjenjuje se da će dobiti veću industrijsku primjenu zbog uspona modela generativne klase.
Konačno, modeli generativne klase koji se temelje na jeziku i na slici imaju veliku računsku potražnju, a generativni modeli koji se temelje na slici mogu imati mnogo veću potražnju za aritmetičkom snagom jer generiraju sve veće rezolucije i kreću se prema video aplikacijama - trenutno Glavni modeli generiranja slika imaju proračunski volumen od oko 20 TFlopsa, a što se tiče visoke rezolucije i slika, 100-1000 TFLOPS aritmetičke potražnje vjerojatno će biti norma.
Ukratko, vjerujemo da zahtjevi generativnih modela za čipove uključuju distribuirano računalstvo, pohranu i računanje, za koje se može reći da uključuju sve aspekte dizajna čipa, i što je još važnije, kako kombinirati sve te zahtjeve zajedno na razuman način kako bi se osiguralo da jedan aspekt ne postane usko grlo, što će također postati inženjerski problem sustava dizajna čipa.
GPU i novi AI čip, tko ima veće šanse
Generativni modeli imaju novu potražnju za čipovima. Tko ima bolje šanse uhvatiti ovu novu potražnju i tržište za GPU-ove (koje predstavljaju Nvidia i AMD) i nove AI čipove (koje predstavljaju Habana, GraphCore)?
Prvo, iz perspektive generativnih modela temeljenih na jeziku, dobavljači GPU-a koji trenutno imaju kompletan raspored u ovoj vrsti ekologije su u prednosti zbog ogromnog broja sudionika i potrebe za dobrom distribuiranom računalnom podrškom. Ovo je problem sistemskog inženjeringa koji zahtijeva kompletno softversko i hardversko rješenje, au tom smislu Nvidia je kombinirala svoje GPU-ove kako bi pokrenula rješenje Triton, koje podržava distribuiranu obuku i distribuirano zaključivanje, omogućujući da se model podijeli na više dijelova i obradi na različitim GPU-ima, čime se rješava problem previše parametara koje ne može primiti glavna memorija jednog GPU-a. Ovo rješava problem previše parametara za glavnu memoriju jednog GPU-a. Bilo da koristite Triton izravno ili radite daljnji razvoj na temelju Tritona u budućnosti, praktičnije je imati kompletan ekološki GPU. S računalne točke gledišta, budući da je glavno izračunavanje modela generiranja temeljenog na jeziku matrično izračunavanje, što je snaga GPU-a, novi AI čip nema očitu prednost u odnosu na GPU s ove točke gledišta.
Sa stajališta modela generiranja temeljenog na slici, broj parametara takvih modela je također velik, ali jedan do dva reda veličine manji od modela generiranja temeljenog na jeziku, osim što će se njegov izračun i dalje koristiti u velikom broj konvolucijskih izračuna, tako da aplikacije za zaključivanje, ako možete napraviti vrlo dobru optimizaciju, AI čipovi možda imaju neke mogućnosti. Ovdje optimizacija uključuje veliku količinu pohrane na čipu za smještaj parametara i međurezultata izračuna, za konvoluciju i učinkovitu podršku matričnih operacija.
Općenito, trenutna generacija čipova s umjetnom inteligencijom dizajnirana je za ciljanje manjih modela (broj parametara na razini od milijardu, izračun na razini 1TOPS), dok je potražnja za generativnim modelima još uvijek relativno veća od cilja izvornog dizajna. GPU-ovi su dizajnirani da budu fleksibilniji nauštrb učinkovitosti, dok su AI čipovi dizajnirani da rade suprotno, tražeći učinkovitost ciljne aplikacije. Stoga vjerujemo da će GPU-i i dalje dominirati takvim ubrzanjem generativnog modela u sljedećih godinu ili dvije, ali kako dizajni generativnih modela postaju stabilniji i dizajni AI čipova imaju vremena sustići iteracije generativnih modela, AI čipovi imaju priliku nadmašiti GPU-ove u prostoru generativnog modela iz perspektive učinkovitosti.

