A kínai szuperintelligencia megjelenése világszerte meglepetést keltett, de aggodalomra nincs okunk.


Február 18-án lesz a Portfolio investment Day 2025 befektetési konferenciánk, ahol profi szakemberek osztják meg befektetési ötleteiket, legyen szó a részvény-, állampapír-, nyersanyag-, kripto-, ingatlan- vagy műtárgypiacról. Most érdemes jelentkezni!

A tőkepiacokon jelentős zűrzavart keltett a DeepSeek mesterséges intelligencia modelljének debütálása. Az Nvidia részvényei drámai mértékben lecsúsztak, miután a kínai startup bejelentette, hogy egy olyan AI modellt fejlesztett ki, amely állításuk szerint lényegesen hatékonyabb a neves nyugati versenytársaknál.

Ezt komoly kérdéseket vetett fel azzal kapcsolatban, hogy kell-e annyit költeni az AI-ra, mint amennyit eddig költöttek a cégek, illetve mekkora hatása lehet a masszív capex tervekkel rendelkező vállalatok mesterséges intelligenciára fordított beruházásaira.

Ahogy azt már megszokhattuk, a téma körül hatalmas a lárma, rengeteg megválaszolatlan kérdés és eltérő nézőpont kavarog. A piaci reakciók alapján úgy tűnik, hogy az Nvidia jövőjét illetően a pesszimista forgatókönyv nyert teret. Ugyanakkor akad olyan elemző, aki úgy véli, hogy a legújabb kínai szuper AI kapcsán kialakult felhajtás kissé eltúlzott.

Stacy Rasgon, a Bernstein elemzője, a hétvége jelentős részét a DeepSeek dokumentumainak alapos átvizsgálásával töltötte. E folyamat során néhány lényeges észrevételt tartott fontosnak megfogalmazni. Az alábbiakban összegzi három legfőbb megállapítását:

A DeepSeek-V3 egyedülálló családot alkot, mint egy Mixture-of-Experts (MoE) nagy nyelvi modell, amely számos innovatív optimalizációnak és ügyes technikai megoldásnak köszönhetően képes felvenni a versenyt, sőt, akár meg is haladni más jelentős alapmodellek teljesítményét. Mindeközben a számítási erőforrások iránti igénye csupán töredékét teszi ki a hagyományos megoldásoknak. A DeepSeek modell betanítása során egy 2048 darab Nvidia H800 GPU-ból álló klasztert alkalmaztak, amely körülbelül két hónapon át futott. A gyakran emlegetett 5 millió dolláros költség a következőképpen lett kalkulálva: feltételezték, hogy a GPU használati díja óránként 2 dollár, így az infrastruktúra költségei e szerint alakultak.

Ez a szám azonban megtévesztő, mivel nem veszi figyelembe az összes többi költséget, amelyek az architektúrák, algoritmusok vagy adatok előkészítésével, kutatásával és kísérletezésével járnak.

Bernstein azt írja, hogy...

A második családot a DeepSeek R1 képviseli, amely a V3-as alapmodellen alapul, és számos innovatív megoldást alkalmaz, beleértve a megerősített tanulást (Reinforcement Learning - RL). Ezzel a megközelítéssel a DeepSeek R1 képes jelentős előrelépéseket elérni a következtetési teljesítmény terén, lehetővé téve számára, hogy felvegye a versenyt az OpenAI o1 modellel és más hasonló LLM-ekkel. Ez a modell különösen figyelmet keltett, mivel sok szakértő aggodalmát fejezte ki a teljesítményével kapcsolatban.

A DeepSeek R1 dokumentációjában nem találhatóak konkrét számadatok az R1 modell fejlesztéséhez szükséges kiegészítő erőforrásokról. Azonban a Bernsetin-féle feltételezés alapján feltételezhető, hogy ezek az erőforrások jelentős mértékben hozzájárultak a projekt sikeréhez.

Abszolút Bernstein azt írja, hogy...

A V3 egy Mixture-of-Experts modellt használ (egy olyan architektúrát, amely számos kisebb, együtt dolgozó modellt kombinál) 671 milliárd teljes paraméterrel és 37 milliárd aktív paraméterrel egy időben. Ez az architektúra számos más újítással párosul, mint a Multi-Head Latent Attention (MHLA, amely jelentősen csökkenti a szükséges gyorsítótár méretét és a memóriahasználatot), az FP8 számítást használó vegyes pontosságú képzés (az alacsonyabb pontosság jobb teljesítményt tesz lehetővé), az optimalizált memóriaterület, és a képzést követő fázis.

Bernstein megjegyzi, hogy a modell nemcsak esztétikailag vonzó, hanem különféle nyelvi, kódolási és matematikai teszteken is kiemelkedően teljesít, sőt, sok esetben felülmúlja más, nagyobb modellek teljesítményét. Mindezt úgy éri el, hogy a tanuláshoz szükséges számítási kapacitás csupán a hagyományos igények töredékét teszi ki.

A V3 előzetes betanításához összesen 2,7 millió GPU-órára volt szükség, amit a DeepSeek 2048 darab Nvidia H800 GPU-ból álló klaszterével mindössze 2 hónap alatt elértek. Ez a szám csupán 9%-át teszi ki annak a számítási időnek, ami a nyílt forráskódú, hasonló méretű LLaMA 405B modell előzetes betanításához szükséges (lásd 1. ábra). Érdekes módon, a V3 végső teljesítménye az említett benchmarkok alapján nemcsak hogy versenyképes, hanem sok esetben még jobb eredményeket is hoz (lásd 2. ábra).

A DeepSeek R1 pedig nagyjából az OpenAI o1 modelljével azonos teljesítményt nyújt.

A MoE architektúra lényege, hogy jelentősen csökkenti a képzési és futtatási költségeket, mivel a paraméterkészletnek csak egy része aktív egy időben (például a V3 képzésénél a 671 milliárd paraméterből csak 37 milliárd frissül egy tokenre, szemben a sűrű modellekkel, ahol az összes paraméter frissül).

A dense modellek, vagyis sűrű modellek, olyan mesterséges intelligencia rendszerek, amelyek minden egyes paramétert bevonnak a számítási vagy tanulási folyamatba, függetlenül attól, hogy ezek mennyire relevánsak az adott feladat szempontjából. Ezek a modellek általában egyszerűbb felépítésűek és sokoldalúbbak, azonban jelentős számítási teljesítményt igényelnek. Ezzel szemben a Mixture-of-Experts modellek egy intelligensebb megközelítést alkalmaznak, melynek köszönhetően hatékonyabban kezelik a nagy és összetett adathalmazon végzett feladatokat.

Amikor összehasonlítjuk a hasonló méretű és teljesítményű MoE modelleket a sűrű modellekkel, azt tapasztaljuk, hogy a hatékonyság 3-7-szeres különbséget mutat. Ezen felül a V3 modell kiemelkedőnek látszik, valószínűleg a vállalat által bevezetett további innovációknak köszönhetően.

de a Bernstein szerint az az elképzelés, hogy ez valami teljesen forradalmi dolog, kissé túlzásnak tűnik, és nem feltétlenül indokolja azt a pánikot, amit az elmúlt napokban láttunk.

Bernstein szerint az elmúlt napokban látott pánik a következő tényezők kombinációja:

Ami az elsőt illeti, Bernstein legfontosabb megállapítása az,

Kategorikusan állíthatom, hogy a híresztelések, miszerint Kína 5 millió dollárért lemásolta az OpenAI-t, teljes mértékben alaptalanok. Az ilyen állítások nemcsak félrevezetőek, hanem figyelmen kívül hagyják a technológiai fejlesztések komplexitását és az innováció valódi folyamatát is.

Az elemzés során hangsúlyozzák, hogy a V3-as modell, noha figyelemre méltó teljesítményt nyújt, nem tűnik úgy, hogy bármiféle úttörő vagy eddig ismeretlen technológiát alkalmazna.

A második pont megértéséhez első körben a "disztilláció" fogalmát kell tisztázni.

A distilláció, más néven tudásdistilláció, egy izgalmas gépi tanulási eljárás, amely lehetővé teszi, hogy egy nagy és összetett modell (amit "teacher" modellnek hívunk) tudását átadjuk egy kisebb, egyszerűbb modellnek (az úgynevezett "student" modellnek). Ennek a módszernek a célja, hogy a kisebb modell gyorsabban működjön és kevesebb számítási erőforrást igényeljen, miközben megpróbálja megőrizni a nagyobb modell teljesítményének jelentős részét. Ez a technika különösen hasznos lehet, amikor korlátozott erőforrásokkal dolgozunk, vagy amikor a sebesség és a hatékonyság kulcsfontosságú szempontok.

A DeepSeek az R1 modellt alkalmazta „oktatóként”, hogy új adatokat hozzon létre, amelyekkel több kisebb modellt optimalizáltak. Az így kialakított modellek kiemelkedő eredményeket érnek el az OpenAI o1-mini modelljéhez viszonyítva, ezzel alátámasztva a megközelítés hatékonyságát és működőképességét.

Ami a harmadik szempontot illeti,

Teljes mértékben egyetértek, hogy a DeepSeek árazási struktúrája lényegesen előnyösebb, mint a konkurens cégeké.

A vállalat 20-40-szer olcsóbbra árazza modelljeit, mint az OpenAI egyenértékű modelljeit.

Sajnos nem áll rendelkezésre információ arról, hogy a DeepSeek milyen gazdasági szempontokat figyelembe véve határozta meg a modellek árazását. Érdemes megemlíteni, hogy maguk a modellek nyílt forráskódúak, így bárki ingyenesen hozzáférhet és dolgozhat velük. Ez a helyzet számos izgalmas kérdést vet fel a fizetős és nyílt forráskódú megoldások közötti kapcsolatokról és azok fenntarthatóságáról.

Bernstein megállapítása szerint figyelemre méltó, hogy a DeepSeek jelentősen, körülbelül tizedére csökkentette az egyenértékű modellteljesítmény elérésének költségeit. Emellett azt is fontos megemlíteni, hogy a jelenlegi modellköltségpálya évente nagyjából hasonló mértékben növekszik a skálázási törvény következményeként.

A skálázási törvények a mesterséges intelligencia és gépi tanulás világában arra utalnak, hogy a modellek teljesítménye javulhat a méretük növelésével, legyen szó a paraméterek számáról vagy a számítási kapacitásról. Más szóval, a nagyobb modellek általában jobb eredményeket produkálnak. Fontos azonban hangsúlyozni, hogy ez a növekedés nem folytatható végtelenségig. Egy adott szinten a költségek – mint például a számítási igény, memóriahasználat és energiafogyasztás – drámai módon emelkednek, miközben a hasznosság nem feltétlenül követi ezt a növekedést. Ezért érdemes figyelembe venni a skálázás határait a modellek fejlesztése során.

Ebben a kontextusban elengedhetetlenek a DeepSeek által bevezetett innovációk, mint például a MoE és a desztilláció, ha a mesterséges intelligencia fejlődését szeretnénk előmozdítani.

Bernstein hangsúlyozza, hogy megingathatatlanul hisznek a Jevons-paradoxon elvében, amely szerint a hatékonyság növekedése valójában nettó keresletnövekedést idéz elő. Szerintük minden újonnan felszabaduló számítási kapacitás sokkal valószínűbb, hogy a felhasználás és a kereslet emelkedéséhez vezet, mintsem hogy tartósan befolyásolná a kiadások hosszú távú trendjét. Ezen a ponton megjegyzik, hogy az AI által támasztott számítási igények még közel sincsenek a csúcspontjukhoz.

A végső következtetésükben hangsúlyozzák, hogy komoly túlzás lenne azt feltételezni, miszerint a DeepSeek által bevezetett újítások ismeretlenek a globális AI-fejlesztő központok széles spektrumában.

Tehát attól, hogy Kína egy sokkal olcsóbb AI platformot hozott létre, a Bernstein szerint DeepSeek-sztori csak egy része a nagy egésznek. A Meta múlt héten bejelentette, hogy jelentősen növeli az idei évre vonatkozó AI-beruházásait, Trump elindította a Stargate-projektet, és Kína is bejelentett egy 1000 milliárd jüanos nagyságrendű AI-beruházási tervet. Ezek alapján továbbra is sok chipre lesz szükségünk, még akkor is, ha ezek végül jóval olcsóbbak lesznek - írja Bernstein.

Ne higgyünk a neten jelenleg terjedő világvége-forgatókönyveknek

- zárják az elemzést.

A címlapfotó forrása: Andrey Rudakov/Bloomberg, Getty Images jóvoltából.

Ez a szöveg nem tekinthető befektetési tanácsadásnak vagy ajánlásnak. További részletes jogi információkért kérjük, forduljon szakértőhöz.

Related posts