Újfajta technológiát mutatott be az Nvidia, ám ezúttal nem egy chipről van szó. A vállalat Helix Parallelism nevű innovációja lehetővé teszi a mesterséges intelligencia (MI) számára, hogy több millió szót dolgozzon fel egyszerre – például egy enciklopédiát –, miközben villámgyors válaszokat ad a felhasználóknak. A frissítést a Blackwellhez, az NVIDIA legújabb GPU-rendszeréhez tervezték a mérnökök.
Ahogy a mesterségesintelligencia-eszközök egyre nagyobb méretben és összetettségben jelennek meg – ilyenek például az esetjogi archívumokat olvasó asszisztensek, vagy a hónapokig tartó beszélgetéseket nyomon követő chatbotok –, az NVIDIA áttörése lehetővé teszi számukra, hogy több felhasználót és gyorsabban szolgáljanak ki.
A nagyméretű MI-modellek egyik fő problémája akkor ütközik ki, amikor hatalmas mennyiségű korábbi bemeneti adatot (kontextust) kell felhasználniuk az új tartalom generálására. Minden egyes, a mesterséges intelligencia által előállított szóhoz át kell szkennelni a korábbi, úgynevezett KV gyorsítótárban tárolt tokeneket. Ennek a gyorsítótárnak az ismételt olvasása jelentős mértékben terheli meg a GPU memória sávszélességét.
Ha mindez nem lenne elég, az úgynevezett Feed-Forward Networköt (FFN) is be kell töltenie, hogy minden szót feldolgozzon. Ez a folyamat jelentősen lassítja a működést, főleg akkor, ha valós időben kell reagálnia a rendszernek – például egy beszélgetés során.
Korábban a mérnökök a Tensor Paralellelism (TP) nevű módszert használták a GPU-k terhelésének elosztására, ez azonban csak egy bizonyos pontig segít: egy bizonyos méret után a GPU-k elkezdik duplikálni a KV gyorsítótárat, ami még nagyobb memóriaterhelést eredményez.
Ezt a problémát küszöböli ki a Helix, ami elkerüli a duplikációt és hatékonyan kezeli a memória-hozzáférést. Egyszerűen fogalmazva, a Helix részekre osztja a munkát: ahelyett, hogy minden GPU külön olvasná be a tokenek teljes előzményét, mindegyik csak egy szeletet kezel.
A millió tokennel dolgozó DeepSeek-R1 671B modell szimulációja kapcsán a mérnökök azt találták, hogy az új megoldás 32-szer több felhasználót tud kiszolgálni egyszerre anélkül, hogy nőne a késleltetés ideje. Mindez azt jelenti, hogy a Helix lehetővé teszi a mesterségesintelligencia-modellek méretének és sebességének skálázását a valós idejű teljesítmény feláldozása nélkül.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.