Egyet csavartak rajta, az eddiginél 32-szer több embernek válaszol egyszerre az új, brutálgyors MI

Nagyságrendileg több felhasználót tudnak majd kiszolgálni egyszerre a mesterségesintelligencia-modellek, miután az Nvidia csavart egyet a háttérben futó működési mechanizmuson.

  • HVG HVG
Egyet csavartak rajta, az eddiginél 32-szer több embernek válaszol egyszerre az új, brutálgyors MI

Újfajta technológiát mutatott be az Nvidia, ám ezúttal nem egy chipről van szó. A vállalat Helix Parallelism nevű innovációja lehetővé teszi a mesterséges intelligencia (MI) számára, hogy több millió szót dolgozzon fel egyszerre – például egy enciklopédiát –, miközben villámgyors válaszokat ad a felhasználóknak. A frissítést a Blackwellhez, az NVIDIA legújabb GPU-rendszeréhez tervezték a mérnökök.

Ahogy a mesterségesintelligencia-eszközök egyre nagyobb méretben és összetettségben jelennek meg – ilyenek például az esetjogi archívumokat olvasó asszisztensek, vagy a hónapokig tartó beszélgetéseket nyomon követő chatbotok –, az NVIDIA áttörése lehetővé teszi számukra, hogy több felhasználót és gyorsabban szolgáljanak ki.

A nagyméretű MI-modellek egyik fő problémája akkor ütközik ki, amikor hatalmas mennyiségű korábbi bemeneti adatot (kontextust) kell felhasználniuk az új tartalom generálására. Minden egyes, a mesterséges intelligencia által előállított szóhoz át kell szkennelni a korábbi, úgynevezett KV gyorsítótárban tárolt tokeneket. Ennek a gyorsítótárnak az ismételt olvasása jelentős mértékben terheli meg a GPU memória sávszélességét.

Lelőttek és szétszedtek az ukránok egy orosz drónt, amit benne találtak, az lenullázhatja a légvédelmeket

Az oroszok MS001 drónja már nem koordinátákkal dolgozik a csapás előtt, hanem maga választja ki a célpontokat.

Ha mindez nem lenne elég, az úgynevezett Feed-Forward Networköt (FFN) is be kell töltenie, hogy minden szót feldolgozzon. Ez a folyamat jelentősen lassítja a működést, főleg akkor, ha valós időben kell reagálnia a rendszernek – például egy beszélgetés során.

Korábban a mérnökök a Tensor Paralellelism (TP) nevű módszert használták a GPU-k terhelésének elosztására, ez azonban csak egy bizonyos pontig segít: egy bizonyos méret után a GPU-k elkezdik duplikálni a KV gyorsítótárat, ami még nagyobb memóriaterhelést eredményez.

Ezt a problémát küszöböli ki a Helix, ami elkerüli a duplikációt és hatékonyan kezeli a memória-hozzáférést. Egyszerűen fogalmazva, a Helix részekre osztja a munkát: ahelyett, hogy minden GPU külön olvasná be a tokenek teljes előzményét, mindegyik csak egy szeletet kezel.

Megvádolták a Huaweit: a kínai Alibabától lophatta a mesterséges intelligenciáját

Egy, a GitHubra felkerült jelentés szerint a Huawei valójában lemásolta az Alibaba mesterséges intelligenciáját, és nem sajátot fejlesztett.

A millió tokennel dolgozó DeepSeek-R1 671B modell szimulációja kapcsán a mérnökök azt találták, hogy az új megoldás 32-szer több felhasználót tud kiszolgálni egyszerre anélkül, hogy nőne a késleltetés ideje. Mindez azt jelenti, hogy a Helix lehetővé teszi a mesterségesintelligencia-modellek méretének és sebességének skálázását a valós idejű teljesítmény feláldozása nélkül.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.