szerző:
HVG
Tetszett a cikk?

Néhány kutató fillérekből készített egy olyan nyelvi modellt, ami majdnem ott tart tudásban, mint a nagyok.

A mesterséges intelligencia drága műfaj – vallotta mindenki, egészen addig, míg a kínai DeepSeek nem lépett a porondra, állítva, hogy az ő MI-jük nem került több százmillió dollárba, „csak” 5,6 millióba. A fillérekből faragott DeepSeek sikere dollármiliárdokat fújt ki a leggazdagabb techguruk zsebéből, akik nagyon szeretnék megérteni, mi lehet a titok.

Ehhez adódhat még hozzá, hogy a Stanford és a Washingtoni Egyetem MI-kutatói azt állítják egy friss publikációjukban, hogy kevesebb mint 50 dollárból tudtak betanítani egy úgynevezett érvelő MI-modellt. Ez körülbelül 19 500 forint – ami két fő nem fényűző vacsorája egy átlagos magyarországi étteremben. (És akkor a desszert már nem is biztos, hogy belefér.)

A kutatók elmondása szerint „felhőalapú számítási krediteket” használtak a betanítás során, az s1 nevű modell pedig hasonló fejlett érvelési képességekkel bír, mint az OpenAI o1-es és a DeepSeek R1-es modellje. Aki kíváncsi rá, meg is találja az s1-et a GitHubon, ahol a betanításához használt adatok és kódok is elérhetők.

Az OpenAI állítja: bizonyítékot talált arra, hogy a technológiájával is fejlesztették a DeepSeek MI-t

A technológiája jogszerűtlen felhasználásával vádolja a DeepSeek fejlesztőjét a ChatGPT mögött álló OpenAI.

A szakemberek elmondták: egy készen kapható alapmodellel indítottak, majd hangolták tovább a desztillációnak nevezett eljárással. Ez az a folyamat, melynek során egy másik nyelvi modell válaszain gyakorol. Ennek az alkalmazásával már az OpenAI is megvádolta a DeepSeeket. Az s1 azonban a Google Gemini 2.0 Flash Thinking Experimental nevű modelljéből lett desztillálva.

Mindez, jegyzi meg a TechCrunch, sok kérdést felvet. Egyrészt mi lesz az irány, ha egy drága, sok-sok dollármillióba kerülő modellt fillérekből le lehet másolni, ráadásul pontosan? Nem meglepő módon a nagy szerelők nem túl lelkesek emiatt, elvégre dollármilliárdokat költöttek a megoldásaik kifejlesztésére.

Azt ugyanakkor fontos kiemelni, hogy a Google ingyenes hozzáférést biztosít a nevezett modelljéhez, némi korlátozással. Az ugyanakkor szembemegy a feltételeikkel, hogy valaki visszafejtse azt, és egy konkurens eszközt készítsen.

Az egyik legnépszerűbb mesterséges intelligencia fejlesztője azt kéri a munkára jelentkezőktől, hogy ne használjanak MI-t

Az Anthropic szeretné felmérni a céghez jelentkezők „nem MI-asszisztált kommunikációs készségeit is”, ezért kérik, ne használjanak MI-t. Ez azért visszás, mert a cég azzal hirdeti a termékeit, hogy mennyire emberi válaszokat adnak.

Az s1 betanítása kevesebb mint 30 perc volt, és tizenhat darab Nvidia H100 GPU-ra volt szükség hozzá. Ennek ellenére a képességeit tekintve kifejezetten erős a kutatók szerint. A desztilláció használatával azonban bizonyos, hogy nem lehet sokkal jobb modelleket készíteni, így ha mindenki csak a másikon tanítaná be az eszközeit, érdemi előrelépés nem történne a területen.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!