Dungeons & Dragons szerepjátékkal vizsgáztatják az AI-t

A mesterséges intelligencia hosszú távú hasznossága kicsit olyan, mint amikor leülünk társasjátékozni. Fontos, hogy betartsa a szabályokat, és képes legyen együttműködni társaival és az emberrel. Nem véletlen, hogy egy igen népszerű asztali szerepjátékkal, a D&D-vel vizsgáztatják ezekből a szempontokból az AI-t.

A mesterséges intelligencia valójában akkor válhat igazán hasznossá, ha képes hosszú távú terveket készíteni, betartani a szabályokat és „csapatban” dolgozni. Kicsit arra hajaz ez, mint amikor közösen játszunk valamit, talán ezért is használták fel amerikai kutatók a népszerű Dungeons & Dragons asztali szerepjátékot arra, hogy felmérjék az AI-modellek képességét a hosszú távú stratégiák kidolgozására, valamint együttműködésüket más MI-rendszerekkel és az emberi játékosokkal. Azért esett a választás erre a játékra, mert optimális tesztkörnyezet lehet a kreativitás és szigorú szabályok egyedülálló keveréke miatt – írja a Live Science.

A D&D játékban a modelleknek bizonyítaniuk kell a tervezés, a kommunikáció és az emlékezés képességét, valamint az ellenfelek taktikájának és szándékainak ismeretét. A tanulmányhoz létrehoztak egy speciális D&D Agents nevű keretrendszert. Ebben a modellek más LLM-ekkel is játszhattak, vagy emberi játékosok maguk is betölthették a szerepek bármelyikét. Például egy LLM lehetett a mesélő (kalandmester, Dungeon Master), míg két másik LLM és két emberi játékos játszotta a hősöket.

„A Dungeons & Dragons természetes kísérleti terep a többlépéses tervezés, a szabályok betartásának és a csapatstratégiának az értékelésére. Mivel a játék párbeszédeken keresztül bontakozik ki, a D&D közvetlen utat nyit az ember és a mesterséges intelligencia interakciója előtt is: az ágensek segíthetnek más embereknek vagy együtt játszhatnak velük” – mondta Prithviraj Ammanabrolu, a Kaliforniai Egyetem adjunktusa, a NeuriPS 2025 konferencián bemutatott tanulmány vezető szerzője.

A kutatók három különböző MI-modellt futtattak a szimuláción, a DeepSeek-V3-t, a Claude Haiku 3.5-öt és a GPT-4-et. Először mindhárom LLM-re szükségük volt egy D&D játék szimulálásához. A szimuláció pontossága érdekében a modelleket egy, a D&D szabályain alapuló játékmotorral párosították, amely térképeket és erőforrásokat biztosított a játékosoknak, és korlátként működött a hallucinációk minimalizálása érdekében.

A tanulmányban a mesterséges intelligencia által vezérelt ügynökök játékosokként és a játékosokkal harcoló szörnyekként is viselkedtek. A szimulációk ezúttal a harcra összpontosítottak. A modellek egymás, valamint a kutatók által toborzott több mint 2000 tapasztalt D&D játékos ellen játszottak. Az LLM-ek 27 különböző forgatókönyvet modelleztek és játszottak le, amelyeket a jól ismert D&D harci beállítások közül választottak ki.

Összességében a Claude Haiku 3.5 mutatta a legjobb harci hatékonyságot, különösen a nehezebb forgatókönyvekben. Könnyebb forgatókönyvekben az erőforrás-megtakarítás (a karakter által használható varázslatok vagy képességek száma, vagy a rendelkezésre álló gyógyító italok száma) mindhárom modellben meglehetősen hasonló volt. Mivel ezek elszigetelt harci forgatókönyvek voltak, kevés ösztönző volt arra, hogy az erőforrásokat későbbre tartogassák, mint ahogyan az egy teljes kaland lejátszásakor történhetett volna.

Nehezebb helyzetekben a Claude Haiku 3.5 nagyobb hajlandóságot mutatott arra, hogy a számára kiosztott erőforrások több részét felhasználja, ami jobb eredményekhez vezetett. A GPT-4 szorosan mögötte végzett.

A kutatók azt is értékelték, hogy a modellek mennyire tudtak megmaradni a karakterük szerepében. Bevezettek erre egy szerepminőség (Acting Quality) mérőszámot, amellyel még azt is figyelték, hogy hány különböző hangot vagy stílust használnak a beszédükben. Azt találták, hogy a DeepSeek-V3 sok velős, első személyben megfogalmazott gúnyolódást generált, de gyakran használta ugyanazokat a hangokat, és kevesebb változatosságot mutatott a karakterek között. Ez viszont arról árulkodik, hogy a modell nem igazán érez különbséget a szerepek személyisége között, csak mechanikusan generálja a beszólásokat, felszólításokat.

A Claude Haiku 3.5 jobban alkalmazkodott a karakterekhez, a beszéde – ezeknek megfelelően – más-más stílusú volt. Ez több személyiségérzetet és hitelességet adott a beszélgetésekhez. A ChatGPT volt a középutas: vegyítette a szerepben lévő narratívát és a taktikai metanyelvet, amely a stratégiai döntésekre fókuszált.

A kutatók szerint ez a fajta tesztelési keretrendszer fontos annak értékeléséhez, hogy a modellek mennyire képesek hosszú távon emberi beavatkozás nélkül működni. Ez a mesterséges intelligencia azon képességének mércéje, hogy önállóan cselekedjen, miközben koherens és megbízható marad, ez viszont remek memóriát és stratégiai gondolkodást igényel. A kutatócsoport tovább menne ezen az úton. A következő lépések közé tartozik a teljes D&D kampányok szimulálása, nem csak a harcoké.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások

Kollégáira vallott és beismerő vallomást tett a Szőlő utcai javítóintézet volt rendészeti vezetője, aki véresre verte és még a betegágyán is bántotta áldozatát

Dungeons & Dragons szerepjátékkal vizsgáztatják az AI-t

A káosz garantált: Messi első, angolok elleni meccsén dől el, ki küzd meg a világbajnoki címért Spanyolországgal

Kritikusan értékelt a kiesés után Mbappé: Technikailag nagyon gyengék voltunk, semmilyen veszélyt nem jelentettünk

Még mindig nem tudni, pontosan milyen hosszú lesz a foci-vb-döntő félidei show-műsora, de egy dolog már biztos

Spanyolország az első döntős, a franciáknak semmi sem jött össze

A koronaherceg adta ütemre evezett a norvég válogatott százezer ünneplő szurkolója – videó

„Ne is várjanak tőlem semmit” – kritikusainak üzent Yamal a vb-elődöntő előtt

Már a NOB-nál is bepanaszolták Gianni Infantinót

Leváltották a NAV két vezetőjét, akik érintettek az aranykonvoj ügyében

Kollégáira vallott és beismerő vallomást tett a Szőlő utcai javítóintézet volt rendészeti vezetője, aki véresre verte és még a betegágyán is bántotta áldozatát

Videón, ahogy Orbán Viktor méltatlankodik a Franciaország – Spanyolország meccsen

Farkas Örs államtitkár igazította el a TEK-főigazgatót az aranykonvoj elleni akcióról – derül ki Hajdu János vallomásából

Megvan, ki rendezheti az idei augusztus 20-át Balásy cége helyett: látványosan kisebb lesz a költség, de a show is

GKI: Az ország egyik felénél van a vagyon 95 százaléka, a másik felénél 5 százalék

Videón, ahogy a kölni lövöldözőt elfogja a TEK Budapesten

A vb játékosa is lehet, pedig sokan a kezdőből is kihagyták volna

„Jövő héten igazán rosszra fordul a helyzet számukra” – Trump bejelentette, hogy Irán kritikus infrastruktúráját fogják támadni

Bódis Kriszta szociális miniszter lehetett volna, de szerinte Magyar Péter jogosan érvelt ez ellen

Előfordult, hogy egyszerre öt állása is volt a fideszes Szűcs Gábornak

Az Alkotmánybíróságnak már van terve a Polt Péter utáni időkre

A kecskeméti polgármester szerint Magyar Péter a Mercedesszel üzent neki

Marabu Féknyúz: Botond

Tévhit, hogy az agy 25 éves korra válik felnőtté

Vége a dalnak: az MCC-vel együtt több más kekva is megszűnik, itt a lista

Egy szigorítással sikerült szétverni egy több tízmilliárdos piacot

Alzheimer-kórt diagnosztizáltak a pilótánál, aki kényszerleszállást hajtott végre a Hudson folyón

Brutális: 570 hibát javít a Windows júliusi frissítése, azonnal telepíteni kell

Lefagyva figyelik a szakértők, mikor fog megint mellényúlni a súlyos káderhiányban szenvedő Magyar-kormány

Parászka Boróka: Ez az eksztázis pillanata azoknak, akik a NER-önkény kárvallottjai

Tanács Zoltán: Orbán Viktor volt a hősöm

Vidéki prókátor: Van egy ügy, ami könnyen banánhéj lehet Orbán számára