Dungeons & Dragons szerepjátékkal vizsgáztatják az AI-t

A mesterséges intelligencia hosszú távú hasznossága kicsit olyan, mint amikor leülünk társasjátékozni. Fontos, hogy betartsa a szabályokat, és képes legyen együttműködni társaival és az emberrel. Nem véletlen, hogy egy igen népszerű asztali szerepjátékkal, a D&D-vel vizsgáztatják ezekből a szempontokból az AI-t.

  • HVG

A mesterséges intelligencia valójában akkor válhat igazán hasznossá, ha képes hosszú távú terveket készíteni, betartani a szabályokat és „csapatban” dolgozni. Kicsit arra hajaz ez, mint amikor közösen játszunk valamit, talán ezért is használták fel amerikai kutatók a népszerű Dungeons & Dragons asztali szerepjátékot arra, hogy felmérjék az AI-modellek képességét a hosszú távú stratégiák kidolgozására, valamint együttműködésüket más MI-rendszerekkel és az emberi játékosokkal. Azért esett a választás erre a játékra, mert optimális tesztkörnyezet lehet a kreativitás és szigorú szabályok egyedülálló keveréke miatt – írja a Live Science.

A D&D játékban a modelleknek bizonyítaniuk kell a tervezés, a kommunikáció és az emlékezés képességét, valamint az ellenfelek taktikájának és szándékainak ismeretét. A tanulmányhoz létrehoztak egy speciális D&D Agents nevű keretrendszert. Ebben a modellek más LLM-ekkel is játszhattak, vagy emberi játékosok maguk is betölthették a szerepek bármelyikét.  Például egy LLM lehetett a mesélő (kalandmester, Dungeon Master), míg két másik LLM és két emberi játékos játszotta a hősöket.

„A Dungeons & Dragons természetes kísérleti terep a többlépéses tervezés, a szabályok betartásának és a csapatstratégiának az értékelésére. Mivel a játék párbeszédeken keresztül bontakozik ki, a D&D közvetlen utat nyit az ember és a mesterséges intelligencia interakciója előtt is: az ágensek segíthetnek más embereknek vagy együtt játszhatnak velük” – mondta Prithviraj Ammanabrolu, a Kaliforniai Egyetem adjunktusa, a NeuriPS 2025 konferencián bemutatott tanulmány vezető szerzője.

A kutatók három különböző MI-modellt futtattak a szimuláción, a DeepSeek-V3-t, a Claude Haiku 3.5-öt és a GPT-4-et. Először mindhárom LLM-re szükségük volt egy D&D játék szimulálásához. A szimuláció pontossága érdekében a modelleket egy, a D&D szabályain alapuló játékmotorral párosították, amely térképeket és erőforrásokat biztosított a játékosoknak, és korlátként működött a hallucinációk minimalizálása érdekében.

A tanulmányban a mesterséges intelligencia által vezérelt ügynökök játékosokként és a játékosokkal harcoló szörnyekként is viselkedtek. A szimulációk ezúttal a harcra összpontosítottak. A modellek egymás, valamint a kutatók által toborzott több mint 2000 tapasztalt D&D játékos ellen játszottak. Az LLM-ek 27 különböző forgatókönyvet modelleztek és játszottak le, amelyeket a jól ismert D&D harci beállítások közül választottak ki.

Összességében a Claude Haiku 3.5 mutatta a legjobb harci hatékonyságot, különösen a nehezebb forgatókönyvekben. Könnyebb forgatókönyvekben az erőforrás-megtakarítás (a karakter által használható varázslatok vagy képességek száma, vagy a rendelkezésre álló gyógyító italok száma) mindhárom modellben meglehetősen hasonló volt. Mivel ezek elszigetelt harci forgatókönyvek voltak, kevés ösztönző volt arra, hogy az erőforrásokat későbbre tartogassák, mint ahogyan az egy teljes kaland lejátszásakor történhetett volna.

Nehezebb helyzetekben a Claude Haiku 3.5 nagyobb hajlandóságot mutatott arra, hogy a számára kiosztott erőforrások több részét felhasználja, ami jobb eredményekhez vezetett. A GPT-4 szorosan mögötte végzett.

A kutatók azt is értékelték, hogy a modellek mennyire tudtak megmaradni a karakterük szerepében. Bevezettek erre egy szerepminőség (Acting Quality) mérőszámot, amellyel még azt is figyelték, hogy hány különböző hangot vagy stílust használnak a beszédükben. Azt találták, hogy a DeepSeek-V3 sok velős, első személyben megfogalmazott gúnyolódást generált, de gyakran használta ugyanazokat a hangokat, és kevesebb változatosságot mutatott a karakterek között. Ez viszont arról árulkodik, hogy a modell nem igazán érez különbséget a szerepek személyisége között, csak mechanikusan generálja a beszólásokat, felszólításokat.

A Claude Haiku 3.5 jobban alkalmazkodott a karakterekhez, a beszéde – ezeknek megfelelően – más-más stílusú volt. Ez több személyiségérzetet és hitelességet adott a beszélgetésekhez. A ChatGPT volt a középutas: vegyítette a szerepben lévő narratívát és a taktikai metanyelvet, amely a stratégiai döntésekre fókuszált.

A kutatók szerint ez a fajta tesztelési keretrendszer fontos annak értékeléséhez, hogy a modellek mennyire képesek hosszú távon emberi beavatkozás nélkül működni. Ez a mesterséges intelligencia azon képességének mércéje, hogy önállóan cselekedjen, miközben koherens és megbízható marad, ez viszont remek memóriát és stratégiai gondolkodást igényel. A kutatócsoport tovább menne ezen az úton. A következő lépések közé tartozik a teljes D&D kampányok szimulálása, nem csak a harcoké. 

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások