Érdekes újításon dolgoznak a DeepMind, a Google mesterségesintelligencia-kutatással foglalkozó részlegének mérnökei: egy olyan rendszeren, ami lehetővé teszi a robotok számára, hogy magukban beszéljenek. Egész pontosan az úgynevezett „belső monológról” van szó, egyfajta narrációról, amit az ember is gyakran alkalmaz a hétköznapokban. A szakemberek azt várják, hogy a megoldástól a robotok hatékonyabban tanulják majd meg a különböző feladatokat.
A fejlesztésre egy nemrég benyújtott szabadalmi bejelentés alapján derült fény. A módszer lényege, hogy a gépek képeken vagy videókon keresztül figyelik meg a feladatokat, és természetes nyelvű leírásokat generálnak a látottakról. Ha például a videóban látott személy felvesz egy csészét az asztalról, akkor a robot ezt szövegesen is megerősíti magának: „felvett egy csészét az asztalról”.
Ez a belső narráció segíthet a vizuális bemenetet cselekvésekhez kapcsolni, lehetővé téve, hogy előzetes képzés nélkül megértsék és interakcióba lépjenek számukra addig ismeretlen tárgyakkal, miközben csökken a memória- és számítási igény – magyarázza az Interesting Engineering.
A megoldás segíthet a robotnak abban, hogy ha legközelebb találkozik egy ilyen helyzettel – például fel kell vennie a csészét az asztalról –, akkor fel tudja idézni a korábbi cselekvést, és helyen döntést tud hozni.
A The Daily Upside szerint a belső monológ hozzáadásával a robotok kontextusban láthatják a dolgokat, lehetővé téve számukra, hogy jobb döntéseket hozzanak és hatékonyabban alkalmazkodjanak az új helyzetekhez. Ez az innováció jelentősen javíthatja a robotok tanulási és működési módját dinamikus, valós környezetekben.
A Google a jövőben minden bizonnyal nagyobb hangsúlyt akar fektetni a robotikára. A cég nemrég beépítette a Gemini 2.0 nyelvi modelljét egy robotba. A nyelvi modell persze nem egy az egyben lett átültetve robotkörnyezetbe, az egyik átalakított változat a Gemini Robotics VLA (vision-language-action) nevet kapta. Ez fejlettebb, fizikai cselekvésekkel is ki van egészítve; szavak helyett ezek is lehetnek a válaszok.
Van egy másik nyelvi modell is, ami dolgozik a szerkezetben; ez a Gemini Robots-ER, ami egy látás-nyelvi (vision-language / VLM) modell, ami fejlett térbeli megértést foglal magában. Ez segít az MI-nek például abban, hogy ki tudjon igazodni a környezetében, akkor is, ha az valós időben változik.
A DeepMind mostani megoldása a jövőben ügyesebbé és rugalmasabbá teheti a robotokat, a gépek pedig több feladatot tudnak majd átvenni az embertől.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.