Épp most tanítják meg a robotoknak, hogy magukban beszéljenek
A Google DeepMind csapatának mérnökei emberi módon segítenék a robotok tanulását: elismételtetik velük azt, amit látnak. Persze mindezt a robot csendben, magában teszi csak meg.
HVG
Érdekes újításon dolgoznak a DeepMind, a Google mesterségesintelligencia-kutatással foglalkozó részlegének mérnökei: egy olyan rendszeren, ami lehetővé teszi a robotok számára, hogy magukban beszéljenek. Egész pontosan az úgynevezett „belső monológról” van szó, egyfajta narrációról, amit az ember is gyakran alkalmaz a hétköznapokban. A szakemberek azt várják, hogy a megoldástól a robotok hatékonyabban tanulják majd meg a különböző feladatokat.
A fejlesztésre egy nemrég benyújtott szabadalmi bejelentés alapján derült fény. A módszer lényege, hogy a gépek képeken vagy videókon keresztül figyelik meg a feladatokat, és természetes nyelvű leírásokat generálnak a látottakról. Ha például a videóban látott személy felvesz egy csészét az asztalról, akkor a robot ezt szövegesen is megerősíti magának: „felvett egy csészét az asztalról”.
Ez a belső narráció segíthet a vizuális bemenetet cselekvésekhez kapcsolni, lehetővé téve, hogy előzetes képzés nélkül megértsék és interakcióba lépjenek számukra addig ismeretlen tárgyakkal, miközben csökken a memória- és számítási igény – magyarázza az Interesting Engineering.
A megoldás segíthet a robotnak abban, hogy ha legközelebb találkozik egy ilyen helyzettel – például fel kell vennie a csészét az asztalról –, akkor fel tudja idézni a korábbi cselekvést, és helyen döntést tud hozni.
A The Daily Upside szerint a belső monológ hozzáadásával a robotok kontextusban láthatják a dolgokat, lehetővé téve számukra, hogy jobb döntéseket hozzanak és hatékonyabban alkalmazkodjanak az új helyzetekhez. Ez az innováció jelentősen javíthatja a robotok tanulási és működési módját dinamikus, valós környezetekben.
A kezdő asztaliteniszezőket már könnyű szerrel legyőzi a Google DeepMind mérnökei által fejlesztett mesterséges intelligencia. Az olimpiai szint még messze, de 2028-ra talán az is meglehet.
A Google a jövőben minden bizonnyal nagyobb hangsúlyt akar fektetni a robotikára. A cég nemrég beépítette a Gemini 2.0 nyelvi modelljét egy robotba. A nyelvi modell persze nem egy az egyben lett átültetve robotkörnyezetbe, az egyik átalakított változat a Gemini Robotics VLA (vision-language-action) nevet kapta. Ez fejlettebb, fizikai cselekvésekkel is ki van egészítve; szavak helyett ezek is lehetnek a válaszok.
Van egy másik nyelvi modell is, ami dolgozik a szerkezetben; ez a Gemini Robots-ER, ami egy látás-nyelvi (vision-language / VLM) modell, ami fejlett térbeli megértést foglal magában. Ez segít az MI-nek például abban, hogy ki tudjon igazodni a környezetében, akkor is, ha az valós időben változik.
A DeepMind mostani megoldása a jövőben ügyesebbé és rugalmasabbá teheti a robotokat, a gépek pedig több feladatot tudnak majd átvenni az embertől.
Harmadik birodalmi mintára, de nem német minőségben készült el 50 éve a Balatonig vezető autópálya első fontosabb szakasza. Az állampártnak elég volt, hogy csak Kádár János balatonaligai nyaralójáig ért a sztráda.