szerző:
HVG
Tetszett a cikk?

Az AgiBot nevű cég olyan rendszert fejlesztett a humanoid robotjához, ami minden korábbi hasonló eszköz teljesítményét felülmúlta.

A humanoid robotok fejlesztésével foglalkozó kínai AgiBot egy olyan új mesterségesintelligencia-modellt mutatott be, melynek célja, hogy a humanoid robotok minél hatékonyabban tudják elvégezni a valós feladatokat. A Genie Operator–1 (GO–1) nevű rendszer hatalmas kép- és videóadatokat dolgoz fel, hogy segítse a robotokat az emberi cselekvések jobb értelmezésében – írja a Interesting Engineering.

A GO–1 az úgynevezett látásnyelvi modelleket használja a nagy mennyiségű kép és videó feldolgozására. A Vision-Language-Latent-Action (ViLLA) nevű keretrendszer a látás, a nyelv és a cselekvés modellezésének kombinálásával javítja a robotok tanulását – állítja a cég. A rendszer betanításához kiváló minőségű adatokat, valamint az interneten található videókat használták fel a mérnökök.

A keretrendszer két kulcselemből áll: az egyik a Vision-Language Model (VLM), a másik pedig a Mixture of Experts (MoE). A VLM hatalmas mennyiségű multimodális adatot dolgoz fel az internetről a jelenetek megértése, valamint a nyelvi megértés fejlesztése érdekében. A MoE két részből áll: egyfelől különféle forrásokból tanul meg általános cselekvési mintákat, másfelől pedig több mint egymillió valós robotmozgáson kiképezve finomítja a mozdulatokat és a feladat végrehajtásának módját.

AgiBot GO-1: The Evolution of Generalist Embodied Foundation Model from VLA to ViLLA

Today, AgiBot launches Genie Operator-1 (GO-1), an innovative generalist embodied foundation model. GO-1 introduces the novel Vision-Language-Latent-Action (ViLLA) framework, combining a Vision-Language Model (VLM) and Mixture of Experts (MoE). The VLM utilizes internet-scale heterogeneous data to establish a solid foundation for scene and object understanding.

A VLM először elemzi a bemeneti adatokat, majd a MoE egy tervet készít a műveleti sorrend előrejelzésével. A MoE második eleme ezt alakítja át valós mozdulatokká.

Az eszközt öt különböző feladattal tesztelték. A cég szerint a GO–1 ezekben felülmúlta a legmodernebb modelleket, az elvégzés sikerességének arányát pedig 46 százalékról 78 százalékra javította. Jelentős előrelépést mutatott például az olyan feladatok terén, mint az italok kitöltése és a víz öntése.

Introducing AgiBot World

👉 Project Open Source Address: HuggingFace: https://lnkd.in/gMmjg6Mg Github:https://lnkd.in/gZPTGK4W Project Homepage:https://agibot-world.com/ 👉 Introducing AgiBot World, the first large-scale robotic learning dataset designed to advance multi-purpose robotic policies. It is accompanied by foundation models, benchmarks, and an ecosystem to democratize access to high-quality robot data for the academic community and the industry, paving the path towards the “ImageNet Moment” for Embodied AI.

Az AgiBot szerint a GO–1 azon képessége, hogy mind az emberi, mind a robotadatokból tanulni tud, lehetővé teszi, hogy alkalmazkodjon az újszerű feladatokhoz, együttműködjön más feladatokkal, valamint folyamatosan képes legyen adaptálódni a valós helyzetekhez.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!