szerző:
hvg.hu
Tetszett a cikk?

A Google DeepMind sokat tanult a tévézésből: minden eddiginél pontosabban, az embereknél majdnem négyszer jobban tud szájról olvasni.

A Google mesterséges intelligenciáját, a DeepMindot fejlesztő csapat, valamint az Oxfordi Egyetem kutatói a világ eddigi legpontosabb szájról olvasó programját hozták létre – számolt be róla a The Verge. A tudósok több ezer órányi BBC-felvételt nézettek végig a géppel, ami ezután képes volt 46,8 százalékos pontossággal elmondani, miről beszélnek a videókban. Hogy ez mekkora eredmény, azt jól mutatja, hogy ugyanezen a teszten a profi szájról olvasók csupán 12,4 százalékos pontosságot tudtak elérni.

Az Oxfordi Egyetem szakemberei nemrég már bemutattak egy szájról olvasó mesterséges intelligenciát, a LipNetet, ami 93,4 százalékos pontossággal dolgozott az emberek 52,3 százalékos pontosságával ellentétben. Annál a tesztnél azonban csak speciálisan rögzített felvételeket „láthatott” a gép, ahol sablonos mondatokat használtak az alanyok. Ehhez képest a DeepMind a BBC politikai műsorait nézte. Ezek a videók 118 ezer különböző mondatot és 17 500 szót tartalmaztak. Ehhez képest a LipNetnek a levetített felvételeken „csak” 51 különböző szót kellett felismernie.

The Verge

A DeepMind kutatói szerint a fejlesztés számos területen alkalmazható, nagy segítséget jelenthet például a hallássérült embereknek a beszéd megértésében, a jövőben pedig elég lenne csak a kamerába artikulálni a parancsokat, a digitális asszisztens úgy is megértené.

Kérdés persze, hogy mi mindenre használható még ezen kívül a szájról olvasás. Sokak félelme, hogy ezzel egy újabb lehetőség nyílik az emberek megfigyelésére, a The Verge szerint azonban még mindig nagy különbség van egy HD-felbontású felvétel, és egy térfigyelő kamera képe között.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!