szerző:

A Google egyik szakembere olyan gépi látási technikát dolgozott ki, amellyel bármelyik képről megmondható, hol is készült.

Válasszon ki véletlenszerűen egy képet a netről, és mondja meg, hol készülhetett. Ha ezen a fotón van valamilyen jól behatárolható fogódzó (egy ismert épület, meghatározó növényzet, valamilyen speciális étel, egy felirat stb.), akkor nem lesz olyan nehéz a dolga. Az emberek ugyanis, jegyzi meg a The Technology Review, ilyen alapon, korábbi tapasztalataikat és a megszerzett tudásukat felhasználva azonosítják be a képek helyét.

De mi a helyzet a gépekkel? A Google számítógépes látással foglalkozó specialistája és kollegái olyan algoritmust dolgoztak ki, amely hasonlóképp mondja meg egy fotóról, hogy az hol készülhetett. A megközelítésük egyszerű, mármint a gépi látást illetően. Berácsozták a világot, körülbelül 26 ezer négyzetre bontották, és annál kisebbek ezek a négyzetek, minél több kép készülhetett az adott helyen. A nagyvárosok tehát jobban be vannak rácsozva, mint a távolabbi régiók, ahol csak ritkán fotóznak, sőt olyan területekkel most nem is foglalkoztak, amelyeken legfeljebb néha készül egy-egy kép (pl. óceánok belseje, sarkvidék).

A csapat ezután egy adatbázist készített weben található képekből, amelyeknél egyértelműek a geolokális adatok, és ezeket párosították az említett négyzetekkel. Egy óriási adatbázisról van egyébként szó, amely mintegy 126 millió képet tartalmaz Exif helymeghatározó adataikkal együtt.

A szakemberek ezután 91 millió kép felhasználásával kezdték tanítani PlaNet névre keresztelt neurális hálózatukat, a cél az volt, hogy a képet „megnézve” találja meg az illeszkedő négyzetet. A fennmaradó körülbelül 35 millió képpel pedig már ellenőriztették a tanultakat.

©

Hogy a gépük pontosságát lemérjék, 2,3 millió képet vettek kölcsön a Flickrről (olyanokat, amelyeknél tagelve volt az a hely is, ahol készültek). A PlaNet a képek 3,6 százalékát utcaszintű pontossággal lokalizálta, 10,1 százalékukat pedig város szinten. A származási országnál már 28,4 százalék, míg a kontinensnél 48 százalék volt ez az arány.

Hogy kontextusba helyezzék az eredményt, sokat látott utazókkal versenyeztették a PlaNetet. A teszt során egy online játékot használtak, amelyben véletlenszerűen választott Google Street View képeket kell elhelyezni egy világtérképen. Az 50 fordulóból 28-at a gép nyert meg, 1131,7 kilométer lokalizációs hibát vétve, míg az emberek 2320,75 kilométert tévedtek. (Ön is kipróbálhatja ezt a játékot, ezen a linken.)

A PlaNet jó teljesítményének a magyarázata, hogy a gép sokkal több helyet „látott”, mint akár a legtöbbet utazó, és megtanulta megkülönböztetni egymástól azokat a finom jeleket, amelyek esetleg fel sem tűnnek az embereknek.

Ami különösen érdekes: a PlaNet modell mindössze 377 MB-ot használ, így a későbbiekben akár az okostelefonokba is bekerülhet.