A Microsoft fejlesztői gőzerővel dolgoznak egy olyan algoritmuson, amely nemcsak a fotón szereplők életkorát tudja megtippelni, hanem a képet is képes a lehető legnagyobb pontossággal leírni. A dolog elsősorban a mesterséges intelligencia fejlesztése miatt érdekes, hosszú távon ugyanis a jelenleginél még hatékonyabbak lehetnek az olyan személyi asszisztensek, mint a Microsoft Cortana.
A Microsoft algoritmusa elsőként elemzi a képet, majd a látottak alapján a lehető legnagyobb pontossággal címkézi fel azt. A folyamatnak itt még nincs vége, a következő lépésben ugyanis a címkék alapján megpróbálja mondatba foglalni azt, miről is szól az adott fotó. A cég blogján publikált eredmény szerint például az alábbi képen a tömeg, tart, lila, nő, kamera, macska szavak alapján több mondatot is generált a program, végül pedig a “Egy nő kamerát tart a tömegben” leírás született meg.
A végső cél Margaret Mitchell, a Microsoft kutatórészlegének munkatársa szerint az, hogy a képeket a gép végül szöveggé tudja konvertálni, a technológiát pedig később be tudják építeni a Microsoft személyi asszisztensébe, amely így még nagyobb segítséget adhat például a látássérült felhasználóknak.