Tech + tudomány hírek
Tech + tudomány hírek
SZÁMÍTÓGÉPES NYELVÉSZKEDÉS

Twitter-fordulatok

Kiben ne merült volna már fel, hogy honnan származnak az új szavak? Ennek eredtek nyomába számítógépes módszerekkel a Birminghami Egyetem nyelvészei, amikor azt vizsgálták, milyen új nyelvi fordulatok fedezhetők fel az Egyesült Államokban 2013 és 2014 folyamán elküldött Twitter-üzenetekben, és azok mely földrajzi régban jelentek meg először. Big data elemzésekhez használt algoritmussal fésülték át az irdatlan adathalmazt (980 mill üzenet 8,9 millrd szavát), és ez alapján 54 új szó vagy kifejezés első megjelenését sikerült lokalizálniuk. Így például megtudták, hogy a szingli szinonimájaként használt „baeless” a déli, egykori gyapottermesztő államok vidékén jelent meg elsőként, míg a közös barátokra utaló „mutuals”-t a nyugati partvidéken pötyögték be először. A geokoordináták alapján aztán a térképen látványosan tudták követni, hogyan terjedtek el ezek a fordulatok az Államokban. „Ez az első alkalom – közölte a kutatásvezető Jack Grieve nyelvészprofesszor –, hogy ilyen hatalmas szóhalmazon lehetett tetten érni új nyelvi jelenségek születését.” A módszer segítségével – vélik a tudósok – a nyelvészet társadalomtudományiból szép lassan adattudományi diszciplínává válhat, és a számítógépes szociolingvisztika képes lesz azonosítani a nyelv egészen rövid idő alatt végbemenő finom változásait, ezáltal pedig új elméleteket dolgozhatnak ki a nyelv fejlődésére. Annyit máris megállapítottak, hogy az Egyesült Államokban az új nyelvi lelemények egyik legfőbb forrása az afroamerikaiak által használt nyelvváltozat.