Mit lát egy népről az, aki a világ legnagyobb internetes videomegosztóján keres rá, a legnépszerűbb közvetítőnyelvet, az angolt használva? E kérdésre kereste a választ a hvg.hu munkatársának kutatása, amely a YouTube videomegosztó adatbázisát vizsgálta. Célkeresztben 35 európai nép, a végeredmény több szempontból is érdekes.
A kutatás alapkérdése az volt, megrajzolható-e egy nemzet profilja kisfilmek, szpotok és animációk százai, ezrei segítségével, illetve ez a mozgóképtömeg kifejezhető-e a videókhoz kapcsolt kulcsszavakkal – azaz címkékkel. A kutatás végére kiderült: igen, részben megrajzolható, ám talán ennél is izgalmasabb az eredmény másik fele. De ne siessünk ennyire előre, nézzük előbb a hátteret.
Miért és hogyan lesznek a videókból címkék? – az ötlettől a módszertanig
| Ez ellen nem véd… |
Mindenképpen érdemes megjegyezni azt is, mire nem jó e kutatás. Hiba lenne például azt állítani, hogy az így kapott címkefelhők megmutatják, mi érdekli egy nép internetezőit. Egyrészt előfordulhat, hogy a YouTube-felhasználó egyáltalán nem kategorizálja videóit, vagy nem angolul, hanem saját anyanyelvén címkézi meg felvételeit – bárhogy is tesz, videói kiesnek a mintából. Másrészt semmi sem garantálja, hogy a Danish címkét alkalmazó felhasználó maga dán lenne. |
Ez a kutatás a videókhoz a feltöltők által kapcsolt kategorizáló szavakat, a címkéket (angolul: tageket) választotta e célra. A 2007 augusztusa és októbere között elvégzett adatgyűjtés a kérdéses nép nevének angol megfelelőjére (pl. Hungarian) kapott találati listából indult ki. Ebből egy e célra létrehozott program kiválasztott maximum ezer – amely nép esetében ennyi nem volt, ott minden – videót, és kigyűjtötte a videók mellé társított valamennyi címkét. A leggyakoribb címkékből állt aztán össze az előfordulási számok alapján az úgynevezett címkefelhő. Ennek lényege az, hogy minél gyakoribb egy címke előfordulása, a felhőbe annál nagyobb betűmérettel kerül ki. A leggyakoribb címke 32-es, a legritkábbak pedig 10-es betűmérettel képviseltetik magukat az egyébként abc-sorrendbe rendezett listán.
Az automatikus címkegyűjtést „kézi” ellenőrzés követte, melynek során kiderült, hogy esetenként bizonyos címkék nem önállóan, hanem párban jelennek meg. Ezek összevonásával tovább sikerült javítani a felhő beszédességén – teljesen másról árulkodik például önmagában a lion (oroszlán) és a king (király) szó, mint a lion king (Oroszlánkirály)). Olyan is előfordult, hogy egy-egy címke bekerült ugyan a leggyakoribbak közé, a nép jellemzése szempontjából azonban nem volt releváns. Jó példa erre a keresztnevek előfordulása: ezekről ugyanis több alkalommal kiderült, hogy a találati listában más-más vezetéknévhez kapcsolódva jelentek meg.
Nem sokat tett hozzá a listához az sem, ha ugyanaz a szó egyes és többes számban (girl, girls), főnév vagy melléknév alakban (fun, funny) alakban szerepelt, így itt is összevonásra került sor. Kivételt ezek alól csupán a népnevek, országok jelentettek: itt – a később bemutatandó „üzengető-funkció” miatt – minden nyelven és formában bennmaradtak a tagek a felhőben. (A népnév verzióit tekintve csúcstartó macedón címkefelhő esetében további érdekesség is született: a macedón címkefelhő olyan nép képét tárja elénk, amelynek egyik legnagyobb problémája éppen az önmaga történelmi népként történő meghatározása illetve az ennek nemzetközi elfogadása közötti feszültség.)
Mintán belüli „fekete lyukba” estek azok a videók, amelyek csupán egy címkét, éppen a nemzettaget (Hungarian) kapták a feltöltőtől, valamint a kevésszer használt címkék. Ezt a problémát manuális utókeresésekkel próbálta orvosolni a kutatás. Feltételezve azt, hogy a Hungarian szóra kereső netező szemében az első száz találat kiemelkedő jelentőségű (végülis ezt kapja elsőként a monitorjára), valamint hogy e videók többek között magas nézettségük miatt kerültek ide, elmondható, hogy az első száz mozgóképnek kiemelkedő szerepe lehet. Ezért a kutatás legutolsó fázisában nem gyakoriság, hanem relevancia alapján kerültek be további címkék a címkefelhőbe. Ez az eddigi statisztikus felfogáshoz képest egy szubjektívebb válogatás, de mindenképpen szükséges az alkalmazása, ha pontos képet szeretnénk kapni (ezek a címkék a felhőkben bordó színnel szerepelnek).


Hírcsatornák
Kinyomtatom
Elküldöm

Kinyomtatom
Elküldöm
