szerző:
HVG
Tetszett a cikk?

Amerikai kutatók vizsgálata szerint a YouTube-on lévő videók óriási része személyes jelleggel készített, magáncélú tartalom. Például egy gyermek születésnapi zsúrját örökíti meg, vagy baráti nyaralás fotói vannak benne. A mesterséges intelligenciát betanító cégeknek az ilyesmik aranybányát jelentenek – aminek persze nem mindenki örül.

Ahhoz, hogy a mesterséges intelligenciát (MI) betaníthassák a fejlesztők, rengeteg adatra van szükség. Az OpenAI technológiai igazgatója, Mira Murati néhány hónapja egy interjúban árulta el, hogy a cég videókészítő mesterséges intelligenciáját, a Sorát YouTube-videókon képzi ki. Emiatt rögtön felháborodásának adott hangot a YouTube vezérigazgatója, Neal Mohan, holott a cég hasonló koncepcióban képzi a saját MI-jét.

De mit is jelent pontosan az, ha egy cég a YouTube-videókon tréningezi az algoritmusát? Ezt a kérdést igyekeztek megválaszolni a Massachusettsi Amherst Egyetem (UMass Amherst) médiakutatói, tanulmányukat pedig a Journal of Quantitative Description: Digital Media című tudományos lap hasábjain publikálták. A csapat két tudósa, Ryan McGrady és Ethan Zuckerman a The Conversationön megjelent cikkben emelte ki a tanulmány fontosabb megállapításait, az adatokat pedig a TubeStats nevű oldalon külön is közölték.

A szakemberek becslése szerint a YouTube-ra eddig mintegy 14,8 milliárd videót töltöttek fel a felhasználók, és ez a szám folyamatosan növekszik. A platformon megtekintett videók 70 százaléka az oldal ajánló algoritmusától származik – ezek például a szokásos influenszertartalmak –, ám ez nem azt jelenti, hogy a YouTube-on ezek a tartalmak vannak többségben. A kutatók szerint ugyanis a videók nagy része személyes: családi ünnepségekről készültek, zenés szelfikről van szó, házi feladatokról és azok megoldásáról, vagy épp táncoló gyerekeket látni a felvételeken.

A vizsgálat szerint a videók jelentős részét nem a széles nyilvánosságnak szánták készítőik. Erről árulkodik az is, hogy ezek nézettsége alacsony, ugyanakkor az elköteleződés – a lájkok vagy a hozzászólások száma – arányosan magas. Emellett sok olyan felvétel is van a platformon, ami a koronavírus-járvány idején készült: oktatási anyagok, konferenciahívások felvétele és hasonlók, amelyeket szintén csak egy kis közönségnek szántak.

TubeStats

A szakemberek szerint emiatt nemcsak azért aggályos a mesterségesintelligencia-modellek YouTube-videókon való kiképzése, mert arra nem adnak engedélyt a felhasználók, hanem azért is, mert a platformon rengeteg olyan tartalmat találni, aminek alkotói valójában még a széles közönséget sem akarták elérni. Márpedig azt maguk a cégek – sem az OpenAI sem pedig a Google – nem tudják befolyásolni, hogy ezekhez ne nyúljon hozzá az MI a betanuláskor. Ezek felhasználása viszont komoly adatvédelmi aggályokat vet fel.

A kutatók a vizsgálat során azt is megállapították, nyugtalanítóan sok olyan videó van a platformon, amit gyerekek készítettek és ők szerepelnek benne. A YouTube szabályzata szerint 13 évnél fiatalabbak nem férhetnek hozzá a platformhoz, ám minden jel szerint ez inkább csak egyfajta iránymutatás, mintsem betartatott szabály.

A tanulmány szerint a videók legalább ötödében 13 évnél fiatalabbak szerepelnek, és ezekben a videókban a gyerekek arca is látható. A kutatók nem számították ide azokat a tartalmakat, amelyeket egyértelműen a szülők vagy gondviselők beleegyezésével készítettek.

Van egy új lehetőség a YouTube-on, de ha használnia kell, már kész a baj

Mostantól panaszt nyújthat be a YouTube-nak, ha úgy érzi, visszaéltek a képmásával, és egy mesterséges intelligenciával generált deepfake-videóban szerepel az arca vagy a hangja. Van azonban néhány kritérium.

A kutatók úgy vélik, az olyan cégek, mint például az OpenAI számára egy háromfős baráti társaság beszélgetése sokkal értékesebb lehet, mint egy több millió megtekintéssel rendelkező influenszer monológja, vagy egy zenei videó. Vagyis azt a mítoszt, ami szerint az algoritmusokat a népszerű videókon tanítják be a vállalatok, egyszerűen meg kell dönteni.

A szakemberek szerint érdemes figyelembe venni, hogy az iparág jelenleg még mindig meglehetősen szabályozatlan, és leginkább a technológiai vállalatok önszabályozása az, ami gátat szabhat az ilyen tartalmak felhasználásának. Márpedig a cégek nem érdekeltek abban, hogy a számukra értékes adatokat kihagyják a tanulási modellből.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának tudományos felfedezésekről is hírt adó Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!