szerző:
HVG
Tetszett a cikk?

Egy friss jelentés szerint a ChatGPT GPT-4o modelljét tesztelve egyértelműnek látszik, hogy az OpenAI részben vagy egészben a nyilvánosan nem elérhető tartalmakon képezte ki a mesterséges intelligenciáját.

Számos kiadó és szerző vádolta már meg az OpenAI-t azzal, hogy a vállalat szerzői joggal védett tartalmakon képezte ki a mesterséges intelligenciáját. Ezzel kapcsolatban már pert is akasztottak a cég nyakába, az OpenAI viszont a méltányos használat elvét lobogtatva nyilatkozott úgy, hogy muszáj lopni, ha valaki mesterséges intelligenciát akar csinálni.

Egy, a mesterséges intelligencia működését felügyelő nonprofit szervezet, az AI Disclosures Project most újabb komoly vádakat fogalmazott meg: a szakemberek szerint a vállalat egyre inkább a fizetőfalak mögé rejtett könyvekre támaszkodva trenírozta a kifinomult MI-modelljeit, miközben erre nem kapott engedélyt.

Az MI-modellek alapvetően összetett előrejelző motorok. Rengeteg adaton – könyveken, filmeken, tévéműsorokon és egyebeken – tanulnak, mintákat és újszerű módszereket sajátítanak el, hogy egy egyszerű felszólításból valamilyen produktumot nyújtsanak. Amikor egy modell „ír” egy esszét egy görög tragédiáról, vagy Ghibli-stílusú képeket „rajzol”, akkor az addig tanultakból egy megközelítő merítést végez el, vagyis lényegében semmi újat nem talál ki.

Van egy kis gond: olyan gyorsan tanul a mesterséges intelligencia, hogy 2026-ra már nem lesz mivel tovább tanítani

Az előrejelzések szerint már nincs olyan sok adat, amellyel jó minőségű mesterséges intelligenciát lehetne fejleszteni. Ötlet van arra, hogyan lehetne megoldani a helyzetet, de az kérdéses, hogy mikorra sikerülhet.

A Tim O’Reilly médiaguru és Ilan Strauss közgazdász által 2024-ben közösen alapított AI Disclosures Project nevű nonprofit szervezet legfrissebb elemzésében arra jutott, hogy az OpenAI valószínűleg a fizetőfal mögé rejtett O’Reilly-könyveken taníthatta be a GPT-4o modelljét. Tim O’Reilly a könyveket kiadó O’Reilly Media vezérigazgatója – jegyzi meg a TechCrunch. A ChatGPT-ben jelenleg a GPT-4o az alapértelmezett modell.

A jelentés szerint a GPT-4o esetében erőteljesen felismerhető, hogy a rendszer a fizetőfal mögé tett könyvekből tanult. A GPT-3.5 Turbohoz képest a szakemberek szerint érezhető a különbség, utóbbi kapcsán pedig azt állítják, az a nyilvánosan elérhető könyvekben lévő tudásra támaszkodik.

A vizsgálatot a DE-COP nevű módszerrel végezték el. Ez azt teszteli, hogy egy modell képes-e megbízhatóan megkülönböztetni az ember által írt szövegeket ugyanazon szöveg átfogalmazott, mesterséges intelligencia által generált változataitól. Ha lehetséges, az azt sugallja, hogy a modell előzetesen ismerte a szöveget a betanítási adataiból.

A jelentés szerint 34 O’Reilly-könyv 13 962 bekezdésrészletét használták fel a vizsgálathoz, amelynek eredménye egyértelműen azt mutatta, hogy az OpenAI jogosulatlanul használta fel a tartalmakat. A szakemberek ugyanakkor megjegyezték: a rendszer abból is tanulhatott, ha egy felhasználó egy könyv egy részletét bemásolta a csevegőmezőbe.

A cég egyelőre nem reagált a vádakra.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!