Fizetős tankönyvekből lophatott az OpenAI, hogy betanítsa a ChatGPT-t
Egy friss jelentés szerint a ChatGPT GPT-4o modelljét tesztelve egyértelműnek látszik, hogy az OpenAI részben vagy egészben a nyilvánosan nem elérhető tartalmakon képezte ki a mesterséges intelligenciáját.
HVG
Számos kiadó és szerző vádolta már meg az OpenAI-t azzal, hogy a vállalat szerzői joggal védett tartalmakon képezte ki a mesterséges intelligenciáját. Ezzel kapcsolatban már pert is akasztottak a cég nyakába, az OpenAI viszont a méltányos használat elvét lobogtatva nyilatkozott úgy, hogy muszáj lopni, ha valaki mesterséges intelligenciát akar csinálni.
Egy, a mesterséges intelligencia működését felügyelő nonprofit szervezet, az AI Disclosures Project most újabb komoly vádakat fogalmazott meg: a szakemberek szerint a vállalat egyre inkább a fizetőfalak mögé rejtett könyvekre támaszkodva trenírozta a kifinomult MI-modelljeit, miközben erre nem kapott engedélyt.
Az MI-modellek alapvetően összetett előrejelző motorok. Rengeteg adaton – könyveken, filmeken, tévéműsorokon és egyebeken – tanulnak, mintákat és újszerű módszereket sajátítanak el, hogy egy egyszerű felszólításból valamilyen produktumot nyújtsanak. Amikor egy modell „ír” egy esszét egy görög tragédiáról, vagy Ghibli-stílusú képeket „rajzol”, akkor az addig tanultakból egy megközelítő merítést végez el, vagyis lényegében semmi újat nem talál ki.
Az előrejelzések szerint már nincs olyan sok adat, amellyel jó minőségű mesterséges intelligenciát lehetne fejleszteni. Ötlet van arra, hogyan lehetne megoldani a helyzetet, de az kérdéses, hogy mikorra sikerülhet.
A Tim O’Reilly médiaguru és Ilan Strauss közgazdász által 2024-ben közösen alapított AI Disclosures Project nevű nonprofit szervezet legfrissebb elemzésében arra jutott, hogy az OpenAI valószínűleg a fizetőfal mögé rejtett O’Reilly-könyveken taníthatta be a GPT-4o modelljét. Tim O’Reilly a könyveket kiadó O’Reilly Media vezérigazgatója – jegyzi meg a TechCrunch. A ChatGPT-ben jelenleg a GPT-4o az alapértelmezett modell.
A jelentés szerint a GPT-4o esetében erőteljesen felismerhető, hogy a rendszer a fizetőfal mögé tett könyvekből tanult. A GPT-3.5 Turbohoz képest a szakemberek szerint érezhető a különbség, utóbbi kapcsán pedig azt állítják, az a nyilvánosan elérhető könyvekben lévő tudásra támaszkodik.
A vizsgálatot a DE-COP nevű módszerrel végezték el. Ez azt teszteli, hogy egy modell képes-e megbízhatóan megkülönböztetni az ember által írt szövegeket ugyanazon szöveg átfogalmazott, mesterséges intelligencia által generált változataitól. Ha lehetséges, az azt sugallja, hogy a modell előzetesen ismerte a szöveget a betanítási adataiból.
A jelentés szerint 34 O’Reilly-könyv 13 962 bekezdésrészletét használták fel a vizsgálathoz, amelynek eredménye egyértelműen azt mutatta, hogy az OpenAI jogosulatlanul használta fel a tartalmakat. A szakemberek ugyanakkor megjegyezték: a rendszer abból is tanulhatott, ha egy felhasználó egy könyv egy részletét bemásolta a csevegőmezőbe.