15 mp-ig hallgat, utána bárki hangján megszólal az új MI, és persze bármit a szájába lehet adni
Lenyűgöző teljesítményt mutat az OpenAI új, mesterséges intelligencián alapuló hangklónozó eszköze. A Voice Engine aggályokat is felvet, annyira élethűen utánozza egy ember hangját.
hvg.hu
Az OpenAI újdonsága egy olyan új modell, amely képes emberi hangon felolvasni szövegeket (sőt le is fordítja azokat). A Voice Engine nevű, 2022 óta fejlesztett modellnek ugyanis most már elég egyetlen 15 másodperces hangminta ahhoz, hogy természetes hangzású beszédet generáljon a mintát adó hangja alapján.
A szöveg-beszéd modell jelenleg korlátozott próbaidőszakban van néhány tesztelővel – a hozzáféréssel rendelkező vállalatok közé tartozik az Age of Learning oktatástechnológiai vállalat, a HeyGen vizuális történetmesélés platform, a Dimagi egészségügyiszoftver-gyártó, a Livox AI kommunikációs alkalmazásokat létrehozó és a Lifespan egészségügyi rendszer. Az OpenAI, a politikai döntéshozóktól és oktatóktól kapott visszajelzések után, inkább az óvatos megközelítést választotta a széles körű kiadás helyett, különösen olyan kényes időszakban, mint a mostani (amerikai és európai) választási év.
Hasonló megoldások persze régóta elérhetők, ám az OpenAI-féle Voice Engine azoknál sokkal élethűbb eredményt produkál. Ennek bizonyítékai meghallgathatók a vállalat oldalán közzétett demókban.
A Google tavaly olyan szolgáltatást mutatott be, amely 3 másodpercnyi mintából képes hanggenerálásra, szintén elég meggyőző, de azért egy picit gépi beszédnek hangzó eredménnyel.
Valahol fantasztikus, valahol ijesztő a Google nyelvi modelljének azon képessége, hogy képes a beszélő hangján megszólaltatni egy hangzó szöveg fordítását. Érdemes meghallgatni, milyen eredménnyel dolgozik.
Az OpenAI néhány korai felhasználási példát is említ a Voice Engine alkalmazására. Segítséget nyújthat például az olvasásban az olvasni nem tudóknak, köztük a gyerekeknek a természetesnek ható hangokon keresztül, amelyek a beszélők sokkal szélesebb körét képviselhetik, mint ami az előre beállított hangokkal lehetséges. A modell emellett segíthet tartalmak, például videók és podcastok fordításában, hogy az alkotók a saját hangjukon minél többeket érhessenek el a világon, akár a hallgatók anyanyelvén (erre egyébként már a Spotify is felfigyelt). Terápiás alkalmazások is elképzelhetők olyan személyek számára, akiknek az állapota befolyásolja a beszédet és speciális tanulási igényeik vannak. Emellett az új rendszer segíthet a degeneratív beszédbetegségben szenvedőknek a hangjuk visszanyerésében.
Az OpenAI persze azzal is tisztában van, hogy az emberi hangra emlékeztető beszéd generálása komoly kockázatokkal jár, ezért is mondtak le a széles körű bevezetésről. A vállalat partnerei állítólag megállapodtak abban, hogy nem fogják használni a Voice Engine-t mások megszemélyesítésére a beleegyezésük nélkül. Ez azt is megköveteli, hogy a partnerek megkapják az eredeti beszélő „kifejezett és tájékozott beleegyezését”, ne építsenek módokat az egyes felhasználók számára saját hangjuk létrehozására, és közöljék a hallgatókkal, hogy a hangokat mesterséges intelligencia generálja. Az OpenAI „audiovízjelet” is hozzáadott a hangklipekhez, hogy nyomon lehessen követni azok eredetét.
Nagy feltűnést keltett és sok díjat elnyert A fehér várkastély című, Japánban, az Edo-korban játszódó társasjáték. Az alapötlete olyan, hogy elsőre nem is érti az ember, hogy lehet ezt kivitelezni, de az első játék után kiderül: A fehér várkastély rászolgált a sikerére.