Az amerikai ElevenLabs még 2023 elején tette széles körben is elérhetővé a mesterséges intelligenciára támaszkodó hanggenerátorát, amely akár ismert emberek hangján is képes felolvasni egy szöveget.
Főleg utóbbi volt, ami aggasztóvá tette az egyébként ügyes eszközt, elvégre könnyen vissza lehetett élni vele. Most, bő két évvel később kiadta az ElevenLabs a legújabb, v3-as szöveg-beszéd modelljét, mely immáron több mint 70 nyelvet ismer – ezek között ott van a magyar is.
A fejlesztők közlése szerint a v3 egy új szintet jelenthet azok számára, akik hangoskönyvekkel, videókkal vagy egyéb médiaeszközökkel dolgoznak. Az új modell sokkal „kifejezőbb” tud lenni a v2-nél, és ügyesebb az érzelmek kifejezésében – így például a sóhajtást, a nevetést és a suttogást, valamint más reakciókat is jobban át tudja adni. Az egész diskurzus sokkal „élőbb” – hangsúlyozza az ElevenLabs.
Az új modell sokkal jobban vezeti a több résztvevős diskurzusokat is, állítólag sokkal természetesebb az egész, például a tempója. A vállalat egy videót is kiadott a v3-ról, amelyen meghallgatható, mire képes a továbbfejlesztett eszköz:
A hangot különböző „audio tagekkel” lehet iránytani: ha mondjuk befűzi a szövegbe egy kapcsos zárójelben, hogy [izgatott], akkor a beszéd is alkalmazkodik ehhez – de ide bekerülhet bármi, például [suttogás] vagy [francia] is, esetleg [ördögi kacaj]. Ezt a fenti videó jól szemlélteti.
A v3-as modell azonban egyelőre még „alpha” fejlesztési fázisban van, tehát nincs tökéletesen kész – és az ElevenLabs is figyelmezteti a felhasználókat, hogy valós idejű használathoz még mindig a v2.5 Turbo vagy Flash modellek ajánlottak. Természetesen később a v3 eszköztára is bővül ezzel.
Ha kipróbálná az eszközt – magyar nyelven is –, az alábbi oldalon megteheti.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.