Nevetés, sóhaj, suttogás – félelmetesen élethű az új eszköz, amely bármilyen szöveget felolvas, akár magyarul is

Az eddigi talán leghitelesebb, mesterséges intelligenciára épülő hanggenerátort készítette el egy amerikai vállalat. Az új eszköz már úgy tud felolvasni egy szöveget, mintha egy ember tenné – és ez egy kicsit aggasztó is.

  • HVG HVG
Nevetés, sóhaj, suttogás – félelmetesen élethű az új eszköz, amely bármilyen szöveget felolvas, akár magyarul is

Az amerikai ElevenLabs még 2023 elején tette széles körben is elérhetővé a mesterséges intelligenciára támaszkodó hanggenerátorát, amely akár ismert emberek hangján is képes felolvasni egy szöveget.

Főleg utóbbi volt, ami aggasztóvá tette az egyébként ügyes eszközt, elvégre könnyen vissza lehetett élni vele. Most, bő két évvel később kiadta az ElevenLabs a legújabb, v3-as szöveg-beszéd modelljét, mely immáron több mint 70 nyelvet ismer – ezek között ott van a magyar is.

A fejlesztők közlése szerint a v3 egy új szintet jelenthet azok számára, akik hangoskönyvekkel, videókkal vagy egyéb médiaeszközökkel dolgoznak. Az új modell sokkal „kifejezőbb” tud lenni a v2-nél, és ügyesebb az érzelmek kifejezésében – így például a sóhajtást, a nevetést és a suttogást, valamint más reakciókat is jobban át tudja adni. Az egész diskurzus sokkal „élőbb” – hangsúlyozza az ElevenLabs.

Az új modell sokkal jobban vezeti a több résztvevős diskurzusokat is, állítólag sokkal természetesebb az egész, például a tempója. A vállalat egy videót is kiadott a v3-ról, amelyen meghallgatható, mire képes a továbbfejlesztett eszköz:

Introducing Eleven v3 (alpha) – Our Most Expressive Text to Speech Model

Introducing Eleven v3 (alpha) – our most expressive Text to Speech model. This research preview is designed for creators working at the frontier of AI audio. Whether you’re building faceless YouTube channels, narrator-style videos, or entirely new formats – it offers new levels of expressiveness and control.

A hangot különböző „audio tagekkel” lehet iránytani: ha mondjuk befűzi a szövegbe egy kapcsos zárójelben, hogy [izgatott], akkor a beszéd is alkalmazkodik ehhez – de ide bekerülhet bármi, például [suttogás] vagy [francia] is, esetleg [ördögi kacaj]. Ezt a fenti videó jól szemlélteti.

A v3-as modell azonban egyelőre még „alpha” fejlesztési fázisban van, tehát nincs tökéletesen kész – és az ElevenLabs is figyelmezteti a felhasználókat, hogy valós idejű használathoz még mindig a v2.5 Turbo vagy Flash modellek ajánlottak. Természetesen később a v3 eszköztára is bővül ezzel.

Az emberek 99,9%-a nem ismeri fel ezt a veszélyt, pedig nagyon súlyos következményei lehetnek

Döbbenetes eredményre jutott egy friss kutatás: az emberek csupán 0,1 százaléka tudja megállapítani egy képről vagy videóról, hogy az valódi, vagy a mesterséges intelligenciával generált deepfake.

Ha kipróbálná az eszközt – magyar nyelven is –, az alábbi oldalon megteheti.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.