szerző:
hvg.hu
Tetszett a cikk?

Kínai fejlesztők a világ eddigi leghatékonyabb beszédszintetizátorát hozták létre. A mesterséges intelligenciának nincs szüksége emberi beavatkozásra, magától tanulja meg, hogyan kell kiejteni a szavakat. Már csak az érzelem hiányzik a mondandójából.

A mesterséges intelligenciák fejlesztésének következő állomása, hogy a gépeket ne csak feladatok végrehajtására tanítsuk meg, hanem beszélni is. A Google tavaly már a WaveNet nevű fejlesztését, ami a DeepMind nevű mesterséges intelligencia segítségével képes volt a beszéd szintetizálására. Most a kínaiak legnagyobb keresője, a Baidu állt elő egy fejlesztéssel, ami az eddigi legfejlettebb beszédszintetizáló program.

A fejlesztők szerint a Deep Voice néhány óra alatt tanult meg beszélni, minden emberi beavatkozás nélkül, ellentétben a korábbi programokkal, melyek mindig finomhangolásra szorultak. A rendszer a gépi "mélytanulás" (deep learning) módszerét használva a szöveget fonémákra osztja fel, ami nem más, mint a hang elemi egysége. A hálózatnak a felosztás után már “csak” reprodukálnia kell ezeket. Az alkalmazott módszernek köszönhetően a fejlesztőknek már nem kell beavatkozniuk a folyamatba, egyedül csak a háttérben futó algoritmust kell kiképezniük a feladatra.

A Deep Voice további előnye, hogy a beszéd előállításához nincs szükség egy háttérben futó adatbázisra. A jelenleg használatban lévő alkalmazások – például a navigációs eszközök esetében – úgy olvassák fel a leírt szöveget, hogy a szavakat, mondatokat már jó előre rögzítették, így a szöveg felolvasásánál az algoritmus csak kikeresi és egymás mögé pakolja azokat. Emiatt viszont sokkal darabosabbá, gépiesebbé válik a beszéd.

A fejlesztés komoly segítséget jelenthet például a látássérült felhasználóknak is, akik egy weboldalt, mobilos alkalmazást vagy számítógépes programot a beszédszintetizáló szoftverek segítségére támaszkodva tudják használni. A Deep Voice által kimondott szavak azonban a jelenleginél érthetőbbek lesznek, így a megértésük is könnyebbé válhat.

Bár a Baidu fejlesztése már sokkal közelebb áll az emberi beszédhez, még mindig nem egészen olyan. A rendszer például nem tudja pontosan, egy hang kiadásához mennyi időre van szükség, ahogy érzelmi töltettel sem tudja ellátni a szavakat. Valós időben beszélgetni ugyanakkor (még) nem lehet vele, a szoftver egyelőre csak a szövegek felolvasására alkalmas. A fejlesztés mindenesetre biztató, a jövőben ugyanis jóval természetesebbek lehetnek majd a digitális asszisztensek.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

VELETEK VAGYUNK – OLVASÓKKAL, ÚJSÁGÍRÓKKAL!

A hatalomtól független szerkesztőségek száma folyamatosan csökken, a még létezők pedig napról napra erősödő ellenszélben próbálnak talpon maradni. A HVG-ben kitartunk, nem engedünk a nyomásnak, és minden nap elhozzuk a hazai és nemzetközi híreket.

Ezért kérünk titeket, olvasóinkat, hogy tartsatok ki mellettünk, támogassatok bennünket, csatlakozzatok pártolói tagságunkhoz, illetve újítsátok meg azt!

Mi pedig azt ígérjük, hogy továbbra is minden körülmények között a tőlünk telhető legtöbbet nyújtjuk a számotokra!
Az Európai Unió leszerződik 160 millió vakcinára a Modernával

Az Európai Unió leszerződik 160 millió vakcinára a Modernával

Olyan műkezet tervezett gyerekeknek egy afrikai cég, amely együtt nő használójával

Olyan műkezet tervezett gyerekeknek egy afrikai cég, amely együtt nő használójával

Varga Judit talált egy ürügyet, hogy meghívja George Clooney-t

Varga Judit talált egy ürügyet, hogy meghívja George Clooney-t