szerző:
hvg.hu
Tetszett a cikk?

Kínai fejlesztők a világ eddigi leghatékonyabb beszédszintetizátorát hozták létre. A mesterséges intelligenciának nincs szüksége emberi beavatkozásra, magától tanulja meg, hogyan kell kiejteni a szavakat. Már csak az érzelem hiányzik a mondandójából.

A mesterséges intelligenciák fejlesztésének következő állomása, hogy a gépeket ne csak feladatok végrehajtására tanítsuk meg, hanem beszélni is. A Google tavaly már a WaveNet nevű fejlesztését, ami a DeepMind nevű mesterséges intelligencia segítségével képes volt a beszéd szintetizálására. Most a kínaiak legnagyobb keresője, a Baidu állt elő egy fejlesztéssel, ami az eddigi legfejlettebb beszédszintetizáló program.

A fejlesztők szerint a Deep Voice néhány óra alatt tanult meg beszélni, minden emberi beavatkozás nélkül, ellentétben a korábbi programokkal, melyek mindig finomhangolásra szorultak. A rendszer a gépi "mélytanulás" (deep learning) módszerét használva a szöveget fonémákra osztja fel, ami nem más, mint a hang elemi egysége. A hálózatnak a felosztás után már “csak” reprodukálnia kell ezeket. Az alkalmazott módszernek köszönhetően a fejlesztőknek már nem kell beavatkozniuk a folyamatba, egyedül csak a háttérben futó algoritmust kell kiképezniük a feladatra.

A Deep Voice további előnye, hogy a beszéd előállításához nincs szükség egy háttérben futó adatbázisra. A jelenleg használatban lévő alkalmazások – például a navigációs eszközök esetében – úgy olvassák fel a leírt szöveget, hogy a szavakat, mondatokat már jó előre rögzítették, így a szöveg felolvasásánál az algoritmus csak kikeresi és egymás mögé pakolja azokat. Emiatt viszont sokkal darabosabbá, gépiesebbé válik a beszéd.

A fejlesztés komoly segítséget jelenthet például a látássérült felhasználóknak is, akik egy weboldalt, mobilos alkalmazást vagy számítógépes programot a beszédszintetizáló szoftverek segítségére támaszkodva tudják használni. A Deep Voice által kimondott szavak azonban a jelenleginél érthetőbbek lesznek, így a megértésük is könnyebbé válhat.

Bár a Baidu fejlesztése már sokkal közelebb áll az emberi beszédhez, még mindig nem egészen olyan. A rendszer például nem tudja pontosan, egy hang kiadásához mennyi időre van szükség, ahogy érzelmi töltettel sem tudja ellátni a szavakat. Valós időben beszélgetni ugyanakkor (még) nem lehet vele, a szoftver egyelőre csak a szövegek felolvasására alkalmas. A fejlesztés mindenesetre biztató, a jövőben ugyanis jóval természetesebbek lehetnek majd a digitális asszisztensek.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!