szerző:
hvg.hu

Kínai fejlesztők a világ eddigi leghatékonyabb beszédszintetizátorát hozták létre. A mesterséges intelligenciának nincs szüksége emberi beavatkozásra, magától tanulja meg, hogyan kell kiejteni a szavakat. Már csak az érzelem hiányzik a mondandójából.

A mesterséges intelligenciák fejlesztésének következő állomása, hogy a gépeket ne csak feladatok végrehajtására tanítsuk meg, hanem beszélni is. A Google tavaly már a WaveNet nevű fejlesztését, ami a DeepMind nevű mesterséges intelligencia segítségével képes volt a beszéd szintetizálására. Most a kínaiak legnagyobb keresője, a Baidu állt elő egy fejlesztéssel, ami az eddigi legfejlettebb beszédszintetizáló program.

A fejlesztők szerint a Deep Voice néhány óra alatt tanult meg beszélni, minden emberi beavatkozás nélkül, ellentétben a korábbi programokkal, melyek mindig finomhangolásra szorultak. A rendszer a gépi "mélytanulás" (deep learning) módszerét használva a szöveget fonémákra osztja fel, ami nem más, mint a hang elemi egysége. A hálózatnak a felosztás után már “csak” reprodukálnia kell ezeket. Az alkalmazott módszernek köszönhetően a fejlesztőknek már nem kell beavatkozniuk a folyamatba, egyedül csak a háttérben futó algoritmust kell kiképezniük a feladatra.

A Deep Voice további előnye, hogy a beszéd előállításához nincs szükség egy háttérben futó adatbázisra. A jelenleg használatban lévő alkalmazások – például a navigációs eszközök esetében – úgy olvassák fel a leírt szöveget, hogy a szavakat, mondatokat már jó előre rögzítették, így a szöveg felolvasásánál az algoritmus csak kikeresi és egymás mögé pakolja azokat. Emiatt viszont sokkal darabosabbá, gépiesebbé válik a beszéd.

A fejlesztés komoly segítséget jelenthet például a látássérült felhasználóknak is, akik egy weboldalt, mobilos alkalmazást vagy számítógépes programot a beszédszintetizáló szoftverek segítségére támaszkodva tudják használni. A Deep Voice által kimondott szavak azonban a jelenleginél érthetőbbek lesznek, így a megértésük is könnyebbé válhat.

Bár a Baidu fejlesztése már sokkal közelebb áll az emberi beszédhez, még mindig nem egészen olyan. A rendszer például nem tudja pontosan, egy hang kiadásához mennyi időre van szükség, ahogy érzelmi töltettel sem tudja ellátni a szavakat. Valós időben beszélgetni ugyanakkor (még) nem lehet vele, a szoftver egyelőre csak a szövegek felolvasására alkalmas. A fejlesztés mindenesetre biztató, a jövőben ugyanis jóval természetesebbek lehetnek majd a digitális asszisztensek.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Állj mellénk!

Tegyünk közösen azért, hogy a propaganda mellett továbbra is megjelenjenek a tények!

Ha neked is fontos a minőségi újságírás, kérjük, hogy támogasd a munkánkat.

Állj mellénk!

Tegyünk közösen azért, hogy a propaganda mellett továbbra is megjelenjenek a tények!

Ha neked is fontos a minőségi újságírás, kérjük, hogy támogasd a munkánkat.
Adna olyan nevet a gyermekének, hogy Fidesz? Valaki megpróbálta

Adna olyan nevet a gyermekének, hogy Fidesz? Valaki megpróbálta

Menet közben szakadt szét egy csuklós busz Egerben, utasok voltak rajta

Menet közben szakadt szét egy csuklós busz Egerben, utasok voltak rajta

510 lóerős dízelmotor a legújabb Audi SQ8-ban

510 lóerős dízelmotor a legújabb Audi SQ8-ban

Elhagyatott IKEA-épületből lesz nulla energiaigényű hotel

Elhagyatott IKEA-épületből lesz nulla energiaigényű hotel

„Felkavar már az is, ahogy rá gondolok” – 100 éves lenne Federico Fellini

„Felkavar már az is, ahogy rá gondolok” – 100 éves lenne Federico Fellini

Nincs mindig meleg víz a Szent János Kórház sztrókcentrumában

Nincs mindig meleg víz a Szent János Kórház sztrókcentrumában