szerző:
hvg.hu

Kínai fejlesztők a világ eddigi leghatékonyabb beszédszintetizátorát hozták létre. A mesterséges intelligenciának nincs szüksége emberi beavatkozásra, magától tanulja meg, hogyan kell kiejteni a szavakat. Már csak az érzelem hiányzik a mondandójából.

A mesterséges intelligenciák fejlesztésének következő állomása, hogy a gépeket ne csak feladatok végrehajtására tanítsuk meg, hanem beszélni is. A Google tavaly már a WaveNet nevű fejlesztését, ami a DeepMind nevű mesterséges intelligencia segítségével képes volt a beszéd szintetizálására. Most a kínaiak legnagyobb keresője, a Baidu állt elő egy fejlesztéssel, ami az eddigi legfejlettebb beszédszintetizáló program.

A fejlesztők szerint a Deep Voice néhány óra alatt tanult meg beszélni, minden emberi beavatkozás nélkül, ellentétben a korábbi programokkal, melyek mindig finomhangolásra szorultak. A rendszer a gépi "mélytanulás" (deep learning) módszerét használva a szöveget fonémákra osztja fel, ami nem más, mint a hang elemi egysége. A hálózatnak a felosztás után már “csak” reprodukálnia kell ezeket. Az alkalmazott módszernek köszönhetően a fejlesztőknek már nem kell beavatkozniuk a folyamatba, egyedül csak a háttérben futó algoritmust kell kiképezniük a feladatra.

A Deep Voice további előnye, hogy a beszéd előállításához nincs szükség egy háttérben futó adatbázisra. A jelenleg használatban lévő alkalmazások – például a navigációs eszközök esetében – úgy olvassák fel a leírt szöveget, hogy a szavakat, mondatokat már jó előre rögzítették, így a szöveg felolvasásánál az algoritmus csak kikeresi és egymás mögé pakolja azokat. Emiatt viszont sokkal darabosabbá, gépiesebbé válik a beszéd.

A fejlesztés komoly segítséget jelenthet például a látássérült felhasználóknak is, akik egy weboldalt, mobilos alkalmazást vagy számítógépes programot a beszédszintetizáló szoftverek segítségére támaszkodva tudják használni. A Deep Voice által kimondott szavak azonban a jelenleginél érthetőbbek lesznek, így a megértésük is könnyebbé válhat.

Bár a Baidu fejlesztése már sokkal közelebb áll az emberi beszédhez, még mindig nem egészen olyan. A rendszer például nem tudja pontosan, egy hang kiadásához mennyi időre van szükség, ahogy érzelmi töltettel sem tudja ellátni a szavakat. Valós időben beszélgetni ugyanakkor (még) nem lehet vele, a szoftver egyelőre csak a szövegek felolvasására alkalmas. A fejlesztés mindenesetre biztató, a jövőben ugyanis jóval természetesebbek lehetnek majd a digitális asszisztensek.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Állj mellénk!

Tegyünk közösen azért, hogy a propaganda mellett továbbra is megjelenjenek a tények!

Ha neked is fontos a minőségi újságírás, kérjük, hogy támogasd a munkánkat.

Állj mellénk!

Tegyünk közösen azért, hogy a propaganda mellett továbbra is megjelenjenek a tények!

Ha neked is fontos a minőségi újságírás, kérjük, hogy támogasd a munkánkat.
Távozik Mészáros Lőrinc lánya az Opus Global igazgatóságából

Távozik Mészáros Lőrinc lánya az Opus Global igazgatóságából

4 dolog, amit tegyen meg az életéért 35 fölött

4 dolog, amit tegyen meg az életéért 35 fölött

Akasztófára függesztett Dávid-csillagot rajzoltak egy ellenzéki képviselő plakátjára

Akasztófára függesztett Dávid-csillagot rajzoltak egy ellenzéki képviselő plakátjára

A debreceni polgármester szerint magánügy, hogy a gyereke méregdrága magániskolába jár

A debreceni polgármester szerint magánügy, hogy a gyereke méregdrága magániskolába jár

Piros, fehér és zöld ételeket várnak a nemzeti összetartozás szakácsversenyére

Piros, fehér és zöld ételeket várnak a nemzeti összetartozás szakácsversenyére

A MÁV vezetője szerint jogosak a kritikák

A MÁV vezetője szerint jogosak a kritikák