Csináltak egy mesterséges intelligenciát, ami saját magát tanította meg beszélni

Kínai fejlesztők a világ eddigi leghatékonyabb beszédszintetizátorát hozták létre. A mesterséges intelligenciának nincs szüksége emberi beavatkozásra, magától tanulja meg, hogyan kell kiejteni a szavakat. Már csak az érzelem hiányzik a mondandójából.

hvg.hu

Csináltak egy mesterséges intelligenciát, ami saját magát tanította meg beszélni

A mesterséges intelligenciák fejlesztésének következő állomása, hogy a gépeket ne csak feladatok végrehajtására tanítsuk meg, hanem beszélni is. A Google tavaly már a WaveNet nevű fejlesztését, ami a DeepMind nevű mesterséges intelligencia segítségével képes volt a beszéd szintetizálására. Most a kínaiak legnagyobb keresője, a Baidu állt elő egy fejlesztéssel, ami az eddigi legfejlettebb beszédszintetizáló program.

A fejlesztők szerint a Deep Voice néhány óra alatt tanult meg beszélni, minden emberi beavatkozás nélkül, ellentétben a korábbi programokkal, melyek mindig finomhangolásra szorultak. A rendszer a gépi "mélytanulás" (deep learning) módszerét használva a szöveget fonémákra osztja fel, ami nem más, mint a hang elemi egysége. A hálózatnak a felosztás után már “csak” reprodukálnia kell ezeket. Az alkalmazott módszernek köszönhetően a fejlesztőknek már nem kell beavatkozniuk a folyamatba, egyedül csak a háttérben futó algoritmust kell kiképezniük a feladatra.

A Deep Voice további előnye, hogy a beszéd előállításához nincs szükség egy háttérben futó adatbázisra. A jelenleg használatban lévő alkalmazások – például a navigációs eszközök esetében – úgy olvassák fel a leírt szöveget, hogy a szavakat, mondatokat már jó előre rögzítették, így a szöveg felolvasásánál az algoritmus csak kikeresi és egymás mögé pakolja azokat. Emiatt viszont sokkal darabosabbá, gépiesebbé válik a beszéd.

A fejlesztés komoly segítséget jelenthet például a látássérült felhasználóknak is, akik egy weboldalt, mobilos alkalmazást vagy számítógépes programot a beszédszintetizáló szoftverek segítségére támaszkodva tudják használni. A Deep Voice által kimondott szavak azonban a jelenleginél érthetőbbek lesznek, így a megértésük is könnyebbé válhat.

Bár a Baidu fejlesztése már sokkal közelebb áll az emberi beszédhez, még mindig nem egészen olyan. A rendszer például nem tudja pontosan, egy hang kiadásához mennyi időre van szükség, ahogy érzelmi töltettel sem tudja ellátni a szavakat. Valós időben beszélgetni ugyanakkor (még) nem lehet vele, a szoftver egyelőre csak a szövegek felolvasására alkalmas. A fejlesztés mindenesetre biztató, a jövőben ugyanis jóval természetesebbek lehetnek majd a digitális asszisztensek.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Csináltak egy mesterséges intelligenciát, ami saját magát tanította meg beszélni

Amihez a South Park Jézus Krisztusának is volt pár szava: mi jöhet az amerikai média gigafúziója után?

Hétfőn Washingtonban tárgyal Zelenszkij, tűzszünet helyett békét akar Trump – percről percre az alaszkai egyeztetés után

Európai vezetők nyilatkozatban álltak ki az ukrajnai béke szükségessége mellett

Trump: Nagy előrelépést értünk el Putyinnal, azt tanácsolnám Zelenszkijnek, hogy kössön alkut

Itt van Orbán megfejtése az alaszkai csúcsról: A háborúpárti erők hiteltelenítik a találkozót

Putyin elérte fő célját: rehabilitálták a világ egyik vezetőjeként – lapok az amerikai-orosz csúcsról

Ez hangzott el a Putyin-Trump sajtótájékoztatón

Mire lehet következtetni Trump és Putyin testbeszédéből?

Mentsétek meg Orbán Viktort, épp megalázza magát a hatalomért

Leállt a MÁV online jegyértékesítő rendszere

Elárulta a MÁV, honnan van pénz a késések utáni jegyár-visszatérítésre

Aláírásgyűjtésbe kezdtek Nagymaroson, hogy ne épülhessen szállodahajó-kikötő a Duna-parton

Bámulatos Balkán: 3500 kilométert autóztunk 7 országon át egy 6 hengeres új BMW dízel kombival

Mindenre elszánt fanatikusok vagy halálba nyomorított iskolások – Kik voltak a kamikazék?

Önként nem adta, kipereltük a végrehajtói kar szerződéslistáját: tíz- és százmilliók landoltak a NER figuráinál

Feljelentette Semjén Zsoltot a KDNP-ből kiugrott Gaal Gergely

Regisztrálj egy társkeresőre, és megtudod, mennyi az értéked

Testkamera rögzítette, ahogy kivezetik a pilótafülkéből és letartóztatják egy amerikai utasszállító gép ittas pilótáját

Nőnek a fizetések, de valami furcsa történik a boltokban

Szőke András, a Roncsfilm és a Hasutasok alkotója is Digitális Polgári Kört alapított

Gergely Márton: A nagy zabrálás

Tóta W. Árpád: Szovjethatalom plusz villamosítás egyenlő digitális Fidesz

Munk Veronika: Itt az EU-s vakcina a média bajaira, de erősebb a betegség

Amikor a medve táncoltat: mire lehet számítani az alaszkai orosz–amerikai tárgyaláson?