szerző:
hvg.hu
Tetszett a cikk?

Valahol fantasztikus, valahol ijesztő a Google nyelvi modelljének azon képessége, hogy képes a beszélő hangján megszólaltatni egy hangzó szöveg fordítását. Érdemes meghallgatni, milyen eredménnyel dolgozik.

Fontos frissítést kap a Google PaLM-2. Az AudioPaLM formájában olyan új képességet adnak a rendszeréhez, amely lehetővé teszi, hogy a mesterséges intelligencia a beszélő hangján szinkronizálja egy adott szöveg fordítását.

A The Decoder írja: a rendszer képes szöveget és hangot is feldolgozni és generálni, valamint használható beszédfelismerésre, illetve az eredeti hangon megszólaló fordítás generálására is. Ez utóbbi igazán izgalmas újdonság, ugyanis lehetővé teszi, hogy egy személy egyszerre több nyelven is megszólaljon.

Az eredeti hang leutánzásához elegendő csupán 3 másodperces hanganyag. Ha az audiofájl ennél rövidebb, akkor addig ismétlődik a rendszerben, amíg el nem éri a három másodpercet a hossza.

Az AudioLM integrálásával meggyőző minőségű beszédet tud előállítani a mesterséges intelligencia, miközben megőrzi az eredeti beszélő egyedi stílusjegyeit.

A nyelvi modell emellett arra is képes, hogy úgy készítsen jegyzetet a hallott beszédből, hogy valós időben fordítja is, és már rögtön más nyelven írja le.

A technológia lehetséges alkalmazási területe igen sokrétű. Lehet belőle több nyelven beszélő virtuális asszisztens, de egy videochat-szolgáltatáshoz is csatolható, hogy segítse egy nemzetközi csapat kommunikációját. Emellett szinkronizálni lehetne vele például YouTube-videókat, vagy több nyelven is lehetne automatikusan létrehozott feliratokat készíteni.

A projektről a GitHubon lehet bővebben olvasni.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!