2024. december. 05. 10:03 2024. december. 05. 10:11 Tech

Képet és videót is készít a Google két mesterséges intelligenciája, de a példákon látszik, hogy van még gond velük

A Google egyelőre csak szűk körben, de már elérhetővé tette a két generatív mesterséges intelligenciáját, a Veót és az Imagen 3-at. A modellek ugyan hasznosnak tűnnek, de még messze nem tökéletesek.

Elérhetővé tette a Google azt a két generatív mesterségesintelligencia-modelljét, amelyekkel szöveges parancsok és képek megadásával lehet videót, valamint szöveges utasítások segítségével képet generáltatni. A Veo és az Imagen 3 egyelőre a felhasználók egy szűk rétege számára érhető el, de ez a jövőben biztosan változni fog.

A lépéssel a vállalat az OpenAI-t szerette volna beelőzni. A cég hasonló modellje, a Sora egyelőre csak kiválasztott művészek és tudósok számára érhető el, bár ez hamarosan változni fog, a cég ugyanis hamarosan szélesebb körben is elérhetővé teszi a szolgáltatását.

A Google által fejlesztett Veót és Imagen 3-at a Google Cloud Vertex AI felhasználói próbálhatják ki. A Vertex AI egy olyan platform a cég felhőszolgáltatásán belül, ahol a szakemberek a nagy nyelvi modelljeiket tesztelhetik és taníthatják be, valamint egy adott szolgáltatásra szabva alakíthatják át azt.

A Veo segítségével a felhasználók Full HD felbontású videókat készíthetnek, amelyek a Google szerint konzisztensek és koherensek, és akár egy percnél is hosszabbak lehetnek. Az eszköz képes szöveges parancsokkal és képekkel is dolgozni, utóbbi esetében a hagyományos módon és a mesterséges intelligencia által generált felvétel is lehet a kiindulópont.

A videók ugyanakkor még nem tökéletesek. A lenti példa esetében azt látni, hogy bár a parancsnak megfelel az eredmény – slow motion módszerrel mutat egy tábortüzet, aminél mályvacukrot sütnek –, a részletek nem tökéletesek. Ebben az esetben: a mályvacukor nem színeződik el a hőtől.

No Title
No Description

Az Imagen 3 esetében a Google azt állítja, hogy a modell minden eddiginél pontosabb és valósághűbb képet ad a szöveges parancsokra válaszul. Az Engadget megjegyzi: itt is akad még probléma a pontos értelmezéssel. A bal oldali képet például úgy kellett volna elkészítenie a Google rendszerének, hogy vaku világítja meg – égeti ki – az embereket, ehelyett ilyesmit nem látni a felvételen. Így bár az 1960-as évek fotóinak stílusát visszaadja az eredmény, de ez csak részben sikerült neki.

Google

A cég azt szeretné elérni, ha minél több ügyfele kezdene el valamilyen MI-terméket használni. A vállalat a saját felmérésére hivatkozva azt állítja, hogy a mesterséges intelligenciát használó vállalatok 86 százaléka bevételnövekedést könyvelhetett el, ugyanakkor az Apple piackutatása szerint az MI-projektekből származó bevétel 2024-ben 4,6 százalékkal csökkent 2023-hoz képest.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.