Az Apple kutatói új szintre emelik a videók hangosítását: itt a VSSFlow

Egy friss kutatás szerint hamarosan eljöhet az az idő, amikor egy teljesen néma videóból a mesterséges intelligencia egyszerre képes hiteles beszédet és életszerű környezeti hangokat gene

A videóból hangot előállító MI-modellek eddig jellemzően kompromisszumokra kényszerültek: vagy a háttérzajokban voltak jók, vagy a beszédszintézisben, a kettő együtt ritkán működött igazán jól. A klasszikus video-to-sound rendszerek nehezen birkóztak meg az emberi beszéddel, míg a text-to-speech megoldások szinte vakon tapogatóztak, ha nem nyelvi hangokról volt szó. A legtöbb korábbi próbálkozás ezért különálló modellekkel, többlépcsős tanítással oldotta meg a feladatot, ami nemcsak bonyolult, de sokszor a minőség rovására is ment.

Ezen a ponton lép színre a VSSFlow, egy új mesterséges intelligencia modell, amelyet három Apple-kutató és hat, a Renmin University of China munkatársa közösen fejlesztett. A...

Tovább a teljes cikkhez a telefonguru.hu oldalon.