Microsoft presenteert AI-model dat portretfoto’s laat praten en zingen

0
1

Microsoft heeft een onderzoek gepubliceerd over zijn AI-model VASA-1. Met dit model kunnen portretfoto’s worden gekoppeld aan audiobestanden. Vervolgens genereert VASA-1 video’s waarin de foto’s ‘op een realistische wijze kunnen praten en zingen’.

Het AI-model is voornamelijk bedoeld voor het ontwerpen van virtuele karakters. “VASA-1 is in staat lipbewegingen te produceren die voortreffelijk gesynchroniseerd zijn met de audio. Het kan echter ook een groot spectrum subtiele gezichtsuitdrukkingen en natuurlijke hoofdbewegingen vastleggen die bijdragen aan de perceptie van authenticiteit en levendigheid”, aldus Microsoft.

Het bedrijf heeft verschillende video’s gedeeld die dit demonstreren, waaronder een van een rappende Mona Lisa. Gebruikers van het model kunnen zelf aanpassingen doen, zoals aan de hoofdbewegingen of de blikrichting. In de offlinemodus genereert VASA-1 video’s van 512×512 pixels met 45fps en het ondersteunt tot 40fps in de onlineversie. Microsoft benadrukt dat het geen plannen heeft om VASA-1 op de markt te brengen uit vrees voor misbruik van het AI-model voor het maken van deepfakes.

VASA-1
Bron: Microsoft