Google DeepMind werkt aan een kunstmatige intelligentie die soundtracks kan genereren voor video’s. Het geluid wordt gegenereerd aan de hand van de beelden die de AI te zien krijgt in combinatie met tekstuele inputs.
De technologie, video-to-audio, kan geluid genereren door videopixels te herkennen. De AI kan muziek genereren, maar ook dialoog en omgevingsgeluiden. De technologie kan gebruikt worden met video’s die door AI zijn gegenereerd, zoals die van Google Veo of OpenAI’s Sora. V2A werkt ook met echte beelden, bijvoorbeeld met films zonder geluid.
De technologie werd getraind op bestaande video en audio, en ook op met AI gegenereerde beschrijvingen van geluiden en transcripties van dialogen. V2A heeft daardoor specifieke geluiden leren associëren met bepaalde beelden. De technologie werkt ook met tekstuele inputs. Die laatste kunnen volgens Google DeepMind vooral gebruikt worden om al gegenereerde audio te verbeteren.
Er zijn volgens Google DeepMind nog hindernissen. De geluidskwaliteit neemt bijvoorbeeld af als de beelden van slechte kwaliteit zijn. Stemgeluid wordt ook nog niet goed gesynchroniseerd met lippen op het scherm, vooral als de beelden met AI zijn gegenereerd. Google DeepMind heeft niet gezegd wanneer de tool beschikbaar komt. Voordat dit gebeurt, zal de technologie worden onderworpen aan ‘strenge veiligheidsbeoordelingen en tests’.
Leave a Reply
You must be logged in to post a comment.