Dutch

De nieuwe AI-engines van Google kunnen zoomen en verbeteren, net als in de films

Sep 14, 2021

153

Je weet hoe, in films, wanneer er een afbeelding op de computer staat en de detective die naast The Guy In The Chair staat zegt: “kun je inzoomen en dat kenteken verfraaien?” Die technologie is nu echt, dankzij de nieuwste AI-engines van Google.

Het proces om dit te doen is buitengewoon complex en moeilijk te beheersen, omdat ze gebaseerd zijn op diffusiemodellen (en een aantal zeer geavanceerde wiskunde) en werken om details aan een afbeelding toe te voegen die er oorspronkelijk niet waren. Dit wordt gedaan door giswerk met vergelijkbare afbeeldingen en is een techniek die Google natuurlijke beeldsynthese noemde, en in dit geval beeldsuperresolutie.

Je begint natuurlijk met een kleine en gepixelde afbeelding (zoals de afbeeldingen aan de linkerkant van elk van de afbeeldingen hierboven) en eindigen met een afbeelding met een veel hogere resolutie die er niet alleen scherper uitziet, maar ook echt lijkt voor het menselijk oog, zelfs als het niet 100% exact overeenkomt met het origineel . Om de klus te klaren, gebruikte Google twee nieuwe AI-tools: Super-Resolution via Repeated Refinement (SR3) en Cascaded Diffusion Models (CDM).

De eerste, SR3, voegt ruis toe aan een afbeelding (dit lijkt op de ruis of sneeuw die je op een tv-scherm ziet als het signaal zwak is), en keert het proces vervolgens om. Het gebruikt een grote database met afbeeldingen en een reeks waarschijnlijkheidsberekeningen om in kaart te brengen hoe een versie met een lage resolutie van de afbeelding eruitziet, waar Google-onderzoeker Chitwan Saharia hier dieper op in gaat.

“Diffusiemodellen werken door de trainingsgegevens te corrumperen door geleidelijk Gaussiaanse ruis toe te voegen, langzaam details in de gegevens weg te vagen totdat het pure ruis wordt, en vervolgens een neuraal netwerk te trainen om dit corruptieproces om te keren,” legde Saharia uit.

De tweede tool, CDM, maakt gebruik van "pijpleidingen" de verschillende diffusiemodellen (inclusief SR3) kunnen worden doorgestuurd om de high-res upgrades te produceren. Deze tool maakt grotere afbeeldingen van de verbeteringsmodellen met behulp van zorgvuldig berekende simulaties op basis van geavanceerde waarschijnlijkheden, waarover Google een onderzoekspaper heeft gepubliceerd.

Het eindresultaat? Toen onderzoek de definitieve afbeeldingen in een test aan mensen presenteerde, kozen ze ervoor dat de gegenereerde gezichten ongeveer de helft van de tijd werden aangezien voor echte gezichten. Hoewel een percentage van 50% misschien niet succesvol klinkt, is het in lijn met wat we zouden kunnen verwachten met een perfect algoritme. Google zegt dat deze methode betere resultaten oplevert dan andere beeldverbeteringsopties, waaronder generatieve vijandige netwerken die concurrerende neurale netwerken gebruiken om een afbeelding te verfijnen.

Google zegt dat het van plan is meer te doen met deze AI-engines en hun gerelateerde technologieën , buiten het bereik van beeldopschaling, net als andere gebieden van waarschijnlijkheidsmodellering. En terwijl deze "zoomen en verbeteren" technologie maakt het gemakkelijk om dingen te doen zoals oude foto's opwaarderen, het heeft zeker ook onmiskenbaar potentieel, zoals, nou ja, inzoomen en het verbeteren van een foto of een kentekenplaat of iets anders.

via Science Alert