Googles nya AI -motorer kan zooma och förbättra, precis som i filmerna

0
158
Google

Du vet hur, i filmer, när det finns en bild på datorn och detektiven som står bredvid The Guy In The Chair säger “ kan du zooma in och förbättra den registreringsskylten? ” Den tekniken är nu verklig tack vare Googles nyaste AI -motorer.

Processen för att göra detta är extremt komplex och svår att bemästra, eftersom de är baserade på diffusionsmodeller (och en del seriöst avancerad matematik) och arbetar med att lägga till detaljer i en bild som ursprungligen inte fanns där. Detta görs genom att gissa med liknande bilder och är en teknik som Google dubbade naturlig bildsyntes, och i detta fall bildens superupplösning.

Självklart börjar du med en liten och pixelerad bild (som bilder på vänster sida av var och en av bilduppsättningarna ovan) och slutar med en mycket högre upplösning som inte bara ser skarpare ut utan verkar verklig för det mänskliga ögat, även om det inte är 100% exakt matchning med originalet . För att få jobbet gjort använde Google två nya AI-verktyg: Superupplösning via Repeated Refinement (SR3) och Cascaded Diffusion Models (CDM).

Den första, SR3, lägger till brus i en bild (det här liknar statiken eller snön som du ser på en TV -skärm när signalen är svag) och vänder sedan om processen. Den använder en stor bilddatabas och en serie sannolikhetsberäkningar för att kartlägga hur en lågupplöst version av bilden ser ut, vilket Google-forskare Chitwan Saharia går in på mer djup med här.

Google

“ Diffusionsmodeller fungerar genom att förstöra utbildningsdata genom att gradvis lägga till gaussiskt brus, långsamt rensa ut detaljer i data tills det blir rent brus och sedan träna ett neuralt nätverk för att vända denna korruptionsprocess, ” förklarade Saharia.

Det andra verktyget, CDM, använder “ pipelines ” de olika diffusionsmodellerna (inklusive SR3) kan ledas igenom för att producera uppgraderingarna med hög upplösning. Detta verktyg gör större bilder av förbättringsmodellerna med noggrant beräknade simuleringar baserade på avancerade sannolikheter, som Google publicerade en forskningsartikel om.

Slutresultatet? När forskning presenterade de färdiga bilderna för människor i ett test valde de att de genererade ansiktenen misstogs för riktiga ansikten ungefär hälften av tiden. Även om en 50% -hastighet kanske inte låter framgångsrik, är den i linje med vad vi kan förvänta oss med en perfekt algoritm. Google säger att den här metoden ger bättre resultat än andra bildförbättringsalternativ, inklusive generativa kontradiktoriska nätverk som använder konkurrerande neurala nätverk för att förfina en bild.

Google säger att den tänker göra mer med dessa AI -motorer och deras tillhörande teknik , utanför ramen för bildskalning, liksom andra områden av sannolikhetsmodellering. Och medan detta “ zooma och förbättra ” teknik kommer att göra det enkelt att göra saker som exklusiva gamla foton, det har definitivt onekligen vad gäller potential också, ja, att zooma in och förbättra ett foto eller en registreringsskylt eller något annat.

via Science Alert