Italiano

I nuovi motori AI di Google possono ingrandire e migliorare, proprio come nei film

Sep 14, 2021

157

Sai come, nei film, quando c'è un'immagine sul computer e il detective che è in piedi accanto al ragazzo sulla sedia dice “puoi ingrandire e migliorare quella targa?” ” Quella tecnologia ora è reale, grazie ai nuovi motori di intelligenza artificiale di Google.

Il processo per farlo è estremamente complesso e difficile da padroneggiare, poiché si basano su modelli di diffusione (e su alcuni calcoli matematici seriamente avanzati) e lavorano per aggiungere dettagli a un'immagine che originariamente non erano presenti. Questo viene fatto per congettura utilizzando immagini simili ed è una tecnica che Google ha soprannominato sintesi naturale delle immagini e, in questo caso, super-risoluzione dell'immagine.

Ovviamente, inizi con un'immagine piccola e pixelata (come il immagini sul lato sinistro di ciascuna delle serie di immagini sopra) e finiscono con un'immagine a risoluzione molto più alta che non solo sembra più nitida ma appare reale all'occhio umano, anche se non corrisponde esattamente al 100% all'originale . Per portare a termine il lavoro, Google ha utilizzato due nuovi strumenti di intelligenza artificiale: Super-Resolution tramite Repeated Refinement (SR3) e Cascaded Diffusion Models (CDM).

Il primo, SR3, aggiunge rumore a un'immagine (sembra simile all'elettricità statica o alla neve che vedi sullo schermo di una TV quando il segnale è debole), quindi inverte il processo. Utilizza un ampio database di immagini e una serie di calcoli di probabilità per mappare l'aspetto di una versione a bassa risoluzione dell'immagine, con cui il ricercatore di Google Chitwan Saharia approfondisce qui.

“I modelli di diffusione funzionano corrompendo i dati di addestramento aggiungendo progressivamente rumore gaussiano, cancellando lentamente i dettagli nei dati fino a quando non diventano rumore puro e quindi addestrando una rete neurale per invertire questo processo di corruzione,” ha spiegato Saharia.

Il secondo strumento, CDM, utilizza le “pipeline” i vari modelli di diffusione (incluso SR3) possono essere indirizzati per produrre gli aggiornamenti ad alta risoluzione. Questo strumento rende le immagini più grandi dei modelli di miglioramento utilizzando simulazioni accuratamente calcolate basate su probabilità avanzate, su cui Google ha pubblicato un documento di ricerca.

Il risultato finale? Quando la ricerca ha presentato le immagini finali alle persone in un test, hanno scelto che i volti generati fossero scambiati per volti reali circa la metà delle volte. Anche se un tasso del 50% potrebbe non sembrare un successo, è in linea con quello che potremmo aspettarci da un algoritmo perfetto. Google afferma che questo metodo produce risultati migliori rispetto ad altre opzioni di miglioramento delle immagini, comprese le reti generative avversarie che utilizzano reti neurali concorrenti per perfezionare un'immagine.

Google afferma che intende fare di più con questi motori di intelligenza artificiale e le relative tecnologie , oltre l'ambito dell'upscaling dell'immagine, come altre aree della modellazione probabilistica. E mentre questo “ingrandisci e migliora” la tecnologia renderà più facile fare cose come vecchie foto di alto livello, ha sicuramente anche un potenziale innegabile, come, beh, ingrandire e migliorare una foto o una targa o qualsiasi altra cosa.

tramite Science Alert