Français

Les nouveaux moteurs d'IA de Google peuvent zoomer et s'améliorer, comme dans les films

Sep 14, 2021

129

Vous savez comment, dans les films , quand il y a une image sur l'ordinateur et le détective qui se tient à côté de The Guy In The Chair dit “pouvez-vous zoomer et améliorer cette plaque d'immatriculation ?” Cette technologie est désormais réelle, grâce aux derniers moteurs d'IA de Google.

Le processus pour ce faire est extrêmement complexe et difficile à maîtriser, car ils sont basés sur des modèles de diffusion (et des mathématiques très avancées) et travaillent pour ajouter des détails à une image qui n'étaient pas là à l'origine. Cela se fait par conjecture à l'aide d'images similaires et c'est une technique que Google a surnommée synthèse d'image naturelle, et dans ce cas, super-résolution d'image.

Évidemment, vous commencez avec une petite image pixelisée (comme la images sur le côté gauche de chacun des ensembles d'images ci-dessus) et se retrouve avec une image de résolution beaucoup plus élevée qui non seulement semble plus nette, mais semble réelle à l'œil humain, même si elle ne correspond pas exactement à 100 % à l'original . Pour faire le travail, Google a utilisé deux nouveaux outils d'IA : Super-Resolution via Repeated Refinement (SR3) et Cascaded Diffusion Models (CDM).

Le premier, SR3, ajoute du bruit à une image (cela ressemble à l'électricité statique ou à la neige que vous voyez sur un écran de télévision lorsque le signal est faible), puis inverse le processus. Il utilise une grande base de données d'images et une série de calculs de probabilité pour déterminer à quoi ressemble une version basse résolution de l'image, que le chercheur de Google Chitwan Saharia approfondit ici.

« Les modèles de diffusion fonctionnent en corrompant les données d'apprentissage en ajoutant progressivement du bruit gaussien, en effaçant lentement les détails des données jusqu'à ce qu'elles deviennent du bruit pur, puis en formant un réseau de neurones pour inverser ce processus de corruption », ” a expliqué Saharia.

Le deuxième outil, CDM, utilise des “pipelines” les différents modèles de diffusion (y compris SR3) peuvent être dirigés pour produire les mises à niveau haute résolution. Cet outil crée des images plus grandes des modèles d'amélioration à l'aide de simulations soigneusement calculées basées sur des probabilités avancées, sur lesquelles Google a publié un document de recherche.

Le résultat final ? Lorsque la recherche a présenté les images finalisées aux personnes lors d'un test, elles ont choisi que les visages générés étaient confondus avec de vrais visages environ la moitié du temps. Bien qu'un taux de 50 % puisse ne pas sembler satisfaisant, il correspond à ce à quoi nous pourrions nous attendre avec un algorithme parfait. Google affirme que cette méthode produit de meilleurs résultats que d'autres options d'amélioration d'image, y compris les réseaux antagonistes génératifs qui utilisent des réseaux de neurones concurrents pour affiner une image.

Google dit qu'il a l'intention d'en faire plus avec ces moteurs d'IA et leurs technologies associées. , au-delà de la portée de l'upscaling d'image, comme d'autres domaines de la modélisation probabiliste. Et tandis que cela “zoomer et améliorer” la technologie rendra facile de faire des choses comme de vieilles photos haut de gamme, elle a aussi un potentiel indéniable, comme, eh bien, zoomer et améliorer une photo ou une plaque d'immatriculation ou toute autre chose.

via Science Alert