Deutsch

Die neuen KI-Engines von Google können zoomen und verbessern, genau wie in den Filmen

Sep 14, 2021

140

Wissen Sie, wie in Filmen ein Bild auf dem Computer angezeigt wird und der Detektiv, der neben The Guy In The Chair steht, sagt: „Können Sie das Nummernschild vergrößern und verbessern? ” Dank der neuesten KI-Engines von Google ist diese Technologie jetzt real.

Der Prozess dazu ist extrem komplex und schwer zu meistern, da sie auf Diffusionsmodellen (und einiger ernsthaft fortgeschrittener Mathematik) basieren und daran arbeiten, einem Bild Details hinzuzufügen, die ursprünglich nicht vorhanden waren. Dies geschieht durch Vermutungen unter Verwendung ähnlicher Bilder und ist eine Technik, die Google als natürliche Bildsynthese bezeichnet, und in diesem Fall als Superauflösung von Bildern.

Natürlich beginnen Sie mit einem kleinen und pixeligen Bild (wie dem Bilder auf der linken Seite jedes der obigen Bildsätze) und erhalten am Ende ein Bild mit viel höherer Auflösung, das nicht nur schärfer aussieht, sondern auch für das menschliche Auge echt erscheint, auch wenn es nicht zu 100% mit dem Original übereinstimmt . Um die Arbeit zu erledigen, hat Google zwei neue KI-Tools verwendet: Super-Resolution via Repeated Refinement (SR3) und Cascaded Diffusion Models (CDM).

Der erste, SR3, fügt einem Bild Rauschen hinzu (dies ähnelt dem Rauschen oder Schnee, den Sie auf einem Fernsehbildschirm sehen, wenn das Signal schwach ist), und kehrt dann den Vorgang um. Es verwendet eine große Bilddatenbank und eine Reihe von Wahrscheinlichkeitsberechnungen, um zu ermitteln, wie eine niedrigaufgelöste Version des Bildes aussieht, auf die Google-Forscher Chitwan Saharia hier näher eingeht.

“Diffusionsmodelle funktionieren, indem sie die Trainingsdaten verfälschen, indem sie schrittweise Gaußsches Rauschen hinzufügen, Details in den Daten langsam auslöschen, bis sie reines Rauschen werden, und dann ein neuronales Netzwerk trainieren, um diesen Verfälschungsprozess umzukehren,” erklärte Saharia.

Das zweite Tool, CDM, verwendet “Pipelines” die verschiedenen Diffusionsmodelle (einschließlich SR3) können durchgeleitet werden, um die hochauflösenden Upgrades zu erzeugen. Dieses Tool erstellt größere Bilder der Verbesserungsmodelle unter Verwendung sorgfältig berechneter Simulationen basierend auf fortgeschrittenen Wahrscheinlichkeiten, zu denen Google eine Forschungsarbeit veröffentlicht hat.

Das Endergebnis? Als die Forschung den Menschen in einem Test die fertigen Bilder präsentierte, wählten sie aus, dass die generierten Gesichter in etwa der Hälfte der Fälle mit echten Gesichtern verwechselt wurden. Auch wenn eine Rate von 50 % nicht erfolgreich klingt, entspricht sie dem, was wir von einem perfekten Algorithmus erwarten können. Laut Google liefert diese Methode bessere Ergebnisse als andere Bildverbesserungsoptionen, einschließlich generativer feindlicher Netzwerke, die konkurrierende neuronale Netzwerke verwenden, um ein Bild zu verfeinern.

Google will mehr mit diesen KI-Engines und den dazugehörigen Technologien erreichen , über den Rahmen des Bild-Upscaling hinaus, wie andere Bereiche der Wahrscheinlichkeitsmodellierung. Und während dieses “Zoomen und Verbessern” Technologie wird es einfach machen, Dinge wie die Aufwertung alter Fotos zu machen, sie hat definitiv auch ein Potenzial in Bezug auf das Vergrößern und Verbessern eines Fotos oder eines Nummernschilds oder etwas anderes.

via Science Alert