DALL-E 2 di OpenAI è stato uno shock per coloro che pensavano che l'intelligenza artificiale non sarebbe mai (o almeno non rapidamente) iniziano a infiltrarsi nel regno della creatività. Ma DALL-E 2 è qui per portare gli artisti&8217; lavori?
Come funziona DALL-E 2?
DALL-E 2 è così impressionante che sembra quasi una magia, ma gli ampi dettagli di come crea immagini così straordinarie e realistiche non sono così difficili da capire.
Ci sono due componenti principali in DALL -E 2. Il primo è GPT-3, che è probabilmente l'algoritmo di apprendimento automatico del linguaggio naturale più avanzato attualmente in circolazione. DALL-E 2 utilizza anche un altro modello OpenAI noto come CLIP (Contrastive Language-Image Pre-training).
CORRELATICos'è l'apprendimento automatico?
GPT-3 e CLIP consentono a un computer di comprendere e generare un sofisticato linguaggio naturale. Addestrando la rete neurale DALL-E con miliardi di immagini e le loro descrizioni in linguaggio naturale da (principalmente) Internet, apprende le relazioni tra i concetti.
In un certo senso, DALL-E è il contrario di un pratica comune di apprendimento automatico, in cui fornisci un'immagine e l'IA tenta di descrivere ciò che vede.
Pensa a quel famigerato “Not a Hotdog” app dal programma televisivo Silicon Valley. La differenza qui è che invece di chiedere all'IA se l'immagine è un hotdog o meno, stai descrivendo l'hotdog e sta generando un'immagine di hotdog completamente originale basata su tutto ciò che ha appreso su di loro .
La seconda parte importante di DALL-E è il modo in cui genera le immagini. Utilizza un metodo noto come “diffusione.” In particolare, la comprensione della descrizione di un'immagine nel linguaggio umano che è stata creata, viene trasformata in un'immagine utilizzando un modello OpenAI chiamato GLIDE. GLIDE acquisisce un'immagine composta da rumore generato in modo casuale e quindi rimuove gradualmente quel rumore fino a quando non corrisponde all'immagine come descritto nel linguaggio naturale. Ricorda in qualche modo uno scultore che inizia con un blocco di marmo e scheggia finché non rimane solo una statua.
Per una descrizione molto più tecnica e dettagliata di DALL-E 2 sotto il cofano, consiglio vivamente l'esplicativo di DALL-E 2 sul blog di deep learning di AssemblyAI.
Perché DALL-E 2 è così dirompente
DALL-E 2 è tutt'altro che il primo software di machine learning in grado di generare immagini. Ci sono stati molti sistemi precedenti e DALL-E 2 si basa sulle lezioni apprese da quegli altri progetti. Allora perché questa volta sembra un punto di svolta dirompente?
Un motivo significativo è che le immagini realizzate da DALL-E e DALL-E 2 sono esteticamente gradevoli. Altri sistemi di generazione di immagini AI spesso creano immagini che le persone descrivono come inquietanti o come qualcosa di un sogno. È un po' come la Uncanny Valley, ma per le arti visive. DALL-E 2 crea immagini che hanno chiaramente un occhio artistico o un senso estetico alle spalle.
Quindi le immagini che crea DALL-E 2 sono paragonabili a quelle realizzate da artisti o fotografi di talento che hanno trascorso un tutta la vita sviluppando il loro senso estetico. Non è difficile immaginare qualcuno del genere guardando le immagini che DALL-E 2 può sputare in pochi secondi e sentendosi come se stessero per diventare irrilevanti.
Non solo il sistema è in grado di creare bellissime immagini ad alta risoluzione in pochi secondi da prompt in linguaggio naturale , ma può anche modificare e modificare tali immagini o fornire più varianti di un'immagine esistente, anche quella fornita dall'utente. Quindi questo significa che gli artisti dovrebbero impacchettare i loro cavalletti e tavolette da disegno e “imparare a programmare” invece?