Googles nya Imagen 2-modell kan generera videor

Det har verkligen inte gått för länge sedan OpenAI visade upp Sora, vilket imponerade och skrämde många människor med sin förmåga att göra (något) realistiska videoklipp av textuppmaningar. AI-bildgenerering har polerats mycket under de senaste månaderna, så som du kan förvänta dig är nästa naturliga steg video. Google kommer också ut med sina egna videogenereringsmetoder, med nya AI-modeller under paraplyet av Imagen 2 som också lovar stora saker.

Google introducerade Imagen 2, en familj av modeller inom sin Vertex AI-plattform. Google hamnade i brand för att dess bildgenereringsmodell inom Gemini var lite av en dumpsterbrand. Den togs bort, och även om Gemini inte inkluderar Imagen 2 (åtminstone inte direkt), kommer den med en rad förbättringar som gör det bättre för att generera bilder eller till och med video.

Förbättringar av Imagen 2 inkluderar inmålnings- och ommålningsfunktioner, vilket möjliggör bildmanipulation som borttagning av oönskade element eller tillägg av nya komponenter. Den viktigaste uppdateringen är dock introduktionen av "text-till-live-bilder" möjliggör skapandet av korta videor från textinmatningar.

Du bör dock tänka på att detta inte är Sora. Jämfört med befintliga verktyg för videogenerering kan Imagen 2:s kapacitet misslyckas när det gäller upplösning och anpassningsalternativ. Vi måste se hur bra det fungerar i verkligheten. Det är också lite tekniskt, men detta genererar "livebilder" som är korta klipp på 4 sekunder. Det är dock fortfarande en början, och detta kan fungera som en grund för en verklig text-till-video-modell inom de närmaste månaderna eller åren.

För att ta itu med farhågor angående djupförfalskningar, införlivar Google SynthID-teknik för att applicera kryptografiska vattenstämplar på levande bilder, med sikte på autenticitet och säkerhet. Trots Googles betoning på säkerhetsåtgärder kvarstår frågor om effektiviteten i dess tillvägagångssätt och transparens när det gäller utbildningsdatakällor. Avsaknaden av en opt-out-mekanism för kreatörer vars arbete kan inkluderas i utbildningsdata kan höja ögonbrynen för vissa. Dessutom täcker inte Googles generativa AI-ersättningspolicy text-to-live-bilder, vilket gör kunderna sårbara för potentiella upphovsrättsanspråk.

Vi får vänta och se om Google gör detta tillgängligt för allmänheten på något sätt. Vi kanske hör mer när Google I/O rullar runt.

Källa: TechCrunch


Posted

in

by

Tags:

Comments

Leave a Reply