Det har verkligen inte gått för länge sedan OpenAI visade upp Sora, vilket imponerade och skrämde många människor med sin förmåga att göra (något) realistiska videoklipp av textuppmaningar. AI-bildgenerering har polerats mycket under de senaste månaderna, så som du kan förvänta dig är nästa naturliga steg video. Google kommer också ut med sina egna videogenereringsmetoder, med nya AI-modeller under paraplyet av Imagen 2 som också lovar stora saker.
Google introducerade Imagen 2, en familj av modeller inom sin Vertex AI-plattform. Google hamnade i brand för att dess bildgenereringsmodell inom Gemini var lite av en dumpsterbrand. Den togs bort, och även om Gemini inte inkluderar Imagen 2 (åtminstone inte direkt), kommer den med en rad förbättringar som gör det bättre för att generera bilder eller till och med video.
Förbättringar av Imagen 2 inkluderar inmålnings- och ommålningsfunktioner, vilket möjliggör bildmanipulation som borttagning av oönskade element eller tillägg av nya komponenter. Den viktigaste uppdateringen är dock introduktionen av "text-till-live-bilder" möjliggör skapandet av korta videor från textinmatningar.
Du bör dock tänka på att detta inte är Sora. Jämfört med befintliga verktyg för videogenerering kan Imagen 2:s kapacitet misslyckas när det gäller upplösning och anpassningsalternativ. Vi måste se hur bra det fungerar i verkligheten. Det är också lite tekniskt, men detta genererar "livebilder" som är korta klipp på 4 sekunder. Det är dock fortfarande en början, och detta kan fungera som en grund för en verklig text-till-video-modell inom de närmaste månaderna eller åren.
För att ta itu med farhågor angående djupförfalskningar, införlivar Google SynthID-teknik för att applicera kryptografiska vattenstämplar på levande bilder, med sikte på autenticitet och säkerhet. Trots Googles betoning på säkerhetsåtgärder kvarstår frågor om effektiviteten i dess tillvägagångssätt och transparens när det gäller utbildningsdatakällor. Avsaknaden av en opt-out-mekanism för kreatörer vars arbete kan inkluderas i utbildningsdata kan höja ögonbrynen för vissa. Dessutom täcker inte Googles generativa AI-ersättningspolicy text-to-live-bilder, vilket gör kunderna sårbara för potentiella upphovsrättsanspråk.
Vi får vänta och se om Google gör detta tillgängligt för allmänheten på något sätt. Vi kanske hör mer när Google I/O rullar runt.
Källa: TechCrunch
Leave a Reply
You must be logged in to post a comment.