Snelle links
- Het herkennen van door AI gegenereerde inhoud kan een uitdaging zijn
- Let op subtiele veranderingen en "Geesten"
- AI worstelt met vingers, brillen en fijnere elementen
- Kijk goed naar objecten op de achtergrond van een afbeelding
- Belichting en de " AI Aura"
- Het Uncanny Valley-effect
- Pas op voor onzin
- Train jezelf om deze inhoud beter te herkennen
Met de komst van OpenAI's SORA tekst-naar-video-model staren we naar een onontkoombare toekomst vol door AI gegenereerde video. Maar de technologie is nog niet geperfectioneerd, dus hier zijn enkele tips voor het herkennen van door AI gegenereerde video (voor nu).
Door AI gegenereerde inhoud herkennen kan een uitdaging zijn
Op het eerste gezicht zou het je vergeven zijn als je door AI gegenereerde video voor de real deal zou doorgaan. Pas als je wat dieper gaat kijken, begin je te merken dat er iets mis is.
Alle voorbeelden waar we het in dit artikel over zullen hebben, hebben betrekking op OpenAI's SORA tekst-naar-video-model, aangekondigd in februari 2024. Het is veruit het meest geavanceerde model in zijn soort, dat tekstprompts omzet in bewegende beelden. Er is een lange weg afgelegd sinds de beruchte Reddit-post van Will Smith die spaghetti eet begin 2023 opdook. Op het moment van schrijven in maart 2024 bevindt SORA zich nog in een gesloten testfase.
Het spotten van door AI gegenereerde foto's en video's is meer een kunst dan een exacte wetenschap. Er zijn manieren om te bepalen of een foto door AI is gegenereerd, maar deze werken niet consistent. Tools die zijn ontworpen om AI-inhoud te detecteren zijn vaak onbetrouwbaar, zelfs als het om tekst gaat.
Het doel hier is om enkele manieren te benadrukken waarop u door AI gegenereerde inhoud kunt selecteren, althans voorlopig. Houd er rekening mee dat modellen altijd evolueren, waardoor deze eigenschappen moeilijker te herkennen zullen zijn. Soms kan de keuze van het onderwerp en de context van de video het verschil maken.
Let op subtiele veranderingen en "Geesten"
Op zoek gaan naar subtiele veranderingen is één manier om een overtuigende AI-nep te ontdekken, maar dat is niet bepaald eenvoudig. Een voorbeeld van OpenAI's SORA beeldde een vrouw af die door een neonverlichte straat in Tokio liep. De scène is indrukwekkend voor een tekst-naar-video-tool, zo indrukwekkend dat je misschien de garderobewissel aan het einde van de beelden hebt gemist.
De kleding van de vrouw in de openingsscène toont een rode jurk met een lange vest en een leren jas. Het vest is een beetje vreemd omdat het lijkt op te gaan in het jasje, maar ik ben niet bepaald Mr Fashion, dus ik zal het maar proberen:
Bekijk nu dezelfde kleding in close-up en je zult zien dat de jurk nu donkere vlekken heeft en dat het leren jasje een veel grotere, niet in het midden gelegen revers heeft:
Dit is zo subtiel dat de meeste mensen zouden moeten kijken de beelden meerdere keren om het te herkennen. De scène is compact, gevuld met reflecties en achtergrondacteurs die je helpen af te leiden van de blunder.
Iets anders waar je op moet letten zijn geesten, of objecten die in en uit bestaan. OpenAI's video van een goudkoortsstadje in Californië is hiervan een goed voorbeeld. Kijk eens naar deze nogal vaag uitziende figuur, die je hersenen waarschijnlijk interpreteren als een man met een paard:
Twee seconden later is het figuur volledig verdwenen . Als je de video bekijkt, zie je dat dit figuur regelrecht in het vuil opgaat alsof het een geest is:
AI worstelt met vingers, brillen en fijnere elementen
Een van de grootste problemen voor AI-generatieve modellen zijn ledematen en fijne lijntjes. Kijk vooral goed naar handen, vastgehouden voorwerpen, brillen en de manier waarop dingen omgaan met menselijke kenmerken (zoals hoeden, helmen of zelfs haar).
Video kan dit soort fouten gemakkelijker maken te herkennen in vergelijking met door AI gegenereerde fotografie, omdat deze kenmerken van scène tot scène kunnen veranderen.
Het plaatsen van vingers en handen is bijzonder moeilijk voor AI. Generatieve modellen hebben de neiging om handen met meer of minder vingers te produceren dan je zou verwachten. Soms zien dingen er niet helemaal goed uit, zijn de vingers erg dun of zijn er te veel knokkels. Vastgehouden objecten vertonen dezelfde wankelheid, waarbij het soms lijkt alsof de mens in het frame heeft geabsorbeerd wat het ook is dat ze vasthouden.
Zoek naar een bril die niet symmetrisch lijkt of die opgaat in gezichten. In een video kunnen ze zelfs geleidelijk in en uit beeld komen en tussen scènes wisselen. Hetzelfde geldt voor armen en benen, kijk maar eens naar deze SORA-video van mensen in Lagos, Nigera:
< /strong>
Kunt u alstublieft uw derde arm van mijn been halen?
Kijk goed naar objecten op de achtergrond van een afbeelding
Achtergronddetails zijn vaak een dode weggeefactie als het gaat om door AI gegenereerde video, nog meer dan foto's. Een goede nep is afhankelijk van het feit dat het onderwerp overtuigend genoeg is om je af te leiden dat de achtergrond zich niet helemaal gedraagt zoals het zou moeten.
Kijk nog eens naar de nachtscènevideo in Tokio. Deze scène is zo compact dat het gemakkelijk is om alles gewoon voor waar aan te nemen, maar kijk goed naar de mensen die op de achtergrond lopen, vooral degenen links van het onderwerp:
Een deel van deze beweging ziet er gewoon niet goed uit. Op een gegeven moment lijkt een persoon zichzelf te dupliceren. Later lijkt wat een groep mensen lijkt te zijn, in één object terecht te komen, alsof ze allemaal dezelfde rok of overjas dragen. In sommige gebieden zijn de loopanimaties ook vreemd.
Houd verdachte achtergrondactiviteiten in de gaten om door AI gegenereerde video te herkennen. Soms merk je dat natuurlijke objecten zoals bomen, velden of bossen op vreemde manieren met elkaar omgaan. Perspectieven kunnen afwijkend lijken, soms komen bewegende objecten niet helemaal overeen met het pad dat in de animatie wordt weergegeven.
Een ander voorbeeld is de drone-opname van de Big Sur-kustlijn van OpenAI. Heb je ooit een golf gezien die er van nature zo recht uitziet?
Verlichting en de "AI Aura"
Dit is iets dat we veel hebben gezien in door AI gegenereerde foto's, en het is misschien wel meer een 'gevoel'. dan een objectief identificeerbare eigenschap. Als de verlichting bijzonder vlak en onnatuurlijk aanvoelt in gevallen waarin u meer variatie zou verwachten, kan dat erop wijzen dat dit misschien niet echt is.
Bijvoorbeeld een gebrek aan onvolkomenheden in de camera, zoals uitbloeien, highlights uitblazen ( waar highlights verloren gaan als gevolg van te veel licht dat de lens binnendringt), of schaduwroll-off (waarbij schaduwdetails verloren gaan door de afwezigheid van licht) zijn eenvoudigweg niet aanwezig.
Alles kan een beetje lijken op een goed geproduceerde muziekvideo, of op videogames in de tijd vóór realistische belichting en raytracing. Onderwerpen kunnen er perfect belicht uitzien in gevallen waarin u dat niet zou verwachten.
Het Uncanny Valley-effect
Het griezelige vallei-effect is een term die wordt gebruikt om de vermenging van menselijke en onmenselijke eigenschappen te beschrijven op een manier waardoor de kijker zich ongemakkelijk voelt. Androïden of mensachtige robots zijn vaak genoemde voorbeelden, omdat ze de uiterlijke schijn wekken menselijk te zijn, maar tegelijkertijd onontkoombaar onmenselijk zijn.
Vaker wel dan niet komt het griezelige vallei-effect eenvoudigweg neer op een gevoel . Je voelt dat er iets niet helemaal klopt, maar je kunt er niet precies de vinger op leggen wat het is. Dit effect komt vaak naar voren in door AI gegenereerde foto's en video's, en een gebied dat ik heb ervaren is in de ruimtevaartvideo van SORA.
Als je even negeert dat de ruimtevaarder in kwestie een gebreide ruimtehelm draagt, is er iets over dit gezicht dat een rilling over mijn rug doet lopen:
En er is een soortgelijke griezelige grootmoeder die er niet in slaagt haar verjaardagskaarsen uit te blazen, wat er in beweging veel erger uitziet:
Pas op voor onzin
Dit lijkt de gemakkelijkste waarschuwing om te herkennen, maar soms laten je hersenen dingen gewoon door. De eerder genoemde spaceman-video is daar een goed voorbeeld van. Er is een korte scène van een deur, of een klink, of een hendel, of iets dat gewoon nergens op slaat:
Wat is dit voor ding? Waarom wordt de animatie schijnbaar omgekeerd afgespeeld? De gebreide helm kan ik excuseren, maar dit ding heeft me verbaasd sinds het moment dat ik het zag.
Hetzelfde geldt voor bewegingen. De SORA kat-in-bed-video is indrukwekkend, maar de beweging klopt niet. Katteneigenaren zullen herkennen dat het gedrag vreemd en onnatuurlijk is. Het voelt alsof er een mismatch is tussen het gedrag van het onderwerp en de context van de situatie. Na verloop van tijd zal dit verbeteren.
Onleesbare tekst is een ander goed voorbeeld van waar AI-generatieve processen vaak fout gaan. De Japanse karakters in de nachtscènevideo van SORA in Tokio zijn een warboel, en dat geldt ook voor een deel van de weg- en winkelborden. Het kiezen van een scène waarin de meeste mensen Japans niet van een slecht eerbetoon kunnen onderscheiden, was een slimme keuze van OpenAI.
Train jezelf om deze inhoud beter te herkennen
De beste manier om jezelf te trainen in het herkennen van door AI gegenereerde inhoud is door deze zelf te bestuderen. De meeste generatieve modellen hebben actieve communities, zowel op internet als op sociale mediaplatforms zoals Reddit. Zoek er een paar en kijk wat mensen bedenken.
Bovendien kun je je eigen afbeeldingen genereren met behulp van een tool als Stable Diffusion. Op het moment dat we dit schrijven is de SORA van OpenAI niet beschikbaar voor openbaar gebruik, dus je zult moeten wachten voordat je er zelf in gaat duiken.
De door AI gegenereerde video is tegelijkertijd indrukwekkend, fascinerend en angstaanjagend meeteenheid. Na verloop van tijd zullen deze tips waarschijnlijk minder relevant worden naarmate modellen hun zwakke punten overwinnen. Dus doe je gordel om, want je hebt nog niets gezien.