Audio Deepfakes: Kan Iemand Vertellen Als Ze Nep?

Video deepfakes betekenen dat je niet kunt vertrouwen alles wat je ziet. Nu, audio deepfakes kan betekenen dat u niet meer kunt vertrouwen op je oren. Was dat echt de president de oorlog te verklaren Canada? Is dat echt je vader aan de telefoon te vragen voor zijn e-mail wachtwoord?

Het toevoegen van een andere existentiële zorgen om de lijst van hoe onze eigen overmoed misschien onvermijdelijk ons vernietigen. Tijdens de Reagan-tijdperk, de enige echte technologische risico ‘ s de dreiging van nucleaire, chemische en biologische oorlogsvoering.

In de volgende jaren, we hebben de gelegenheid gehad om te obsederen over nanotech ‘ s gray goo en wereldwijde pandemieën. Nu, we hebben deepfakes—mensen verliezen de controle over hun gelijkenis of voice.

Wat Is een Audio-Deepfake?

De meeste van ons hebben gezien een video deepfake, in die diep-learning algoritmen worden gebruikt ter vervanging van één persoon met iemand anders gelijkenis. De beste zijn bebaarde woordvoerder realistisch, en nu is het audio aan de beurt. Een audio-deepfake is als een “gekloond” stem, die mogelijk niet te onderscheiden van de echte persoon wordt gebruikt voor het produceren van synthetische audio.

“Het is net als Photoshop voor stem,” zei Zohaib Ahmed, CEO van Lijken AI, over zijn bedrijf de voice-kloon technologie.

Echter, slechte Photoshop banen zijn gemakkelijk weerlegd. Een beveiligingsbedrijf we spraken zei dat mensen meestal alleen maar raden als u een audio-deepfake echt is of nep met ongeveer 57 procent nauwkeurigheid—niet beter dan een coin flip.

Bovendien, omdat er zo veel stem-opnamen zijn van een lage kwaliteit van telefoongesprekken (of opgenomen in een lawaaiige locaties), audio deepfakes nog niet te onderscheiden. Hoe slechter de geluidskwaliteit, hoe moeilijker het is om te pick-up die waarschuwingssignalen die een stem is niet echt.

Maar waarom zou iemand moeten een Photoshop voor stemmen, toch?

De Dwingende reden voor Synthetische Audio

Er is een enorme vraag naar synthetische audio. Volgens Ahmed, “de ROI is heel direct.”

Dit geldt met name als het gaat om gaming. In het verleden zijn toespraak was het een onderdeel van een spel dat was onmogelijk om on-demand. Zelfs in de interactieve titels met de bioscoop-kwaliteit scènes weergegeven in real-time, verbale interacties met nonplaying tekens worden altijd in wezen statisch.

Nu, echter, de technologie is ingehaald. Studio ‘ s hebben het potentieel om een kloon van een acteur de stem en het gebruik van tekst-naar-spraak-engines tekens kunnen zeggen dat alles in real time.

Er zijn ook meer traditionele toepassingen in de reclame, en tech en ondersteuning van de klant. Hier, een stem die klinkt authentiek menselijk en reageert persoonlijk en contextueel zonder menselijke input is wat belangrijk is.

Voice-klonen bedrijven zijn ook enthousiast over de medische toepassingen. Natuurlijk stem vervanging is niets nieuws in de geneeskunde—Stephen Hawking beroemde gebruik van een robot gesynthetiseerde stem na het verliezen van zijn eigen in 1985. Echter, de moderne stem klonen belooft zelfs iets beter.

In 2008, synthetische stem bedrijf, CereProc, gaf eind filmcriticus Roger Ebert, zijn stem terug na kanker nam het weg. CereProc had gepubliceerd van een webpagina die mensen toegestaan om het type berichten dat zou dan worden gesproken in de stem van de voormalige President George Bush.

“Ebert zag dat en dacht, ‘nou, als ze kon kopiëren Bush’ s stem, ze moeten in staat zijn om kopiëren van mij,’ zei Matthew Aylett, CereProc chief scientific officer. Ebert dan het bedrijf verzocht om een vervangende stem, en dat deden ze door de verwerking van een grote bibliotheek van geluidsopnamen.

“Het was een van de eerste keren dat iemand ooit had gedaan, en het was een groot succes,” Aylett zei.

In de afgelopen jaren zijn er een aantal bedrijven (waaronder CereProc) hebben gewerkt met de ALS Vereniging op Project Revoice te bieden synthetische stemmen op degenen die last van ALS.

Hoe Synthetische Audio Works

Stem klonen is het hebben van een moment van nu, en een hoop bedrijven zijn het ontwikkelen van tools. Lijken op AI en b eschrijvin g de online demo ‘ s kan iedereen proberen gratis. U neem gewoon de zinnen die op het scherm worden weergegeven en in een paar minuten, een model van uw stem wordt aangemaakt.

U kunt dank AI—specifiek, diep-learning algoritmen voor het kunnen overeenkomen met opgenomen spraak naar tekst om te begrijpen van de component fonemen in uw stem. Vervolgens wordt de resulterende taalkundige bouwstenen voor een benadering van woorden, het is niet hoorde u spreken.

De basistechnologie is geweest rond voor een tijdje, maar als Aylett gewezen, het vereist wat hulp.

“Kopiëren stem was een beetje als het maken van gebak,” zei hij. “Het was een soort van moeilijk te doen en er waren verschillende manieren waarop je moest je aanpassen door met de hand te krijgen om te werken.”

Ontwikkelaars die nodig zijn enorme hoeveelheden van een voice-gegevens te krijgen begaanbaar resultaten. Dan, een paar jaar geleden, de sluizen geopend. Onderzoek op het gebied van computer vision bleek van cruciaal belang. Wetenschappers ontwikkelden generatieve tegenspraak netwerken (GANs), die voor de eerste keer, te extrapoleren en voorspellingen te maken op basis van bestaande gegevens.

“In plaats van een computer het zien van een afbeelding van een paard en zeggen: ‘dit is een paard’,’ mijn model kon een paard in een zebra,” zei Aylett. “Zo, de explosie van de spraaksynthese nu is te danken aan het wetenschappelijke werk van computer vision.”

Een van de grootste innovaties in de stem van de klonen is de totale vermindering in hoeveel raw-gegevens nodig voor het maken van een stem. In het verleden zijn de systemen die nodig zijn tientallen of zelfs honderden uren van audio. Nu, echter, bevoegde stemmen kunnen worden gegenereerd op basis van slechts enkele minuten van de inhoud.

GERELATEERD: Het Probleem Met AI: Machines Zijn die Dingen Leren, Maar Kan het niet Begrijpen

De Existentiële Angst van het Niet Vertrouwen van Iets

Deze technologie, samen met kernenergie, nanotech, 3D-printen, CRISPR, is tegelijkertijd spannend en angstaanjagend. Immers, er zijn al gevallen in het nieuws van de mensen die gedupeerd door stem-klonen. In 2019, een bedrijf in het verenigd koninkrijk voerde hij werd bedrogen door een audio-deepfake telefoongesprek in de bedrading van geld naar criminelen.

Je hoeft niet ver te gaan zoeken verrassend overtuigend audio fakes, hetzij. YouTube-kanaal Vocale Synthese functies bekende mensen zeggen dingen die ze nooit gezegd, net als George W. Bush het lezen van “In Da Club” van 50 Cent. Het is spot on.

Elders op YouTube, hoor je een kudde van ex-Presidents, met inbegrip van Obama, Clinton en Reagan, rappen NWA. De muziek en de achtergrond geluiden helpen verdoezelen sommige van de voor de hand liggende robot glitchiness, maar zelfs in deze onvolmaakte staat, het potentieel is duidelijk.

We geëxperimenteerd met de tools op Lijken AI en b eschrijvin g en gemaakt stem kloon. B eschrijvin g maakt gebruik van een voice-klonen motor die oorspronkelijk van geroepen werd Liervogel en was bijzonder indrukwekkend. We waren geschrokken van de kwaliteit. Het horen van je eigen stem zeggen: je weet dat je nooit gezegd is zenuwslopend.

Er is zeker een robot kwaliteit van de spraak, maar op een ongedwongen luisteren, zouden de meeste mensen hebben geen reden om te denken dat het nep was.

We hadden zelfs nog hoger op hoopt Lijken op AI. Het geeft u de hulpmiddelen om een gesprek te voeren met meerdere stemmen en variëren van de expressie, emotie, en het tempo van de dialoog. Echter, we niet denken dat de stem model veroverde de essentiële kwaliteiten van de stem gebruikt. In feite, was het onwaarschijnlijk dat iedereen gek.

Een Vergelijkbaar AI rep vertelde ons dat “de meeste mensen zijn weggeblazen door de resultaten indien ze doen het goed.” We bouwden een stem model tweemaal met vergelijkbare resultaten. Dus, blijkbaar, het is niet altijd makkelijk om een stem kloon u kunt gebruiken voor het trekken van een digitale inbraak.

Zelfs zo, de Liervogel (die is nu onderdeel van b eschrijvin g) stichter, Kundan Kumar, voelt hebben we al voorbij die drempel.

“Voor een klein percentage van de gevallen, het is er al,” Kumar zei. “Als ik gebruik van synthetische audio voor het wijzigen van een paar woorden in een toespraak, het is al zo goed dat je zal een harde tijd te weten wat er veranderd is.”

We kunnen ook veronderstellen dat deze technologie zal alleen maar beter worden met de tijd. Systemen hebben minder behoefte aan audio om een model te creëren, snellere processors en zal in staat zijn om het model te bouwen in real-time. Slimmere AI leert u hoe u meer overtuigen van de mens, zoals de trapfrequentie en de nadruk op spraak zonder dat daar een voorbeeld van.

Dat betekent dat we kunnen kruipen dichter bij de brede beschikbaarheid van moeiteloos stem klonen.

De Ethiek van de Doos van Pandora

De meeste bedrijven werken in deze ruimte lijken klaar voor het verwerken van de technologie op een veilige, verantwoorde manier. Lijken AI, bijvoorbeeld, heeft een hele “Ethiek” sectie op haar website, en het volgende fragment is bemoedigend:

“Wij werken samen met bedrijven door middel van een streng proces om ervoor te zorgen dat de stem ze zijn klonen te gebruiken is door hen en de juiste toestemmingen in plaats met stem-acteurs.”

Ook Kumar zei Liervogel was bezorgd over misbruik van de start. Dat is de reden waarom nu, als een deel van Descript, alleen het stelt mensen in staat om een kloon van hun eigen stem. In feite, beide Lijken op een Descript vereisen dat mensen het opnemen van hun samples live om te voorkomen dat niet-gewenst voice-klonen.

Het is bemoedigend dat de grote commerciële spelers hebben opgelegd sommige ethische richtlijnen. Echter, het is belangrijk om te onthouden dat deze bedrijven niet zijn poortwachters van deze technologie. Er zijn een aantal open-source tools al in het wild, waarvan er geen regels zijn. Volgens Henry Ajder, hoofd van threat intelligence bij Deeptrace, heb je ook niet nodig hebt geavanceerde kennis van codering om het misbruik.

“Veel van de vooruitgang in de ruimte is gekomen door de samenwerking in plaatsen zoals GitHub, met behulp van open-source implementaties van eerder gepubliceerde academische papers” Ajder zei. “Het kan worden gebruikt door iedereen die heeft matige kennis en vaardigheid in het programmeren.”

Security Professionals, Die Gezien Hebben Al Dit Vóór

Criminelen hebben geprobeerd om geld te stelen door phone lang voordat stem klonen mogelijk was, en security-experts zijn altijd op gesprek te sporen en te voorkomen. Beveiligingsbedrijf Pindrop probeert te stoppen bank fraude door het verifiëren als een beller is wie hij of zij beweert te zijn van de audio. In 2019 alleen, Pindrop beweert te hebben geanalyseerd 1,2 miljard stem interacties en het voorkomen over $470 miljoen in pogingen tot fraude.

Voordat stem klonen, fraudeurs geprobeerd een aantal van de andere technieken. Het eenvoudigste is gewoon te bellen naar elders met persoonlijke informatie over de mark.

“Onze acoustic signature stelt ons in staat om te bepalen dat een gesprek is in feite afkomstig uit een Skype-telefoon in Nigeria vanwege de klankeigenschappen,” zei Pindrop CEO, Vijay Balasubramaniyan. “Dan kunnen we vergelijken dat het kennen van de klant gebruik maakt van een AT&T telefoon in Atlanta.”

Sommige criminelen hebben ook een carrière uit het gebruik van achtergrond geluiden af te werpen banking reps.

“Er is een fraudeur we genaamd Chicken Man die altijd had hanen gaan in de achtergrond,” zei Balasubramaniyan. “En er is een vrouw die een baby huilt in de achtergrond te wezen overtuigen van de call center agents, die ‘hey, ik ga door een moeilijke tijd’ te krijgen sympathie.”

En dan zijn er de mannelijke criminelen die vrouwen gaan na de bankrekeningen.

“Ze maken gebruik van technologie om de frequentie te verhogen van hun stem geluid meer vrouwelijk,” Balasubramaniyan uitgelegd. Deze kan succesvol zijn, maar “af en toe, de software messes up en ze klinken als Alvin en de Chipmunks.”

Natuurlijk stem klonen is gewoon de nieuwste ontwikkeling in deze steeds escalerende oorlog. Beveiligingsbedrijven hebben al gevangen fraudeurs met behulp van synthetische audio in ten minste één onderwatervissers aanval.

“Met het juiste doel, de uitbetaling kan worden massaal,” Balasubramaniyan zei. “Dus, is het zinvol besteden van de tijd voor het maken van een gesynthetiseerde stem van de juiste persoon.”

Kan Iemand Vertellen Als een Stem Is Nep?

Als het gaat om het herkennen als een stem is vervalst, er is zowel goed als slecht nieuws. Het slechte is dat de stem klonen elke dag beter. Diep-learning systemen worden steeds slimmer en het maken van meer authentieke stemmen die minder eisen aan de audio te maken.

Zoals je kunt zien aan deze clip van President Obama te vertellen MC Ren te nemen van de stand, hebben we ook al gekregen tot het punt waar een high-fidelity, zorgvuldig opgebouwde stem model kan klinken overtuigend voor het menselijk oor.

Hoe langer een geluidsclip is, hoe meer kans je hebt om op te merken dat er iets mis is. Voor kortere clips, hoewel, je merkt het misschien niet op de synthetische—vooral als je geen reden hebt om het in vraag stellen van haar legitimiteit.

Hoe beter de geluidskwaliteit, hoe makkelijker het is om de voortekenen van een audio-deepfake. Als iemand spreekt rechtstreeks in een studio-kwaliteit microfoon, zult u in staat zijn om te luisteren. Maar een slechte kwaliteit van het telefoongesprek opname of een gesprek opgevangen op een handheld apparaat in een drukke parkeergarage zal veel moeilijker te evalueren.

Het goede nieuws is dat, zelfs als mensen hebben moeite met het scheiden van het echte van het valse, computers hebben niet dezelfde beperkingen. Gelukkig, voice controle-instrumenten bestaan al. Pindrop heeft een die diepe kuilen-learning systemen tegen elkaar. Het wordt gebruikt zowel om te ontdekken of een audio sample is de persoon die het hoort te zijn. Echter, het onderzoekt ook als een mens kan zelfs de geluiden in het monster.

Afhankelijk van de kwaliteit van de audio, elke seconde van meningsuiting bevat tussen 8.000-50,000 gegevens monsters die kunnen worden geanalyseerd.

“De dingen die we meestal op zoek naar zijn beperkingen op de spraak te wijten aan de evolutie van de mens,” aldus Balasubramaniyan.

Bijvoorbeeld, twee vocale geluiden hebben een minimale mogelijke afstand van elkaar. Dit is omdat het niet fysiek mogelijk om te zeggen dat ze sneller vanwege de snelheid waarmee de spieren in je mond en stembanden kunnen configureren zichzelf.

“Als we kijken naar audio,” Balasubramaniyan zei: “we soms dingen zien en zeggen,” dit zou nooit zijn gegenereerd door een mens, omdat de enige persoon die dat kan hebben gegenereerd, dit moet een zeven meter lange nek.”

Er is ook een klasse van geluid genaamd “wrijfklanken.” Ze zijn gevormd als de lucht gaat door een smalle vernauwing in de keel wanneer u het uitspreken van letters, zoals f, s, v, en z. Wrijfklanken zijn bijzonder moeilijk is voor deep-learning systemen te beheersen, omdat de software heeft moeite met het onderscheiden hen van lawaai.

Dus, althans voor nu, voice-software voor het klonen is gestuit door het feit dat de mens in zijn zakken vlees die stroom lucht door de gaten in hun lichaam om te praten.

“Ik houd grapje dat deepfakes zijn zeer whiney,” zei Balasubramaniyan. Hij legde uit dat het heel moeilijk is voor algoritmen onderscheid te maken tussen de uiteinden van de woorden van achtergrond ruis in een opname. Dit resulteert in vele stem-modellen met een toespraak dat de paden niet meer af dan mensen dat doen.

“Wanneer een algoritme ziet dit gebeurt een heleboel,” Balasubramaniyan zei: “statistisch gezien wordt er meer vertrouwen in het geluid dat gegenereerd is, in tegenstelling tot een mens.”

Lijken AI is ook de aanpak van de opsporing probleem head-on met de Resemblyzer, een open-source diep-learning tool beschikbaar op GitHub. Het kunnen detecteren van valse stemmen en uit te voeren luidspreker verificatie.

Het Duurt Waakzaamheid

Het is altijd moeilijk om te raden wat de toekomst in petto heeft, maar deze technologie zal vrijwel zeker alleen maar beter worden. Ook kon iedereen een potentieel slachtoffer—niet alleen high-profile individuen, zoals gekozen functionarissen of bank-Ceo ‘ s.

“Ik denk dat we op de rand van de eerste audio overtreding, wanneer de stemmen van mensen gestolen,” Balasubramaniyan voorspeld.

Op het moment, echter, de echte risico ‘ s van audio deepfakes is laag. Er zijn al tools die lijken te doen een goede baan van het opsporen van synthetische video.

Plus, de meeste mensen zijn niet op het risico van een aanval. Volgens Ajder, de belangrijkste commerciële spelers “werken op maat gemaakte oplossingen voor specifieke klanten, en de meeste hebben een redelijk goede ethische richtlijnen die ze wel en niet zouden werken.”

De echte dreiging in het verschiet ligt, hoewel, als Ajder ging op te leggen:

“De Doos van Pandora worden mensen cobbling samen open-source implementatie van de technologie in toenemende mate gebruiksvriendelijke, toegankelijke apps of services die niet van dat soort ethische laag van toetsing die commerciële oplossingen doen op het moment.”

Dit is waarschijnlijk onvermijdelijk, maar security bedrijven zijn al rollend nep-audio-detectie in hun lespakketten. Nog steeds, veilig vereist oplettendheid.

“Wij hebben dit gedaan in andere security gebieden,” zei Ajder. “Veel organisaties besteden veel tijd aan het proberen te begrijpen wat is de volgende zero-day kwetsbaarheid, bijvoorbeeld. Synthetische audio is gewoon de volgende grens.”

GERELATEERD: Wat Is een Deepfake, en Moet ik me zorgen maken?

LEES VERDER

“ONLYOFFICE Is de Gezamenlijke Office Suite Uw Zakelijke Behoeften
“Wat Doet “IMY” Betekenen, en Hoe Gebruik Je Het?
“Het Gebruik van de iPhone Camera App: De Ultieme Gids
“Hoe Gebruik Amiibo Kaarten in ‘Animal Crossing: New Horizons”
“4 Manieren om Snel een Notitie Maken op de iPhone of iPad