Audio Deepfakes: Kann Jemand Sagen, Wenn Sie Fake?

Video deepfakes bedeuten, dass Sie nicht Vertrauen können alles, was Sie sehen. Nun, audio deepfakes könnte bedeuten, Sie können nicht mehr Vertrauen Sie Ihren Ohren. War das wirklich der Präsident die Kriegserklärung an Kanada? Ist das wirklich dein Papa am Telefon bat um seine E-Mail-Passwort?

Fügen Sie eine andere existentielle sorgen um die Liste der, wie unsere eigene überheblichkeit könnte unweigerlich zerstören uns. Während der Reagan-ära, der einzige echte technologische Risiken wurden die Bedrohung von nuklearen, chemischen und biologischen Kriegsführung.

In den folgenden Jahren, hatten wir die Möglichkeit besessen, über nanotech-Grau goo und Globale Pandemien. Nun, wir haben deepfakes—Menschen verlieren die Kontrolle über Ihr Aussehen oder Stimme.

Was Ist ein Audio-Deepfake?

Die meisten von uns haben ein video gesehen deepfake, in denen deep-learning-algorithmen verwendet werden, zu ersetzen, eine person mit einer anderen ähnlichkeit. Die besten sind unnervingly realistisch, und jetzt ist es audio an der Reihe. Eine audio-deepfake ist, wenn eine “geklonte” Stimme, die möglicherweise nicht von der realen person wird zur Herstellung von synthetischen audio.

“Es ist wie Photoshop für die Stimme”, sagte Zohaib Ahmed, CEO Ähneln AI, über seine Firma ‘ s voice-die Technologie des Klonens.

Allerdings, schlechte Photoshop-jobs sind leicht zu entkräften. Eine security-Firma, die wir mit Sprach, sagte, Menschen in der Regel nur erraten, ob eine audio-deepfake ist real oder fake mit über 57 Prozent Genauigkeit—nicht besser als ein Münzwurf.

Zusätzlich, weil so viele voice-Aufnahmen sind von geringer Qualität telefonieren (oder aufgezeichnete in lauten locations), audio-deepfakes gemacht werden können, noch mehr zu unterscheiden. Je schlechter die sound-Qualität ist, desto schwieriger ist es zu Holen, diese verräterischen Zeichen, die eine Stimme ist nicht real.

Aber warum würde jemand brauchen, ein Photoshop für Stimmen, eh?

Die Überzeugenden Fall für die Synthetische Audio

Es ist tatsächlich eine enorme Nachfrage nach synthetischen audio. Nach Ahmed, “der ROI ist sehr unmittelbar.”

Dies ist besonders wahr, wenn es um Spiele geht. In der Vergangenheit, Rede war die eine Komponente in einem Spiel, das war unmöglich zu schaffen-on-demand. Auch im interactive-Titel mit Kino-Qualität Szenen in Echtzeit gerendert, verbale Interaktionen mit nonplaying-Zeichen werden immer im wesentlichen statisch.

Jetzt, jedoch, Technologie hat aufgeholt. Studios haben das Potenzial, zu Klonen ein Schauspieler die Stimme und die Verwendung von text-to-speech-engines, also Zeichen, die sagen kann alles in Echtzeit.

Es gibt auch mehr traditionelle Verwendung in der Werbung, und tech und Kunden-support. Hier eine Stimme, die klingt authentisch menschlichen und antwortet persönlich und inhaltlich ohne menschlichen input ist, was wichtig ist.

Voice-Klonen Unternehmen freuen sich auch über die medizinischen Anwendungen. Natürlich, voice-Ersatz ist nichts neues in der Medizin—Stephen Hawking-berühmt verwendet eine Roboter-synthetisierte Stimme nach dem Verlust seiner eigenen im Jahr 1985. Doch moderne voice-Klonen verspricht sogar noch etwas besser.

Im Jahr 2008, synthetische Stimme Firma CereProc, gab Ende Filmkritiker, Roger Ebert, der seine Stimme wieder, nachdem der Krebs nahm es Weg. CereProc hatte, veröffentlichte eine Webseite, die Leuten erlaubt, Mitteilungen eingeben, das würde dann gesprochen werden, die in der Stimme des ehemaligen Präsidenten George Bush.

“Ebert sah und dachte, ‘gut, wenn Sie die kopieren könnte, die Bushs Stimme, Sie sollten in der Lage sein, zu kopieren mine’”, sagte Matthäus Aylett, CereProc chief scientific officer. Ebert fragte dann den Unternehmen das erstellen einer Ersatz-Stimme, die Sie hat durch die Verarbeitung eine große Bibliothek von Sprachaufnahmen.

“Es war eines der ersten Male, die jemand jemals getan hatte, und es war ein echter Erfolg”, Aylett, sagte.

In den letzten Jahren eine Reihe von Unternehmen (einschließlich CereProc) gearbeitet haben, mit den ALS-Verband auf Projekt Revoice zu bieten synthetischen Stimmen, um diejenigen, die leiden an ALS.

Wie Synthetic Audio Funktioniert

Stimme Klonen einen moment, und eine ganze Reihe von Unternehmen, die entwickeln Instrumente. Ähneln AI und Beschreibungen haben die online-Demo kann jeder kostenlos ausprobieren. Sie nehmen die Sätze, die auf dem Bildschirm angezeigt werden und in nur ein paar Minuten, ein Modell Ihrer Stimme erzeugt.

Sie können danken, AI—spezifisch, deep-learning-algorithmen—zu-match aufgezeichnete Sprache in text zu verstehen, die Komponente, die Phoneme, aus denen sich Ihre Stimme. Es verwendet dann die resultierenden sprachlichen Bausteine zu ungefähren Worten, er hat nicht gehört, wie Sie sprechen.

Die grundlegende Technologie ist herum für eine Weile, aber als Aylett darauf hingewiesen, Bedarf es einiger Hilfe.

“Kopieren Stimme war ein bisschen wie Blätterteig”, sagte er. “Es war schwer zu tun, und es gab verschiedene Möglichkeiten, die Sie hatte, um es zu optimieren, indem Sie die hand, um es zu arbeiten.”

Der Entwickler benötigt enorme Mengen der aufgenommenen voice-Daten zu erhalten passable Ergebnisse. Dann, vor ein paar Jahren, die Schleusen geöffnet. Forschung im Bereich computer vision erwies sich als kritisch. Wissenschaftler entwickelten generativen kontradiktorische networks (GANs), das könnte für die erste Zeit, extrapolieren und Vorhersagen zu machen, basierend auf vorhandenen Daten.

“Statt einen computer zu sehen, ein Bild von einem Pferd und sagt: ‘das ist ein Pferd’, mein Modell könnte nun ein Pferd zu einem zebra”, sagt Aylett. “Also, die explosion in der Sprachsynthese ist jetzt Dank der wissenschaftlichen Arbeit aus der computer vision.”

Eine der größten Innovationen im voice-Klonen wurde die gesamte Reduktion wie viel raw-Daten benötigt wird, um eine Stimme. In der Vergangenheit, Systeme benötigt, Dutzende oder sogar Hunderte von Stunden audio. Jetzt, jedoch, die zuständigen Stimmen erzeugt werden können, nur wenige Minuten von Inhalten.

RELATED: Das Problem Mit der KI: Maschinen Lernen die Dinge, Aber Kann Sie nicht Verstehen

Die Existentielle Angst, Nicht zu Vertrauen Nichts

Diese Technologie, zusammen mit der Kernenergie, Nanotechnologie, 3D-Druck, und CRISPR, ist gleichzeitig spannend und erschreckend. Nachdem alle, es gab bereits Fälle, in den Nachrichten, dass Menschen hinters Licht geführt, indem Sie voice-Klone. Im Jahr 2019, ein Unternehmen in Großbritannien behauptete, er wurde ausgetrickst von einem audio-deepfake Anruf in die Verdrahtung Geld an kriminelle.

Sie müssen nicht weit gehen, um zu finden, die überraschend überzeugende audio-fakes, entweder. YouTube-Kanal Sprachsynthese verfügt über bekannte Menschen, die sagen Dinge, die Sie nie gesagt, wie George W. Bush Lesen “In Da Club” von 50 Cent. Es ist vor Ort auf.

An anderer Stelle auf YouTube, können Sie hören, eine Herde von ex-Präsidenten wie Obama, Clinton und Reagan, Rap NWA. Die Musik und hintergrund Geräusche zu verschleiern einige der offensichtlichen Roboter glitchiness, aber selbst in diesem unvollkommenen Zustand, das potential ist offensichtlich.

Wir experimentierten mit den tools Ähneln AI und Beschreibungen erstellt und voice-Klon. Beschreibungen nutzt eine voice-Klonen-engine, die ursprünglich genannt wurde Lyrebird und war besonders beeindruckend. Wir waren schockiert über die Qualität. Hören Sie Ihre eigene Stimme sagen Dinge, die Sie wissen, Sie haben nie gesagt, ist irritierend.

Es ist definitiv ein Roboter-Qualität die Rede, aber auf eine lässige hören, die meisten Menschen hätten keinen Grund zu denken das es ein fake war.

Wir hatten sogar noch höhere Hoffnungen für Ähneln AI. Es gibt Ihnen die Werkzeuge zum erstellen einer Unterhaltung mit mehreren Stimmen und variieren Sie die Ausdruckskraft, emotion und Tempo des dialogs. Allerdings wollten wir nicht, dass die voice-Modell erfasst die wesentlichen Eigenschaften der Stimme, die wir verwendet. In der Tat, es war unwahrscheinlich, täuschen niemanden.

Eine Ähneln KI-rep erzählte uns, “die meisten Menschen sind hin und Weg von den Ergebnissen, wenn Sie es richtig machen.” Wir Bauten eine Stimme Modell zweimal mit ähnlichen Ergebnissen. So, offensichtlich, es ist nicht immer einfach, eine voice-Klon, die Sie verwenden können, ziehen Sie einen digital-heist.

Auch so, Lyrebird (die nun Teil der Descript) Gründer, Kundan Kumar, fühlt wir haben bereits weitergegeben, dass die Schwelle.

“Für einen geringen Prozentsatz der Fälle, ist es schon da,” Kumar sagte. “Wenn ich mit synthetischen audio-ändern Sie ein paar Wörter in einer Rede, es ist schon so gut, dass Sie haben eine harte Zeit zu wissen, was sich geändert hat.”

Wir können auch davon ausgehen, diese Technologie wird nur besser mit der Zeit. Systeme brauchen weniger audio -, ein Modell zu erstellen, und schnellere Prozessoren werden in der Lage sein, das Modell zu bauen und das in Echtzeit. Intelligentere KI erfahren Sie, wie Sie überzeugender Mensch-wie Rhythmus und Betonung der Rede, ohne ein Beispiel zu arbeiten.

Das bedeutet, dass wir möglicherweise schleichend näher an die flächendeckende Verfügbarkeit von mühelosen Stimme Klonen.

Die Ethik der Büchse der Pandora

Die meisten Unternehmen arbeiten in diesem Raum scheinen bereit zu handhaben, die Technologie in einer sicheren und Verantwortlichen Weise. Ähneln AI, zum Beispiel, hat eine ganze “Ethik” – Bereich auf Ihrer website, und der folgende Auszug ist ermutigend:

“Wir arbeiten mit Unternehmen, die durch einen rigorosen Prozess, um sicherzustellen, dass die Stimme, die Sie Klonen verwendbar ist, die von Ihnen und haben die richtigen Genehmigungen mit voice-Akteure.”

Ebenso Kumar sagte Lyrebird war besorgt über den Missbrauch von Anfang an. Deshalb wurde es jetzt, als Teil der Beschreibungen, die es nur erlaubt, Menschen zu Klonen Ihre eigene Stimme. In der Tat, beide Ähneln und Beschreibungen verlangen, dass die Menschen nehmen Ihre samples live um zu verhindern, dass nonconsensual voice-Klonen.

Es ist ermutigend, dass die großen kommerziellen Akteuren auferlegt haben einige ethische Richtlinien. Es ist jedoch wichtig daran zu erinnern, diese Unternehmen sind nicht-Gatekeeper von dieser Technologie. Es gibt eine Reihe von open-source-tools, die bereits in der wildnis, für die es keine Regeln gibt. Nach Henry Ajder, head of threat intelligence bei Deeptrace, Sie brauchen auch nicht fortgeschrittene Programmierkenntnisse, um es zu missbrauchen.

“Viele der Fortschritte in den Raum gekommen ist, durch gemeinsame Arbeit in Orten wie GitHub, die Verwendung von open-source-Implementierungen der bisher veröffentlichten wissenschaftlichen Abhandlungen,” Ajder sagte. “Es kann von jedem genutzt werden, der hat moderate Kenntnisse im Programmieren.”

Security-Experten Haben Alles Gesehen, Bevor

Kriminelle haben versucht, Geld zu stehlen, indem Sie Telefon -, lange bevor Stimme Klonen möglich war, und security-Experten haben immer auf Abruf zu erkennen und zu verhindern. Pindrop Security-Unternehmen versucht, Sie zu stoppen bank Betrug zu überprüfen, wenn ein Anrufer ist, der er oder Sie vorgibt zu sein aus der audio. Im Jahr 2019 allein, Pindrop Ansprüche analysiert haben 1,2 Milliarden Stimme Interaktionen und verhindert über $470 Millionen Betrug versucht.

Bevor Sie voice-Klonen, Betrüger versucht, eine Reihe von anderen Techniken. Das einfachste war, einfach den Aufruf von anderswo mit persönlichen Infos über die Marke.

“Unsere akustische Signatur ermöglicht es uns zu bestimmen, ob ein Anruf tatsächlich aus einem Skype-Telefon in Nigeria, weil der Klang”, sagte Pindrop CEO Vijay Balasubramaniyan. “Dann können wir vergleichen, dass wissen, dass der Kunde verwendet ein AT&T Handy in Atlanta.”

Einige Verbrecher haben auch Karrieren mit hintergrund-sounds zu werfen off-banking-Wiederholungen.

“Es gibt einen Betrüger nannten wir Huhn Mann, der hatte immer roosters gehen in den hintergrund”, sagte Balasubramaniyan. “Und es ist eine Dame, die früher ein baby schreit im hintergrund, um im wesentlichen zu überzeugen, die call-center-Agenten, dass “hey, ich gehe durch eine harte Zeit”, Sympathie zu erhalten.”

Und dann gibt es noch die männlichen Verbrecher, die gehen nach Frauen die Bankkonten.

“Sie verwenden die Technologie zur Steigerung der Frequenz Ihrer Stimme Klang eher weiblich,” Balasubramaniyan erklärt. Diese können erfolgreich sein, aber gelegentlich, die software vermasselt, und Sie klingen wie Alvin und die Chipmunks.”

Natürlich Stimme das Klonen ist nur die neueste Entwicklung in diesem sich ständig eskalierenden Krieg. Security Firmen haben bereits gefangen Betrüger mit synthetischen audio-in mindestens eines spearfishing-Angriffs.

“Das richtige Ziel, die Auszahlung kann Massiv sein,” Balasubramaniyan sagte. “Also, es macht Sinn zu widmen, die Zeit zum erstellen einer synthetisierten Stimme der richtigen Person.”

Kann mir Jemand Sagen, Ob eine Stimme Ist ein Fake?

Wenn es darum geht, zu erkennen, wenn eine Stimme hat, wurde gefälscht, es gibt sowohl gute und schlechte Nachrichten. Die schlechte ist, dass voice-Klone sind immer besser jeden Tag. Deep-learning-Systeme werden immer intelligenter und machen mehr authentische Stimmen, die verlangen weniger audio zu erstellen.

Wie können Sie sagen, aus diesem clip, in dem Präsident Obama sagen, MC Ren, um den stand haben wir auch schon bekommen bis zu dem Punkt, wo ein high-fidelity, sorgfältig gebaut-voice-Modell klingt ziemlich überzeugend, als das menschliche Ohr.

Je länger ein sound-clip ist, desto wahrscheinlicher werden Sie bemerken, dass etwas nicht stimmt. Für kürzere clips, obwohl Sie vielleicht nicht bemerken, es ist synthetischen—vor allem, wenn Sie haben keinen Grund, Ihre Legitimation in Frage stellen.

Je klarer die sound-Qualität, desto leichter ist es zu Anzeichen einer audio-deepfake. Wenn jemand spricht direkt in studio-Qualität Mikrofon, Sie werden in der Lage sein zum hinhören. Aber eine schlechte Qualität der Telefon-Anruf-Aufnahme oder ein Gespräch eingefangen auf einem handheld-Gerät in einer lauten Tiefgarage wird viel schwieriger zu bewerten.

Die gute Nachricht ist, auch wenn Menschen Schwierigkeiten haben, trennt das wirkliche vom falschen, Computer nicht über die gleichen Einschränkungen. Zum Glück, voice verification-tools, die bereits vorhanden sind. Pindrop ist eine, die Gruben tief-learning-Systeme gegen einander. Es verwendet, um festzustellen, ob ein audio-sample ist die person, die es sein soll. Aber es wird auch untersucht, ob ein Mensch kann auch alle Töne in der Probe.

Abhängig von der Qualität der audio, die jede Sekunde der Rede enthält zwischen 8.000 bis 50.000 Messwerte analysiert werden können.

“Die Dinge, die wir in der Regel suchen, sind Einschränkungen auf die Rede, die aufgrund der menschlichen evolution”, erklärt Balasubramaniyan.

Zum Beispiel zwei Gesangs-Töne haben eine minimal mögliche Trennung von einander. Dies ist, weil es nicht physisch möglich, zu sagen, dass Sie schneller durch die Geschwindigkeit, mit der die Muskeln in Ihrem Mund und Stimmbänder können sich selbst neu konfigurieren.

“Wenn wir uns anschauen, synthetisiert audio,” Balasubramaniyan sagte, “die wir manchmal sehen Dinge und sagen: ‘das könnte nie erzeugt wurden, durch einen Menschen, weil die einzige person, die es erzeugt haben kann das muss einen sieben Fuß langen Hals.”

Es gibt auch einen Klasse sound, genannt “fricatives.” Sie sind gebildet, wenn die Luft durch eine schmale Verengung in Ihrer Kehle, wenn Sie Sie aussprechen von Buchstaben wie f, s, v und z. Fricatives sind besonders hart für deep-learning-Systeme zu meistern, weil die software Probleme hat, dividieren Sie Sie durch Lärm.

So, mindestens für jetzt, Sprach-cloning-software ist stolperte durch die Tatsache, dass die Menschen Taschen von Fleisch, das fließen der Luft durch die Löcher in Ihrem Körper zu sprechen.

“Ich habe gescherzt, dass deepfakes sind sehr whiney”, sagte Balasubramaniyan. Er erklärte, dass es sehr schwer für algorithmen zu unterscheiden, die enden von Wörtern aus dem hintergrund-Rauschen in einer Aufnahme. Dies führt in vielen voice-Modelle mit Rede, Wanderwege ab mehr als es Menschen tun.

“Wenn ein Algorithmus sieht diese viel passiert,” Balasubramaniyan sagte, “statistisch gesehen, wird es immer sicher, dass es audio -, die erzeugt wurden, im Gegensatz zu Menschen.”

Ähneln AI ist auch die Bewältigung der problem mit der Erkennung der Kopf-mit dem Resemblyzer, eine open-source-deep-learning-tool auf GitHub. Er kann erkennen, gefälschte Stimmen und durchführen Lautsprecher überprüfung.

Es Braucht Wachsamkeit

Es ist immer schwer, zu erraten, was die Zukunft bereithalten könnte, aber diese Technologie wird mit ziemlicher Sicherheit nur besser werden. Auch, jemand könnte potenziell ein Opfer sein—nicht nur ” high-profile-Personen, wie Mandatsträger oder Banken-CEOs.

“Ich denke, wir sind auf der Schwelle des ersten audio-Verletzung, wo die Menschen Stimmen gestohlen” Balasubramaniyan vorhergesagt.

Im moment, obwohl die Reale Gefahr von audio-deepfakes niedrig ist. Es gibt bereits tools, die scheinen zu tun einen ziemlich guten job, Erkennung von synthetischen video.

Plus, die meisten Menschen sind nicht in Gefahr von einem Angriff. Nach Ajder, die wichtigsten kommerziellen Akteure “arbeiten an maßgeschneiderten Lösungen für spezifische Kunden, und die meisten haben einen Recht guten Ethik-Richtlinien, wer Sie wäre und würde nicht arbeiten.”

Die wirkliche Bedrohung liegt vor, wenn, wie Ajder ging auf zu erklären:

“Die Büchse der Pandora den Menschen zusammenstöpseln open-source-Implementierungen der Technologie in immer user-freundlich, zugänglich, apps oder Dienstleistungen, die nicht diese Art von ethischen Ebene der Kontrolle, die kommerziellen Lösungen im moment.”

Dies ist wahrscheinlich unvermeidlich, aber die security-Unternehmen sind bereits Rollen fake-audio-Erkennung in Ihren toolkits. Dennoch bleiben sicher erfordert Wachsamkeit.

“Wir haben das in anderen Sicherheits-Bereichen”, sagte Ajder. “Viele Unternehmen verbringen viel Zeit mit dem Versuch zu verstehen, was ist der nächste zero-day-Schwachstelle, zum Beispiel. Synthetische audio ist einfach die nächste Grenze.”

RELATED: Was Ist ein Deepfake, und Sollte ich Besorgt Sein?

LESEN SIE WEITER

› ONLYOFFICE Ist die Kollaborative Office-Suite, die Ihr Unternehmen Benötigt
“Was Bedeutet “IMY” Bedeuten, und Wie Verwenden Sie Es?
› Wie die iPhone-Kamera-App: Der Ultimative Guide
“Verwendung von Amiibo-Karten in ‘Animal Crossing: New Horizons’
› 4 Möglichkeiten, um Schnell eine Notiz auf dem iPhone oder iPad