Deepfakes und Deep Media: Ein neues Schlachtfeld für Sicherheit



Dieser Artikel ist Teil einer Sonderausgabe von VB. Lesen Sie hier die vollständige Serie: KI und Sicherheit .

Die Anzahl der Diphakes - Medien, die ein vorhandenes Foto, Audio oder Video aufnehmen und die Persönlichkeit einer Person durch die einer anderen Person ersetzen, die KI verwendet - wächst rasant. Dies ist besorgniserregend, nicht nur, weil solche Fälschungen dazu verwendet werden können, die Meinung der Menschen während der Wahlen zu beeinflussen oder jemanden in Verbrechen zu verwickeln, sondern auch, weil sie bereits missbraucht wurden, um gefälschte Pornos zu erstellen und den Direktor eines britischen Energieunternehmens zu täuschen .

Die Vereinigung von akademischen Institutionen, Technologieunternehmen und gemeinnützigen Organisationen antizipiert diese Art von neuer Realität und entwickelt Wege, um irreführende Medien zu identifizieren, die von KI erzeugt werden. Ihre Arbeit zeigt, dass Erkennungswerkzeuge nur eine kurzfristig praktikable Lösung sind, während das diphtheische Wettrüsten gerade erst beginnt.

Dipfake-Text


Früher ähnelte die beste von AI erstellte Prosa eher Texten aus dem Spiel Mad Libs als dem Roman „Bunches of Wrath“, aber moderne Sprachmodelle können jetzt Texte schreiben, die in ihrer Präsentation und Überzeugungskraft denen einer Person nahe kommen. Zum Beispiel erstellt das GPT-2- Modell , das von San Franciscos OpenAI-Forschungsunternehmen veröffentlicht wurde, in Sekundenschnelle Fragmente im Stil von Artikeln oder Skripten im New Yorker- Stil für Brainstorming. Forscher Das Zentrum für Terrorismus, Extremismus und Terrorismusbekämpfung des Middlebury Institute schlug vor, das GPT-2 und andere ähnliche Modelle einzurichten, um die Überlegenheit der weißen Rasse, des dschihadistischen Islamismus und anderer bedrohlicher Ideologien zu befürworten - und dies wirft noch mehr Bedenken auf.


Oben: Frontend GPT-2, ein geschultes Sprachmodell des Forschungsunternehmens OpenAI.
Bild mit freundlicher Genehmigung von: OpenAI


Auf der Suche nach einem System zur Erkennung synthetischer Inhalte entwickelten Forscher der Paul G. Allen School für Informatik und Ingenieurwesen an der University of Washington und des Allen Institute of Artificial Intelligence Grover , einen Algorithmus, von dem sie behaupten, dass er 92% der Diphagen im Test auswählen konnte Ein Set aus offenen Daten von Common Crawl Corpus. Das Team erklärt seinen Erfolg mit einem Copywriting-Ansatz, der ihnen zufolge dazu beitrug, die Merkmale der von AI erstellten Sprache zu verstehen.

Ein Team von Wissenschaftlern aus Harvard und dem MIT-IBM Watson AI Lab hat den Testraum für das Giant Language Model separat veröffentlicht, eine Webumgebung, die versucht festzustellen, ob Text mithilfe eines AI-Modells geschrieben wurde. Angesichts des semantischen Kontexts sagt sie voraus, welche Wörter am wahrscheinlichsten in einem Satz vorkommen, und schreibt im Wesentlichen ihren eigenen Text. Wenn die Wörter in der getesteten Probe 10, 100 oder 1000 wahrscheinlichsten Wörtern entsprechen, wird der Indikator grün, gelb bzw. rot. Tatsächlich verwendet sie ihren eigenen vorhersehbaren Text als Richtlinie zur Identifizierung künstlich erzeugter Inhalte.

Dipfake-Videos


Die moderne KI, die Videos erzeugt, ist genauso gefährlich und verfügt über dieselben, wenn nicht sogar großartigen Fähigkeiten wie ihr natürliches Gegenstück. In einem wissenschaftlichen Artikel des in Hongkong ansässigen Startups SenseTime, der Nanyang University of Technology und des Instituts für Automatisierung der Chinesischen Akademie der Wissenschaften wird das Framework beschrieben, mit dem Filmmaterial mithilfe von Audio bearbeitet wird, um realistische Videos zu synthetisieren. Forscher von Hyperconnect in Seoul haben kürzlich das MarioNETte- Tool entwickelt , mit dem die Gesichtszüge einer historischen Figur, eines Politikers oder eines CEO manipuliert werden können, um ein Gesicht zu synthetisieren, das durch die Bewegungen einer anderen Person animiert wird.

Selbst die realistischsten Dipfakes enthalten jedoch Artefakte, die sie ausgeben. „Mit generativen Systemen erstellte Dipfakes untersuchen eine Reihe realer Bilder in einem Video, zu denen Sie neue Bilder hinzufügen, und generieren dann ein neues Video mit neuen Bildern“, sagt Ishay Rosenberg, Leiter der Deep Training Group des Cybersicherheitsunternehmens Deep Instinct. „Das resultierende Video unterscheidet sich geringfügig aufgrund von Änderungen in der Verteilung künstlich erzeugter Daten und in der Verteilung von Daten im Originalvideo. Diese sogenannten "Einblicke in die Matrix" können die diphtheischen Detektoren unterscheiden.


Oben: zwei gefälschte Videos, die mit den fortschrittlichsten Techniken erstellt wurden.
Bild mit freundlicher Genehmigung von: SenseTime Im


vergangenen Sommer bereitete ein Team der University of California in Berkeley und der University of Southern California ein Modell für die Suche nach genauen „Einheiten der Gesichtsaktion“ vor - Daten zu Gesichtsbewegungen, Zecken und Gesichtsausdrücken von Personen, einschließlich beim Anheben der Oberlippe und Drehen des Kopfes bei Personen Stirnrunzeln - um gefälschte Videos mit einer Genauigkeit von mehr als 90% zu identifizieren. In ähnlicher Weise testeten im August 2018 Teilnehmer des Media Forensics-Programms der US-amerikanischen Agentur für fortgeschrittene Verteidigungsforschungsprojekte (DARPA) die SystemeIn der Lage, von KI erzeugte Videos anhand von Zeichen wie unnatürlichem Blinken, seltsamen Kopfbewegungen, ungewöhnlicher Augenfarbe und vielem mehr zu erkennen.

Mehrere Startups sind derzeit dabei, ähnliche Tools zur Erkennung gefälschter Videobilder zu kommerzialisieren. Das Amsterdamer Labor Deeptrace Labs bietet eine Reihe von Überwachungstools zur Klassifizierung von Dipfakes, die in soziale Netzwerke, Video-Hosting-Plattformen und Desinformationsnetzwerke hochgeladen werden. Dessa hat Methoden zur Verbesserung von gefälschten Detektoren vorgeschlagen, die auf gefälschten Videosets trainiert wurden. Und im Juli 2018 sammelte Truepic 8 Millionen US-Dollar.seinen Service für die tiefe Erkennung von Fälschungen in Videos und Fotos zu finanzieren. Im Dezember 2018 erwarb das Unternehmen das Startup Fourandsix, dessen gefälschter Bilddetektor eine DARPA-Lizenz erhielt.


Oben: Dipfake-Bilder, die von AI bearbeitet wurden.

Neben der Entwicklung voll ausgebildeter Systeme haben eine Reihe von Unternehmen Textkorps veröffentlicht, in der Hoffnung, dass die Forschungsgemeinschaft neue Methoden zur Erkennung von Fälschungen entwickeln wird. Um diesen Prozess zu beschleunigen, leitete Facebook zusammen mit Amazon Web Services (AWS), Partnership on AI und Wissenschaftlern mehrerer Universitäten die Deepfake Detection Challenge. Das Programm enthält eine Reihe von Videobeispielen mit Beschriftungen, die darauf hinweisen, dass einige von ihnen von künstlicher Intelligenz betroffen waren. Im September 2019 veröffentlichte Google eine Sammlung visueller Fälschungenim Rahmen des FaceForensics-Tests, der von der Technischen Universität München und der Universität Neapel Federico II erstellt wurde. Und kürzlich haben Forscher von SenseTime zusammen mit der Nanyang University of Technology in Singapur DeeperForensics-1.0 entwickelt , einen Datensatz zur Erkennung von Fälschungen, von denen sie behaupten, er sei der größte seiner Art.

Dipfake Audio


KI und maschinelles Lernen eignen sich nicht nur zum Synthetisieren von Video und Text, sondern können auch Stimmen kopieren. Unzählige Studien haben gezeigt, dass nur ein kleiner Datensatz erforderlich ist, um die Sprache einer Person wiederherzustellen. Kommerzielle Systeme wie Resemble und Lyrebird erfordern einige Minuten Audioaufnahmen, während anspruchsvolle Modelle wie die neueste Baidu Deep Voice-Implementierung nur Sprache aus einem 3,7-Sekunden-Sample kopieren können.

Es gibt nicht so viele Tools zum Erkennen von Audio-Diphakes, aber es beginnen Lösungen zu erscheinen.



Vor einigen Monaten veröffentlichte das Resemble-Team ein Open-Source-Tool namens Resemblyzer, das mithilfe von KI und maschinellem Lernen Dipfakes erkennt, indem es Sprachproben auf hoher Ebene erfasst und vorhersagt, ob sie real oder simuliert sind. Nach dem Empfang einer Audiodatei mit Sprache erstellt er eine mathematische Darstellung, in der die Eigenschaften der aufgenommenen Stimme zusammengefasst sind. Auf diese Weise können Entwickler die Ähnlichkeit der beiden Stimmen vergleichen oder herausfinden, wer gerade spricht.

Im Januar 2019 veröffentlichte Google im Rahmen der Google News-Initiative einen Sprachkorpus mit „Tausenden“ von Phrasen, die mithilfe von Text-to-Speech-Modellen gesprochen wurden. Es wurden Proben aus englischen Artikeln entnommen, die von 68 verschiedenen synthetischen Stimmen in verschiedenen Dialekten gelesen wurden. Der Fall steht allen Teilnehmern von ASVspoof 2019 zur Verfügung , einem Wettbewerb, dessen Ziel es ist, Gegenmaßnahmen gegen falsche Sprache zu fördern.

Viel zu verlieren


Keiner der Detektoren hat eine perfekte Genauigkeit erreicht, und die Forscher haben noch nicht herausgefunden, wie eine gefälschte Urheberschaft identifiziert werden kann. Deep Instinct Rosenberg erwartet, dass dies schlechte Schauspieler dazu inspiriert, Fälschungen zu verbreiten. "Selbst wenn ein von einem Angreifer erzeugter Dipfake erkannt wird, besteht nur die Gefahr, dass der Dipfake aufgedeckt wird", sagte er. "Für einen Schauspieler ist das Risiko, erwischt zu werden, minimal, so dass es nur wenige Einschränkungen gibt, Fälschungen zu erzeugen."

Rosenbergs Theorie wird durch einen Deeptrace-Bericht gestützt , in dem bei seiner letzten Zählung im Juni und Juli 2019 14.698 gefälschte Videos online gefunden wurden. Innerhalb von sieben Monaten stieg ihre Zahl um 84%. Die überwiegende Mehrheit von ihnen (96%) sind pornografische Videos mit Frauen.

Angesichts dieser Zahlen argumentiert Rosenberg, dass Unternehmen, die aufgrund von Diphakes „viel verlieren“, Deep-Detection-Technologie in ihren Produkten entwickeln und implementieren sollten, die seiner Meinung nach Antivirenprogrammen ähnelt. Und in diesem Bereich sind Verschiebungen aufgetreten; Facebook kündigte Anfang Januar an , eine Kombination aus automatisierten und manuellen Systemen zu verwenden, um gefälschte Inhalte zu erkennen, und Twitter schlug kürzlich vor, Diphakes zu kennzeichnen und diejenigen zu löschen, die schädlich sein könnten.

Natürlich sind die Technologien, die der Erzeugung von Dipfakes zugrunde liegen, nur Werkzeuge und haben ein großes Potenzial für gute Taten. Michael Kloser, Leiter Data & Trust bei Access Partnership, einem Beratungsunternehmen, sagte, die Technologie werde bereits eingesetzt, um die medizinische Diagnose und Krebserkennung zu verbessern, Lücken in der Kartierung des Universums zu schließen und das Training unbemannter Fahrzeuge zu verbessern. Daher warnt er vor der Verwendung allgemeiner Kampagnen, um generative KI zu blockieren.

„Da die Staats- und Regierungschefs in diplomatischen Angelegenheiten damit begonnen haben, bestehende Rechtsnormen anzuwenden, ist es jetzt sehr wichtig, wertvolle Technologien nicht loszuwerdenFälschungen loswerden “, sagte Klozer. "Letztendlich sind Rechtsprechung und soziale Normen in Bezug auf den Einsatz dieser neuen Technologie nicht reif genug, um leuchtend rote Linien zu erzeugen, die fairen Gebrauch und Missbrauch beschreiben."

All Articles