Telefonat mit falschem KlitschkoWar es wirklich ein Deep Fake?

Lesezeit 8 Minuten
Klitschko Giffey

Franziska Giffey (l.) und der falsche Vitali Klitschko 

  • Berlins Regierende Bürgermeisterin Franziska Giffey und Wiens Bürgermeister sind auf einen falschen Vitali Klitschko hereingefallen.
  • Sie vermuten einen sogenannten Deep Fake.
  • Ist das realistisch?

War es wirklich ein ganz besonders raffinierter Deep Fake, mit dem sich Franziska Giffey (SPD) da unterhalten hat? Oder doch nur ein Zeichen von mangelnder Medienkompetenz? Das ist auch drei Tage nach dem Videotelefonat von Berlins Regierender Bürgermeisterin mit einem falschen Vitali Klitschko noch immer nicht ganz klar.

Die Berliner Senatskanzlei beteuert: „Es gab keine Anhaltspunkte dafür, dass die Videokonferenz nicht mit einer echten Person geführt wird. Allem Anschein nach handelt es sich um Deep Fake.“ Kommentatoren in den sozialen Netzwerken sehen das für gewöhnlich etwas anders. Ein „Prinz aus Ghana“, klischeehaft bekannt für betrügerische Spam-Mails, habe sich umgehend bei Giffey gemeldet, um ihr ihr Geld zu schicken, scherzt jemand auf Twitter. Auch viele weitere spotten.

Giffey selbst teilt mit: „Selbst Profis können nicht unterscheiden, ob sie mit einer echten Person sprechen oder mit einem Fake.“ Doch ist das wirklich so? Handelte es sich bei der Klitschko-Konferenz wirklich um einen Deep-Fake? Und wie könnte der mögliche Täter vorgegangen sein?

Was ist ein Deep Fake? Im Umlauf ist das Wort „Deep Fake“ seit ungefähr 2017 – die Technik dahinter ist allerdings schon sehr viel älter. Schon im Dino-Spielfilm Jurassic Park aus dem Jahr 1993 wurden die Gesichter von Stuntdoubles technisch retuschiert, weil diese versehentlich in die Kameras geguckt hatten. Stattdessen baute man die Gesichter der jeweiligen Schauspieler ein.

Der große Unterschied zum Jahr 2022: Heute braucht es kein teures Filmstudio mehr, um derartige Manipulationen umzusetzen. Ein Computer mit genügend Grafikleistung und ein bisschen Programmier-Know-How genügen.

Im Netz lösten „Deep Fakes“ erstmals vor fünf Jahren einen Skandal aus. Ein Reddit-User mit dem Namen „Deepfakes“ hatte die Gesichter prominenter weiblicher Schauspielerinnen auf nackte Körper montiert. Betroffen war unter anderem Wonder-Woman-Darstellerin Gal Gadot – die gefaketen Videoszenen zeigten die Schauspielerin beim Sex mit ihrem Stiefbruder. Auch Deep Fakes mit Emma Watson, Katy Perry, Taylor Swift oder Scarlett Johansson wurden geteilt.

Vor dem Fake muss der Computer viel lernen Technisch hatte der User dies mit Hilfe künstlicher Intelligenz gelöst – so wie auch alle anderen modernen Deep-Fake-Videos entstehen. Ein sogenanntes Neuronales Netz muss mit allerhand Bildmaterial gefüttert und antrainiert werden – in diesem Fall also mit Gesichtsausdrücken von Gal Gadot oder Emma Watson aus deren Spielfilmen. Im zweiten Schritt dann mit Szenen aus entsprechenden Sexfilmen. Das Wort „Deep Fake“ leitet sich auch aus dem Begriff „Deep-Learning“ ab – darunter versteht man eine Methode des maschinellen Lernens, die künstliche neuronale Netze einsetzen.

Kurze Zeit später erschien auch die erste Gratissoftware für Laien, die täuschend echte Fake-Videos ermöglichte. Die „Fake App“ für Windows benötigte ebenfalls viel „Trainingsmaterial“, um einen Deep Fake zu erstellen – bestenfalls in guter Auflösung. Der Computer muss mit genügend Grafikleistung und Speicherplatz ausgestattet sein – fertig ist die perfekte Videofälschung.

Der wohl bekannteste Deep Fake der Anfangszeit ist ein Video des ehemaligen US-Präsidenten Barack Obama. Der US-amerikanische Kabarettist Jordan Peele hatte gemeinsam mit BuzzFeed ein Deep-Fake-Video erstellt, in dem Obama vor den Gefahren manipulierter Videos warnen lässt. In dem selben Fake-Video bezeichnet er zudem seinen Nachfolger Donald Trump als „kompletten Volltrottel“. Auf Tiktok tummelt sich seit geraumer Zeit ein bekannter Deep Fake von Tom Cruise.

Betrüger setzen Deep Fakes ein Auch Kriminelle setzten die Technologie in der Vergangenheit ein. So gab es häufig Fälle von Frauen, die ihre Gesichter plötzlich auf den Körpern von Pornodarstellerinnen im Netz wiederfanden.

Betrüger sollen KI auch bereits genutzt haben, um Geldüberweisungen an eine vermeintlich vertraute Person zu veranlassen. Im Jahr 2019 etwa ein britisches Energieunternehmen. Der Geschäftsführer der Firma erhielt Anrufe vom angeblichen Vorstandsvorsitzenden der deutschen Muttergesellschaft. In den Telefonaten wurde er aufgefordert rund 225.000 Euro auf ein bestimmtes Konto zu überweisen. Später stellte sich heraus, dass die Stimme des Anrufers mittels Software nachgeahmt worden war.

Mittlerweile gibt es auch Apps fürs Smartphone, die derartige Fake-Videos erstellen können. Auch sie arbeiten mit KI. Die Ergebnisse sind unterhaltsam – häufig aber auch schnell als Fake erkennbar.

Software liefert alles, was man braucht Der Fall mit dem falschen Vitali Klitschko ist in vielerlei Hinsicht etwas Besonderes. Nicht nur, weil offenbar erstmals eine deutsche Politikerin mit einem angeblichen Deep Fake hereingelegt wurde – sondern auch, weil er live in einer Videoschalte durchgeführt wurde.

Bislang waren Deep Fakes vor allem als aufgezeichnete Videos bekannt, die im Netz umher gereicht wurden. In diesem Fall soll der gefälschte Vitali Klitschko live zu der Berliner Politikerin Franziska Giffey gesprochen haben. Erst nach einer halben Stunde wurde er enttarnt.

Tatsächlich ist aber auch ein Live-Deep-Fake gar nicht mehr so kompliziert zu realisieren. Umfassende Programmierkenntnisse sind nicht zwangsläufig nötig, eine Software mit dem Namen DeepFaceLive für Windows etwa liefert alles, was man dazu braucht. Sie wurde von dem russischen Entwickler Ivan Petrov programmiert. Das Programm ist frei verfügbar und wird von der Community weiterentwickelt.

Ein bisschen unscharf, aber täuschend echt Die Software wird mit einigen vorab antrainierten Algorithmen für den Gesichtertausch ausgeliefert. Mitgeliefert wird etwa das der US-Schauspielerin Margot Robbie, aber auch den belarussischen Diktator Alexander Lukaschenko kann man mit dem Programm fälschen.

Selbstverständlich lässt sich auch jedes andere beliebige Gesicht einsetzen. In Foren wie Discord tauschen Nutzerinnen und Nutzer weitere vorgefertigte Algorithmen aus. Am besten funktioniert der Deep Fake, wenn das eigene Gesicht in Grundzügen schon eine Ähnlichkeit zum Tauschgesicht aufweist. Für den Betrieb der Software reicht ein gut ausgerüsteter, leistungsstarker Gaming-PC.

Die Ergebnisse der Software sind täuschend echt, wie Videos auf Youtube zeigen. Die Fake-Gesichter sind etwas weniger scharf, wer ganz genau hinschaut, erkennt auch, dass die Köpfe häufig etwas unnatürlich wackeln. Aber da eine Videoschalte in der Regel keine besonders hohe Videoqualität aufweist, dürfte das manchen im Zweifel gar nicht auffallen.

War es wirklich ein Deep Fake? Ob es sich bei dem falschen Klitschko aber tatsächlich um einen Deep Fake handelte, ist weiter völlig unklar. Der ARD-Investigativjournalist Daniel Laufer vermutet eher, dass einzelne Videoschnipsel aus einem echten Interview vorgeschnitten und in Echtzeit neu zusammengesetzt wurden, wie er auf Twitter schreibt.

„Es erscheint mir vorstellbar, dass kleine Ruckler und ungleichmäßige Bildraten, die man von Video-Calls gewohnt ist, Übergänge kaschiert haben.“

In einem solchen Fall würde es sich noch immer um eine Fälschung handeln – aber eben nicht um ein „technologisch anspruchsvolles, mit Künstlicher Intelligenz generiertes Deep Fake.“

Behörden warnen schon lange vor Deep Fakes Sicherheitsbehörden hatten zuletzt immer wieder vor Deep Fakes gewarnt. Dass sie das politische Parkett erreichen, war aus ihrer Sicht nur eine Frage der Zeit. Im Zweifel könnten sie gar die Demokratie bedrohen, ist häufig zu hören. Denn wer ständig mit Fake-Videos bombardiert wird, der glaubt am Ende möglicherweise gar nichts mehr.

Das Bundesamt für Sicherheits- und Informationstechnik (BSI) warnt bereits seit langem, Deep Fakes seien ohne Weiteres dafür geeignet, „glaubwürdige Desinformationskampagnen durchzuführen, indem manipulierte Medieninhalte von Schlüsselpersonen erzeugt und verbreitet werden.“

Zudem sei Verleumdung möglich: „Durch die Möglichkeit Medieninhalte zu generieren, die Personen beliebige Aussagen treffen lassen und sie in beliebigen Situationen darstellen, kann der Ruf einer Person durch die Verbreitung von Unwahrheiten nachhaltig geschädigt werden“, heißt es beim BSI

Deep Fakes lassen sich enttarnen Die gute Nachricht lautet aber: Deep Fakes lassen sich durchaus auch als solche erkennen – wenn auch manchmal erst auf den zweiten oder dritten Blick. Der größte Knackpunkt der Videofälschungen: der Ton.

Das bekannte Obama-Video etwa wurde seinerzeit von einem Schauspieler imitiert. Damit lassen sich gefälschte Videos schnell entlarven. Inzwischen tüfteln allerdings Softwareunternehmen wie Adobe an Programmen, die jede beliebige Stimme nachahmen können. Dazu muss sich das Programm nur etwa 20 Minuten Audiomaterial einer Person anhören – und lernen.

Auch Amazon hat bereits einen Prototyp für seinen Sprachdienst Alexa entwickelt. Dieser soll künftig etwa mit der Stimme der verstorbenen Oma sprechen können – es soll schon reichen, den Dienst mit einer Minute vorhandenem Sprachmaterial zu füttern. Beim Streamen einer Videokonferenz sollte ein solches Verfahren jedoch deutlich komplizierter sein.

Software erkennt Fakes Im Zweifel helfen nur noch Fachleute und eine spezielle Software weiter. Die ZDF-Sendung „Leschs Kosmos“ hatte vor einiger Zeit einen Medienforensiker das berühmte Ibiza-Video des früheren österreichischen Vizekanzlers Heinz-Christian Strache untersuchen lassen. Mit Hilfe eines Computerprogramms konnten ganz unterschiedliche Daten, darunter die Bearbeitungssoftware, das Kameramodell und die Geodaten der Aufnahme herausgefunden werden.

Am Ende kam heraus: Das Strache-Video ist echt. Häufig verraten charakteristische Merkmale im Gesicht des Protagonisten, dass es sich um eine Fälschung handelt – diese werden von der KI häufig nicht berücksichtigt.

Der Verfassungsschutz weist zudem darauf hin, dass Künstliche Intelligenz häufig nicht damit zurecht komme, wenn sich der Gesprächspartner mit der Hand an die Nase oder Wange tippe. Eine solche Animation könne die KI selbst in ihrer besten Form derzeit nicht darstellen – das Bild würde sichtlich verzerrt werden. Im Zweifel solle man das Gegenüber einfach auffordern, dies zu tun.

Manchmal allerdings dürfte es auch ratsam sein, schon vor dem eigentlichen Deep Fake stutzig zu werden. Im Falle von Franziska Giffey soll das Treffen mit dem falschen Klischko über eine ungewöhnliche, inoffizielle E-Mail-Adresse mit der Senatskanzlei eingefädelt worden sein. Es dürfte sich also lohnen, mal näher zu schauen, wer einem da eigentlich schreibt.

KStA abonnieren