Dieser Beitrag erschien bei Media Pioneer. Das Interview führte Adriana Gießler.
Die Konstruktion von Deepfakes ist ja noch ein relativ neues Phänomen, dass sich gerade durch die Fortschritte der KI verbessert und professionalisiert hat. Nicht jeder weiß, was sich dahinter verbirgt. Haben Sie vielleicht ein Beispiel für uns?
Sebastian Alscher Anfang 2018 sorgte bei Buzzfeed ein Video von Jordan Peele für Aufmerksamkeit. Dieses Video zeigt den US-amerikanischen Präsidenten Obama, wie er in gewohnt staatsmännischer Manier eine Rede hält.
Aber sie ist nicht seine, die Worte hat ihm ein Dritter in den Mund gelegt.
Dennoch wirkt es täuschend echt. Obama erzählt, dass wir in eine Ära eingetreten sind, in der unsere Feinde erreichen können, dass Sprache so manipuliert werden kann, sodass Menschen Aussagen in den Mund gelegt werden, die sie in der Realität gar nicht sagen würden. Was zu Beginn nicht nur visuell, sondern auch inhaltlich stimmig scheint, wird im Verlauf der Ansprache zunehmend inkongruenter – niemand hätte so einen Inhalt erwartet, wie beispielsweise die Aussage „Präsident Trump is a total and complete dipshit“.
Hinter diesem Video steckte damals erheblicher Aufwand an Technik und Nachbearbeitung. Heute sind die Fähigkeiten unserer Smartphones ausreichend, solche Fälschungen zu erstellen, wie zahlreiche Apps sie anbieten.
Was ist eigentlich so gefährlich an den Deepfakes im Web?
Alscher Medienforensiker erklären, es sei schon heute schwierig, die Manipulation zu erkennen, Original und Fälschung auseinander zu halten. Geht dieser Trend weiter, werden wir in wenigen Jahren gar nicht mehr zu einer Unterscheidung fähig sein. Diese Entwicklung kann sich zu einer Gefahr für unsere Demokratie entwickeln: Regeln und Institutionen bieten nur Stabilität, solange wir sie als solche akzeptieren und dadurch stärken.
Das wesentliche Risiko liegt nicht in der Struktur oder den rechtlichen Rahmenbedingungen unserer Gesellschaft oder unseres Landes, sondern in uns Menschen.
Ich sage: Wenn heute eine Gruppe von zehn Leuten mit mittelmäßigen technischen Fähigkeiten sich zusammenschließt und sagt: Wir sorgen hier jetzt mal für Aufruhr, dann kann sie tatsächlich einen erheblichen, kritischen Schaden für unsere Gesellschaft anrichten.
Neben der optischen Manipulation von Bildern und Videos von Prominenten, werden ihnen ja häufig auch Aussagen oder Wörter in den Mund gelegt, die sie niemals sagen würden oder gesagt haben. Wie funktioniert dieses Verfahren?
Alscher Mit der Technik des Machine Learning ist es möglich ein Modell zu programmieren, das mit vorgegebenen Sprachfragmenten in der Stimme einer bestimmten Person und dazugehörigen Textpassagen trainiert wird. Anschließend ist die Wiedergabe eines neuen Textes mit der “gelernten” Stimme möglich. Ein Beispiel: Von Angela Merkel sind zahlreiche Reden inklusive Tonaufzeichnung frei zugänglich. Mit dieser Datengrundlage kann ich mit der Stimme von Angela Merkel einen Text vorlesen lassen. Man spricht dabei vom Voice-Cloning. Mit solch einer Manipulation kann eine Menschengruppe bis zum Siedepunkt agitiert werden.
Das klingt beängstigend, aber erreichen solche Videos oder Tonaufnahmen wirklich eine breite Öffentlichkeit oder ist das nicht eher was für Nerds und Technik-Freaks?
Alscher: Wir leben medial in Filterblasen, Fragmentierung und Polarisierung der Gesellschaft nehmen beständig zu, weil wir immer weniger miteinander reden. Kaum mehr Gespür dafür haben, warum andere denken, was sie denken. Die Gruppen, innerhalb unserer Gesellschaft, sind immer weniger anschlussfähig. Innerhalb dieser Blasen ist es leicht, Emotionen hoch zu schaukeln.
Filterblasen definieren sich insbesondere durch die Unterschiedlichkeit zu anderen. Ein Korrektiv, wie zulässiger Widerspruch von außen oder auch innerhalb der Gruppen, gibt es nicht. Widerspruch wird vermieden, weil er zu sozialem Stress führt. Deshalb ist es leicht, Menschen innerhalb einer Blase zum Aufruhr zu bewegen, aufzuwiegeln oder gar Einzeltäter zu provozieren.
Ich komme auf obige Gruppe von zehn Leuten zurück. Jedes Gruppenmitglied kann sich problemlos 100 Fake-Profile in sozialen Netzwerken erstellen und Zugang zu ausgewählten Filterblasen erhalten. Diese Profile müssen nicht einmal selbst betrieben werden. Chatbots und Sprachintelligenz sind so weit fortentwickelt, dass künstlich erzeugte Kurzantworten und Kommentare kaum noch von menschlichen zu unterscheiden sind.
Wird das produzierte Video in den Filterblasen verteilt, so wird es hinreichend glaubwürdig sein, als dass es beim Zuschauer nicht wirklich erneut auf Echtheit überprüft wird. Menschen neigen dazu, dass Nachrichten, die zu dem passen was unsere tatsächliche Meinung bestätigt, nicht weiter prüfen und schnell aufnehmen. Heute wissen wir, dass Fake News sich sechs Mal weiterverbreiten als echte Nachrichten. Diese Asymmetrie wird immer bewirken, dass wir mit der Aussage “dieses Video ist eine Fälschung” nicht mehr gegen ankommen. Es wird dadurch verstärkt, dass die Menschen in der Pandemie mehr Zeit zu Hause und in sozialen Netzwerken verbringen oder YouTube Filme anschauen. Der Algorithmus, der weitere Filmempfehlungen auswählt, wird ihnen vorschlagen, was zu ihrer Sicht passt. Bei beispielsweise demokratiefeindlichen Tedenzen würde das vermehrt dazu führen, dass sie genau diese falschen Nachrichten anschauen, die dazu gemacht sind unsere Strukturen zu erschüttern.
Wie können wir solchen Entwicklungen entgegenwirken?
Alscher Lösungsansätze gibt es viele: Video- und Textfilter, die solche Nachrichten unterbinden; Vorratsdatenspeicherung, um mit nachvollziehbaren Wegen die Quelle zu finden; Menschen, die Inhalte analysieren.
Doch diese Mittel werden niemals helfen, weil der Technik immer hinterher gelaufen wird und die Quelle der Unruhe im Dunklen bleibt oder gar im Ausland sitzt.
Ergebnis dieses Kampfes gegen Windmühlen ist, dass wir am Ende lediglich massiv in unsere eigene Freiheit und die Unversehrtheit unserer eigenen Kommunikation eingegriffen haben.
Weil die technische Lösung daher unverhältnismäßig ist, liegt es an uns. Wir müssen Empathie lernen in Institutionen wie Vereinen, wir müssen uns bewusst mit anderen Milieus konfrontieren, um Barrieren abzubauen und Gruppen, in denen wir uns bewegen, anschlussfähig zu halten. Das ist unsere Verantwortung in der und für die Gesellschaft.
Wir müssen in diesen fragmentierten Erlebnisräumen mehr miteinander reden.
Klare Grenzen setzen, gegen Extremismus und Grundgesetz-Feindlichkeit, und gleichzeitig empfindsam sein für das, was andere bewegt. Wir müssen häufiger den gemeinsamen Nenner finden, der vielleicht auch nur in der Anerkennung besteht, vielseitige und komplexe Menschen zu sein. Ansonsten werden wir daran zerbrechen. Unsere Gesellschaft wird zerbrechen. Sie wird ein Scherbenhaufen aus lauter kleinen Gruppen.
Wenn es für die Experten schwierig ist und für uns “normale” Menschen unmöglich ist, den Faktencheck zu leisten, dann kommen wir um die Bereitschaft zur Gutmütigkeit im Umgang miteinander nicht herum. Darum einander zu verzeihen und auch mal gelassen zu sein, anstatt sich sofort zu erregen. Damit wir unsere Gesellschaft schützen, sie resilient machen und sie lebenswert bleibt. Unsere Aufgabe besteht in dem, was uns keine Technik abnehmen kann. Menschlichkeit.