Frühwarnsystem für Falschmeldungen

3. Oktober 2018

Fake News in Sozialen Medien effizienter und treffgenauer bekämpfen: Manuel Gomez Rodriguez vom Max-Planck-Institut für Softwaresysteme kombiniert Verfahren der Künstlichen Intelligenz mit der Auswertung von Signalen, in denen sich menschliches Urteil widerspiegelt

Text: Ralf Grötker

Was ist Lüge, was ist wahr? Die Grenzen sind nicht immer leicht zu ziehen

Falschmeldungen sind gefährlich, manchmal sogar für Leib und Leben. Am 4. Dezember 2016 etwa drang ein Mann mit einem Sturmgewehr in die Pizzeria Comet Ping Pong in Washington, D. C. ein. Sein Vorhaben: Er wollte die angeblich in dem Restaurant festgehaltenen und missbrauchten Kinder befreien. Wie Millionen andere Internutzer hatte er über die sozialen Medien Reddit und 4chan davon erfahren, dass der Keller der Pizzeria der Stützpunkt eines Pädophilenrings sei. Im Zentrum des Rings, so die Legende, solle die damalige Präsidentschaftskandidatin Hillary Clinton gestanden haben. Zu denjenigen, die die Falschmeldung mit verbreitet hatten, zählten der zwischenzeitliche Nationale Sicherheitsberater von Donald Trump, Michael T. Flynn und dessen Sohn.

„Pizzagate“ markiert einen der vorläufigen Höhepunkte von fake news. Viele soziale Netzwerke haben mittlerweile begonnen, ihre Nutzer um Hinweise auf falsche Meldungen zu bitten. Einige sind auch Kooperationen mit journalistischen Organisationen, die Fakten überprüfen, eingegangen, in Deutschland zum Beispiel mit correctiv.org.

Manuel Gomez Rodriguez, Gruppenleiter am Max-Planck-Institut für Softwaresysteme in Kaiserslautern, arbeitet mit seinem Team an ausgeklügelten Verfahren, damit sich Falschnachrichten treffgenauer und effizienter identifizieren lassen. Die Methoden greifen dabei wie die Teile eines Puzzles ineinander, um die verschiedenen Aspekte und Informationen, die sich aus dem Nachrichtenstrom herauslesen lassen, im Zusammenhang zu analysieren. „Wir verfolgen einen hybriden Ansatz“, erklärt Gomez Rodriguez. „Wir kombinieren Verfahren der Künstlichen Intelligenz mit der Auswertung von Signalen, in denen sich menschliches Urteil widerspiegelt.“

Als ein zentrales Ergebnis ihrer Arbeit haben die Forscher Curb präsentiert, ausgesprochen wie das englische Wort für Drosselung. Der Algorithmus priorisiert, welche Inhalte nur begrenzt verfügbaren menschliche Faktenchecker am dringendsten überprüfen müssen, damit sich etwa eine falsche Meldung nicht unkontrolliert verbreitet und möglichst wenige Menschen diese lesen, ohne dass diese als solche gekennzeichnet ist.

Als wesentliche Information wertet das Verfahren auf ausgeklügelte Weise aus, wie Nutzer mit Inhalte umgehen. Zum einen, in welchem Maß Nutzer Inhalte weiterleiten und in welchem Tempo sich diese somit verbreiten, zum anderen wie viele Nutzer einen Beitrag als fake markieren. Dies sind wichtige Kriterien dafür, wie schnell sich eine eventuelle Falschnachricht verbreitet. Gomez Rodriguez: „Während die meisten Sozialen Medien momentan lediglich die Anzahl von Beanstandungen durch Nutzer auswerten, verwendet unser Verfahren einen dynamischen Schwellenwert, der sich über die Zeit verändert, und der auf die Viralität einer Nachricht reagiert sowie auf die Wahrscheinlichkeit, mit der es sich um fake news handelt“.

Konkret nimmt der Algorithmus, den Gomez Rodriguez und sein Team entwickelt haben, zunächst die Relation zwischen Beanstandungen auf der einen Seite und Weiterleitungen („shares“) ohne Beanstandung auf der anderen Seite in den Blick. Je öfter, im Verhältnis, eine Nachricht ohne Beanstandung geteilt wird, desto größer die Wahrscheinlichkeit, dass sie nicht falsch. Allerdings: Je schneller sich eine Nachricht verbreitet, desto größer der potenzielle Schaden in dem Fall, dass es sich doch um eine falsche Meldung handelt. Curb löst dieses Problem, indem die Informationen über die Verbreitungsgeschwindigkeit und über die Wahrscheinlichkeit, dass es sich um fake news handelt, nebeneinander betrachtet und dabei immer wieder aktualisiert werden. Aufgabe des Algorithmus ist es, zwischen den beiden Kriterien optimal abzuwägen.

Ein Beispiel: Angenommen, eine Nachricht wird zehnmal pro Stunde geteilt und die Wahrscheinlichkeit, dass sie falsch ist, liegt der Nutzerbewertung zufolge bei fünfzig Prozent. Dann kann man rechnerisch davon ausgehen, dass pro Stunde fünf Nutzer einer Falschmeldung ausgesetzt werden. Diese Rechnung wird nun jedes Mal angepasst, wenn ein Nutzer die betreffende Nachricht weiterleitet und sie entweder als falsch markiert (flaggt) oder als mutmaßlich solide Nachricht nicht beanstandet. Auf diese dynamische Weise schafft der Algorithmus eine optimale Balance: zwischen dem Bemühen, möglichst wenige Menschen mit undeklarierten Falschmeldungen zu konfrontieren einerseits, und der Effizienz beim Einsatz der menschlichen Faktenchecker andererseits.

Der finale Test für Curb war das Experiment mit realen Daten, die Wissenschaftler der koreanischen KAIST-Universität bereits via Web-Crawling aus den Netzwerken Twitter und Weibo gesammelt und öffentlich zur Verfügung gestellt hatten. Der größere der beiden Datensätze aus dem chinesischen Social Media-Netzwerk Weibo bestand aus mehr als 4.600 einzelnen Nachrichtenmeldungen, die 2,8 Millionen Nutzer in Form von Posts oder Weiterleitungen 3,7 Millionen Mal gesendet hatten. „Wir kannten die Netzwerkstrukturen innerhalb des Datensatzes, also wie viele Follower die einzelnen Nutzer hatten, und wir wussten auch, welche der Nachrichtenmeldungen die Faktencheck-Organisation Snopes als fake news deklariert hatte“, erläutert Gomez Rodriguez.“

Nicht bekannt war, wie und wann die Nutzer in dem Datensatz die Nachrichten geflaggt hatten. Hier mussten sich die Forscher mit einem Trick helfen. Sie griffen dabei auf andere Untersuchungen zurück, wie oft Nutzer tatsächlich falsche Nachrichten als solche markiert hatten – so konnten sie begründete Annahmen über darüber anstellen, wie gut Nutzer falsche Nachrichten erkennen und wie oft sie diese im Schnitt dann auch markieren. „Wir haben unseren Algorithmus einfach für ein breites Spektrum an plausiblem Flagging-Verhalten ausprobieren lassen“, erläutert Gomez Rodriguez.

In dem Experiment mit den realen Daten aus Twitter oder Weibo testeten die Forscher aus Kaiserslautern, wie effektiv ihr Algorithmus verglichen mit anderen Methoden verdächtige Meldungen zum Faktencheck lotst. Gegen Curb trat unter anderem das Pseudo-Verfahren Oracle an, das im Testszenario ganz schlicht Zugang zu der Information hatte, ob eine Nachricht tatsächlich falsch war oder nicht, und die Meldung dementsprechend zum Faktencheck schickte.

Andere Vergleichsmethoden benutzten einfache Faustregeln: einmal ein Algorithmus, der wie die Methode des Kaiserslauterner Teams aus dem bloßen Verhältnis zwischen der Anzahl der flags und der Anzahl von Weiterleitungen die Dringlichkeit für den Faktencheck ermittelt; dann ein Algorithmus, der eine Nachricht dem Faktencheck überstellt, sobald eine bestimmte Zahl von flags erreicht ist; schließlich ein Algorithmus, der allein das Ausmaß der Verbreitung einer Nachricht heranzieht, um eine Meldung für den Faktencheck zu priorisieren.

Das Resultat des Vergleichstests: Curb verhinderte fast ebenso gut wie Oracle die Verbreitung von Falschinformationen, die nicht als solche indiziert waren. Die drei Faustregeln vermochten dies nicht.

Trotz des Testerfolgs kann Gomez Rodriguez die Aussicht von Curb, in der Praxis umgesetzt zu werden, noch nicht einschätzen: „Ob Curb hier als Lösung am Ende in Frage kommt oder lediglich Komponenten unseres Verfahrens sich als interessant für kommerzielle Anbieter erweisen, wird man sehen müssen“, sagt der Forscher. „Einer der Entwickler von Curb hat aber vor kurzem im Fake News Team bei Facebook angeheuert.“

Ähnliche Algorithmen wie Curb lassen sich, davon abgesehen, auch auf anderen Feldern einsetzen. „Sprachlern-Software zum Beispiel könnten Verfahren wie Curb optimieren, indem sie helfen, besser zu prognostizieren, welche Inhalte den Lernenden wiederholt präsentiert werden müssen, damit sie diese im Gedächtnis behalten“, sagt Gomez Rodriguez.: Ein anderes Anwendungsfeld ist das virale Marketing. Für diese Anwendung haben die das Grundgerüst von Curb auch ursprünglich entwickelt: Um herauszufinden, wie Nachrichten in Sozialen Medien am effektivsten verbreitet werden.

Ein Problem lässt Curb allerdings ungelöst: Was passiert, wenn Nutzer das System gezielt sabotieren, indem sie solide Nachrichten als fake markieren oder bewusst Falschmeldungen verbreiten? Bei einem so extremen Verhalten dürfte Curb schwerlich noch richtig einschätzen, wie dringend eine Meldung zum Faktencheck muss. Um dieses Problems anzugehen, haben Gomez Rodriguez und seine Kollegen Detective entwickelt.

Auch der Detective-Algorithmus dient dem Ziel, die Verbreitung von Falschinformationen zu reduzieren. Gomez Rodriguez Team hat das Verfahren auf der International World Wide Web Conference dieses Frühjahr in Lyon präsentiert. Während Curb alle Nutzer für gleich seriös hält, versucht Detective herauszufinden, wer fake news besonders zuverlässig beanstandet, und wer solide Meldungen vorsätzlich als fake brandmarkt, um das System zu unterlaufen.

Zu diesem Zweck berücksichtigt der Algorithmus von Detective die Resultate des Faktenchecks, mit deren Hilfe er einschätzt, wie zuverlässig Nutzer im Erkennen und Markieren von fake news sind. „Wir beobachten eine Nutzerin oder einen Nutzer über eine gewisse Zeitspanne hinweg“, sagt Gomez Rodriguez. „Dabei übergeben wir Nachrichten, die sie oder er verfasst oder teilt, immer wieder dem Faktencheck.“

Auch Detective muss dabei einen Zielkonflikt lösen. Um die Zuverlässigkeit möglichst vieler Nutzer beurteilen zu können, sollten die Faktenprüfer einerseits Nachrichten, die von möglichst vielen unterschiedlichen Personen weitergeleitet wurden, validieren. Auch solche, bei denen es sich den Nutzermarkierungen zufolge wahrscheinlich nicht um Falschmeldungen handelt. So erfahren sie etwas darüber, welche Nutzer Informationen vertrauenswürdig beurteilen. Andererseits sollte die begrenzte Zeit der menschlichen Faktenchecker auch hier am besten wieder nur für Nachrichten verwendet werden, die wahrscheinlich fake sind. Dazu wäre es am effizientesten, einfach dem Urteil jener Nutzer zu vertrauen, die sich bereits als verlässlich erwiesen haben. Doch damit weitere Nutzer diesen Status erlangen, müssen die Verfahren des maschinellen Lernens, die bei Detective zum Einsatz kommen, das Verhalten möglichst vieler Personen kennenlernen. Eine Leistung von Detective besteht darin, mithilfe des maschinellen Lernens den optimalen Kompromiss zwischen den beiden Erfordernissen zu finden.

Wie Curb bestand auch Detective den Test mit empirischen Datensets mit Bravour. Im Experiment lieferte die Methode annähernd so gute Resultate wie ein Pseudo-Algorithmus, der das Flagging-Verhalten der Nutzer kannte. In der praktischen Anwendung dürfte Detective in Kombination mit Curb für Administratoren hilfreich sein, die mit Hilfe der Algorithmen den Einsatz menschlicher Faktenchecker möglichst effizient planen wollen.

Zudem könnten Administratoren auf Basis der Detective-Wertung Nutzern Informationen darüber zugänglich machen, wie verlässlich andere Personen innerhalb ihres sozialen Netzwerkes sind, wenn es um die Markierung von Nachrichten als falsch geht. „Praktisch setzt hier allerdings der Datenschutz Grenzen“, räumt Gomez Rodriguez ein. Schon dass ‚Freunde‘ oder Follower sehen, welche Likes man setzt, sei für viele Nutzer nicht akzeptabel. „Eine Nachricht als fake news zu markieren, kann ebenso problematisch sein, weil man dabei oft etwas von seiner eigenen politischen Orientierung preisgibt.“ Deshalb müssten Resultate von Detective entsprechend anonymisiert werden. „Zehn Prozent der vertrauenswürdigen Personen in Deinem Netzwerk haben diese Nachricht als ‚fake‘ geflaggt: So eine Information könnte man schon einspielen“, meint Gomez Rodriguez.

Manche Personen als besonders vertrauenswürdig darzustellen, könnte aber auch das Gegenteil des gewünschten Effekts bewirken: Nutzer, die zu Verschwörungstheorien neigen, könnten bewusst solchen Personen folgen, die absichtlich solide Nachrichten als fake markieren und selbst fake news in Umlauf bringen – weil sie glauben, dass es sich hier um eine lediglich vom Mainstream unterdrückte Wahrheit handelt. Allerdings erwies sich Detective gegen eine solche vorsätzliche Verbreitung falscher Informationen als ziemlich robust – gerade weil der Algorithmus die Vertrauenswürdigkeit der Nutzer berücksichtigt.

Neben dem Bemühen, Falschnachrichten effektiv aufzudecken, beschäftigt sich das Team von Gomez Rodriguez auch mit der Frage, wie sehr Nachrichten – ob fake oder nicht – tatsächlich zu einer Polarisierung von Meinungen in den sozialen Medien beitragen. Für die Antwort darauf haben die Forscher ebenfalls einen Algorithmus entwickelt. Dieser wertet Urteile wie etwa „Daumen hoch!“ oder „Daumen runter!“ über Textbeiträge wie etwa Kommentaren in online-Diskussionen aus.

Anstelle von Meinungen zu einzelnen Fragen betrachtet die Methode aber ganze Meinungssequenzen. Was damit gemeint ist, veranschaulicht Gomez Rodriguez mit den Aussagen „Ich mag rote Bonbons!“; „Ich mag grüne Bonbons!“; „Bonbons sind gesund und rote Bonbons sind die besten!“ und „Bonbons sind ungesund.“ Die jeweilige Meinung hinter einem einzelnen Kommentar ist mit einer Software, die den Text etwa auf bestimmte Wörter analysiert und mit anderen Aussagen vergleicht, nicht zuverlässig zu ermitteln. Anders ist das mit den Meinungen, die Nutzer ausdrücken, indem sie die Kommentare in einer solchen Aussagekette durch Zustimmung oder Ablehnung bewerten. Genau diese Urteile verschiedener Nutzer analysierten die Wissenschaftler und berechneten daraus auch die Meinung, die ein einzelner Kommentar widerspiegelt.

Bei der Analyse der Meinungen, die sich sowohl in einem einzelnen Kommentar als auch in den Bewertungen einer Aussagensequenz widerspiegeln, fokussieren Gomez Rodriguez und seine Kollegen auf zwei Merkmale.

Zum einen betrachten sie den Grad von Komplexität oder die Anzahl von Achsen, anhand derer sich der Meinungsraum darstellen lässt. Ein Beispiel: Wenn alle Teilnehmer an einer Diskussion entweder die gleiche Meinung oder genau die jeweils entgegengesetzten Meinungen bezüglich einer einzelnen Fragen vertreten, lassen sich die Antworten anhand von einer Achse sortieren – solche Diskussionen werden also buchstäblich eindimensional geführt.

Zum anderen ermittelten die Forscher, wie nah oder fern die einzelnen Meinungen voneinander entfernt sind. Zu diesem Zweck werden die Haltungen hinter den Kommentaren, aus denen sich die Sequenz zusammensetzt, als Vektoren in einem Meinungsraum dargestellt. Den jeweiligen Vektor ermittelt der Algorithmus, indem er auswertet, wie andere Nutzer einen Kommentar bewerten. Die Anordnung der Vektoren gibt Aufschluss über die Diversität der Meinungen. „Wir können Textbeiträge, die sich in ihrem semantischen Inhalt stark voneinander unterscheiden, die ganz unterschiedliche Worte verwenden und die vielleicht sogar Ironie enthalten, im Meinungsraum zueinander positionieren“, betont Gomez Rodriguez.  

Die Analyse eines großen Datensatzes von Online-Diskussionen auf den Seiten von Yahoo! News, Yahoo! Finance, Yahoo! Sports und der Yahoo! Newsroom app zeigte: 75 Prozent der Online-Diskussionen bewegen sich auf zwei oder mehr Achsen im Meinungsraum, sie wurden also nicht polarisiert geführt. „Dies ist ein deutliches Indiz dafür, dass die Diskussionen auf diesen Online-Seiten nicht dem Spiel vom Demagogen zum Opfer gefallen sind“, meint Gomez Rodriguez.

Der Algorithmus ermöglicht es also, Debatten in online-Foren oder sozialen Medien zu bewerten, und wirkt mit seinen bisherigen Ergebnissen dem Eindruck entgegen, dass diese in der Anonymität des Internets stets undifferenziert geführt werden und überwiegend von Demagogen polarisiert werden. Wie Curb und Detective zeigt er mithin, dass ein hybrider Ansatz von künstlicher Intelligenz und menschlichen Bewertungen hilft, solche Diskussionen zu versachlichen.

Auf den Punkt gebracht

  • Ein hybrider Ansatz aus künstlicher Intelligenz und menschlichen Bewertungen kann in verschiedener Hinsicht helfen, Debatten im Internet zu versachlichen.
  • Der Algorithmus Curb priorisiert, wie dringend ein Inhalt einem Faktencheck unterzogen werden muss, damit sich eine eventuelle Falschmeldung nicht undeklariert verbreitet. Er analysiert dafür immer wieder neu, wie schnell sich eine Meldung verbreitet und wie viele Nutzer diese als Fake News markiert haben.
  • Der Algorithmus Detective soll ebenfalls die Verbreitung von Falschmeldungen verhindern, berücksichtigt dabei aber, wie vertrauenswürdig die Nutzersind, die eine Meldung als falsch markieren.
  • Ein weiterer Algorithmus wertet aus, wie differenziert Diskussionen im Internet geführt werden. Demnach finden sie in drei Viertel der Fälle nicht polarisiert statt – ein Indiz, dass sich die Nutzer mehrheitlich nicht von Demagogen leiten lassen.

 

 

 

 

 

Zur Redakteursansicht