Auf der Suche nach dem entscheidenden Wort
Die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern
Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois „Krieg und Frieden“.
Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen – beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben „K“ finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben „K“ einige Seiten später nochmal zu finden. „Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden“, so Altmann.
Schlüsselwörter häufen sich in einzelnen Textpassagen
Dabei haben sie die Langzeitkorrelation sowohl zwischen einzelnen Buchstaben, als auch innerhalb höherer sprachlicher Ebenen wie Wörtern gefunden. Innerhalb einzelner Ebenen bleibt die Korrelation dabei erhalten, wenn man verschiedene Texte betrachtet. „Viel interessanter ist es für uns zu überprüfen, wie die Korrelation sich zwischen den Ebenen ändert“, sagt Altmann. Die Langzeitkorrelation erlaubt Rückschlüsse, inwieweit einzelne Wörter mit einem Thema in Verbindungen stehen. „Auch die Verbindung zwischen einem Wort und den Buchstaben, aus denen es sich zusammensetzt, lässt sich so analysieren“, so Altmann.
Darüber hinaus untersuchten die Wissenschaftler auch die sogenannte „Burstiness“, die beschreibt, ob ein Zeichenmuster in einer Textpassage vermehrt zu finden ist. Sie zeigt also beispielsweise an, ob ein Wort in einem bestimmten Abschnitt gehäuft vorkommt. Je häufiger ein bestimmtes Wort in einer Passage verwendet wird, desto wahrscheinlicher ist es, dass diese repräsentativ für ein bestimmtes Thema ist.
Die Wissenschaftler zeigten, dass bestimmte Wörter zwar im ganzen Text immer wieder vorkommen, aber nicht in einem bestimmten Abschnitt verstärkt zu finden sind. Diese Wörter weisen zwar eine Langzeitkorrelation auf, stehen aber nicht in einer engen Verbindung mit dem Thema. „Das beste Beispiel dafür sind Artikel. Sie kommen in jedem Text sehr oft vor, sind aber nicht entscheidend um ein bestimmtes Thema zu vermitteln“, so Altmann.
Die statistische Textanalyse funktioniert unabhängig von der Sprache
Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. „Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar“, sagt Altmann. Ein „a“ beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen.
Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. „Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln“, sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen.
RWI/PH