Forschungsbericht 2011 - Max-Planck-Institut für Physik komplexer Systeme

Menschliche dynamische Aktivitäten in Online-Diskussionsgruppen

Autoren
Altmann, Eduardo G.
Abteilungen
Otto-Hahn Nachwuchsgruppe – Dynamische Systeme und soziale Dynamik
Zusammenfassung
Der Zugang zu Internetdaten erlaubt bisher unerreichte quantitative Untersuchungen von menschlichen Aktivitäten. Hier wird über Beobachtungen an Tausenden von Nutzern über mehr als 10 Jahre in Usenet-Onlinegruppen berichtet. Statistische Analysen von Worthäufigkeiten erlauben einen einzigartigen Einblick in die Interessen der Nutzer und in die Entwicklung der Sprache.

Einführung

Eine der größten wissenschaftlichen Herausforderungen unserer Zeit ist zu verstehen, wie Menschen miteinander interagieren und komplexe soziale Strukturen bilden. Die Probleme sind nicht unbedingt neu und nicht ausschließlich mit den neuen Technologien verbunden. Zum Beispiel hat die Verbreitung von Krankheiten im weltweiten Verkehrsnetz viele ähnliche Eigenschaften mit der Verbreitung von Ideen im Internet. Allerdings geben die neuen Kommunikationsmöglichkeiten vielen dieser Probleme eine neue Dimension.

Die neuen Technologien bringen auch neue Forschungsmöglichkeiten, die zu Problemlösungen führen können. Verschiedenste Daten sind für Untersuchungen frei verfügbar und erlauben zum ersten Mal, die Kommunikation von Tausenden Menschen in Echtzeit zu verfolgen. Viele Fragen, die früher nur durch indirekte und begrenzte Statistik (z. B. Fragebogen) untersucht wurden, können jetzt mit unvergleichbarer quantitativer Genauigkeit erforscht werden [1]. Der Umgang mit diesen Informationen bringt ernstzunehmende Bedenken hinsichtlich der Verletzung der Privatsphäre mit sich. Hier spielt die öffentliche wissenschaftliche Untersuchung anonymisierter Daten eine wichtige Rolle, weil ein effektiver Schutz gegen Missbrauch nur durch öffentlichen Umgang mit den erlangten Kenntnissen möglich ist.

Zu diesem neuen multi-disziplinären Forschungsgebiet tragen auch Physiker mit ihrer Erfahrung in statistischer Analyse, Modellierung und dynamischen Systemen bei [2]. Die Analysen von Kommunikationsverhältnissen konzentrierten sich zuerst auf die Aktivitätszeiten einzelner Individuen [3] und auf die Verbindungen zwischen Paaren [4]. Erst seit kurzem wird der Inhalt quantifiziert.

Wörter-Statistik

Statistiken von einzelnen Wörtern geben einen ersten quantitativen Einblick über den Inhalt spezifischer Beiträge. Die Verteilung von Wörtern in verschiedenen Dokumenten hat interessante statistische Eigenschaften [5], die Anwendungen in Information Retrieval und Suchmaschinen finden [6]. Die dahintersteckende Grundidee ist, dass Wörter, die sich in wenige Dokumente gruppieren, die relevantesten sind. Wörter zeigen solche Gruppierung (oder Clustering) nicht nur in Dokumenten sondern auch in der Zeit [5] und zwischen verschiedenen Nutzern [6]. Diese Eigenschaften wurden in englischsprachigen Online-Diskussionsgruppen (USENET groups), die länger als 10 Jahre aktiv waren, untersucht.

Abbildung 1 zeigt, wie sich zwei Wörter mit gleicher Frequenz, theory (deutsch: Theorie) und also (deutsch: auch), in einer Diskussionsgruppe verteilen. Im Vergleich zu einem zufällig verteilten Wort zeigen die beiden Wörter eine deutliche Gruppierung. Allerdings zeigt das Wort theory eine stärkere Gruppierung als also. Es wurde gezeigt, dass sich diese Gruppierung gut mit einer gedehnten exponentiellen Verteilung der Zeit zwischen zwei in Folge erscheinenden Wörtern modellieren lässt. Die Gruppierung wird von dem Exponenten B dieser Funktion quantifiziert (B → 0 bedeutet stärkere Gruppierung, B → 1 bedeutet zufällig verteilt).

Abbildung 2 fasst die systematische Untersuchung häufiger Wörter zusammen. Sie zeigt, dass B mit der semantischen Klasse der Wörter korreliert ist [7]. Die Quantifizierung der Wörtergruppierung zwischen Nutzern folgte einer teilweise ähnlichen Strategie [8]. Die Anzahl von Nutzern (N), die ein spezifisches Wort benutzt haben, wurde mit der erwarteten Anzahl von Nutzern (M), die durch einen zufälligen Text ermittelt wurde, verglichen. Die Nutzer-Dissemination jedes Wortes wurde als D=N/M definiert. Die Beobachtungen liefern die Aussage, dass die meisten Wörter eine Dissemination kleiner als eins aufweisen [8].

Sprachwandlung

Eine detaillierte quantitative Untersuchung der Sprachwandlung ist ein interessantes Beispiel der Möglichkeiten, die die statistische Untersuchung der Worthäufigkeiten eröffnet [9]. Neue Wörter und Begriffe werden häufig erfunden und weiter verwendet.

Zwei Beispiele sind in Abbildung 3 gezeigt. Ob diese Wörter von einem breiteren Spektrum von Sprechern akzeptiert werden, hängt unter anderem von komplexen sozialen Faktoren ab, die auch bei anderen Aspekten der Sprachwandlung aktiv sind.

Langfristiger Erfolg kann nur erreicht werden, wenn die Wörter kurzfristige Fluktuationen überleben. Durch eine systematische Analyse von häufig auftretenden Wörtern wurde eine klare statistische Tendenz entdeckt, die zeigt, dass Wörter mit einem kleineren Wert von D zu einer zukünftigen niedrigeren Häufigkeit führen, und dass Wörter mit einem größeren Wert von D stabiler sind.

Abbildung 4 zeigt Beispiele von Wörtern, die dieser Tendenz folgen. Die gleiche Tendenz wird beobachtet, wenn anstatt Nutzer-Dissemination die ähnlich definierte Themen-Dissemination benutzt wird. Für den Erfolg neuer Wörter heißt das, dass es besser ist, selten von verschiedenen Nutzern (Themen) als öfter von wenigen Nutzern (Themen) benutzt zu werden.

Watts, D.
Connections: A twenty-first century science
Nature 445, 489 (2007)
Castellano, C.; Fortunato, S.; Loreto, V.
Statistical physics of social dynamics
Review of Modern Physics 81 (2), 591-646 (2009)
Barabási, A.-L.
Bursts: the hidden pattern behind everything we do
Dutton, London, England (2010)
Watts, D. J.
Six degrees: the science of a connected age
Norton, New York, Vereinigte Staaten von Amerika (2004)
Harald Baayen, R.
Word Frequency Distributions
Kluwer Academic Publishers, Dordrecht, Niederlande (2002)
Schütze, H.
Foundations of statistical natural language processing
MIT Press, Cambridge, Vereinigte Staaten von Amerika (1999)
Altmann, E. G.; Pierrehumbert, J. B.; Motter, A. E.
Beyond Word Frequency: Bursts, Lulls, and Scaling in the Temporal Distributions of Words
Public Library of Science ONE 4 (11), e7678 (2009)
Altmann, E. G.; Pierrehumbert, J. B.; Motter, A. E.
Niche as a Determinant of Word Fate in Online Groups
Public Library of Science ONE 6 (5), e19009 (2011)
Michel, J.-B.; Shen, Y. K.; Aiden, A.P.; Veres, A.; Gray, M. K.; Pickett, J. P.; Hoiberg, D. Clancy, D.; Norvig, P.; Orwant, J; Pinker, S; Nowak, M. A.; Aiden, E. L.
Quantitative Analysis of Culture Using Millions of Digitized Books
Science 331 (6014), 176-182 (2011)
Zur Redakteursansicht