Forschungsbericht 2015 - Max-Planck-Institut für Informatik

Wissen und Sprache: Wie gebildet, belesen und intelligent können Computer sein?

Autoren
Weikum, Gerhard
Abteilungen
Databases and Information Systems
Zusammenfassung
Durch algorithmische Wissensextraktionen aus Texten und Webquellen konnten  maschinenlesbare Wissensbasen konstruiert werden, die Millionen von Entitäten und Milliarden von Fakten über und Beziehungen zwischen Entitäten umfassen. Computer können mit diesem digitalen Wissen Texte semantisch interpretieren und mehrdeutige Namen und Phrasen korrekt disambiguieren. Das tiefe Sprachverstehen eröffnet neue Möglichkeiten für automatische Textanalysen, Frage-Antwort-Dialoge und Mensch-Maschine-Interaktion.

Können Computer dem Menschen intellektuell ebenbürtig oder gar überlegen sein? Die Informatik und ihr Teilgebiet der Künstlichen Intelligenz verfolgen diese Frage, seit Alan Turing vor mehr als 50 Jahren den Turing-Test vorgeschlagen hat: Kann ein Computer, der mit einem menschlichen Dialogpartner über eine Textschnittstelle kommuniziert, sich so verhalten, dass der Mensch nicht feststellen kann, ob sein Gesprächspartner ein Mensch oder eine Maschine ist? Vor drei Jahren hat mit dem IBM-Watson-System eine Maschine das für seine kniffligen Fragen bekannte Wissensquiz Jeopardy im amerikanischen Fernsehen gewonnen [1] – ein starkes Indiz, dass die Informatik dem Bestehen des Turing-Tests zumindest nahe gekommen ist [2]. Dieser Artikel diskutiert, was Computer wissen, wie sie dieses Wissen für Sprachverstehen und Dialoge mit Menschen einsetzen können und wie nahe oder fern die Informatik dem hochtrabenden Ziel ist, den Turing-Test zu bestehen.

Was wissen Maschinen?

Menschliches Wissen – in Büchern, Aufsätzen, Nachrichten und anderen Texten – ist heute nahezu lückenlos digitalisiert und systematisch organisiert. Das prominenteste Beispiel digitaler Wissenssammlungen ist die Online-Enzyklopädie Wikipedia. Für Computer ist Wikipedia allerdings zunächst nicht verständlich, da die Textinhalte für Menschen geschrieben sind.

In den letzten Jahren hat sich dies durch eine neue Entwicklung geändert. Umfassende maschinenlesbare Wissensbasen [3, 4] wie der Google Knowledge Graph wurden weitgehend automatisch erstellt und werden ständig aktualisiert und erweitert. Der Knowledge Graph kennt mehr als 500 Millionen Personen, Orte, Filme, Arzneimittel, Sportereignisse und vieles mehr sowie Milliarden von Fakten über diese Entitäten und ihre Beziehungen untereinander. Google nutzt dieses gewaltige Wissen, um Suchanfragen besser zu verstehen, Suchresultate besser in Ranglisten zu ordnen, bessere Empfehlungen für Nutzer von YouTube und anderen Web-Portalen zu geben sowie für interessante Vorschläge zu Restaurants, Konzerten und anderem.

Vor allem drei Projekte haben die Methoden zur automatischen Konstruktion derartig umfassender Wissensbasen entscheidend vorangebracht: DBpedia an der FU Berlin und der Uni Leipzig, Freebase, das von Google aufgekauft wurde und heute den Kern des Knowledge Graph bildet und Yago, das wir seit dem Jahr 2005 am Max-Planck-Institut für Informatik entwickelt haben [5–7].

Eine wichtige erste Dimension digitalen Wissens besteht darin, Einheiten – Entitäten genannt – zu sammeln, eindeutig zu benennen und in semantische Klassen wie Personen, Orte, Organisationen oder Ereignisse einzuordnen. Das macht im großen Stil vor allem Yago, indem es mit cleveren Algorithmen Kategorienamen aus Wikipedia mit dem manuell erstellten Thesaurus WordNet verknüpft. Die resultierende Wissensbasis enthält nahezu zehn Millionen Entitäten und mehr als 300.000 feinkörnige und hierarchisch organisierte Klassen wie Politiker, Musiker, Bassisten, Rockballaden, Heavy-Metal-Songs, Benefizkonzerte oder Freiluftopern.

Die zweite Dimension einer Wissensbasis sind Fakten über Entitäten. Das sind zum einen Merkmale wie die Größe eines Fußballtorhüters oder die Anzahl seiner Länderspiele; zum anderen Beziehungen zwischen Entitäten, etwa der Geburtsort eines Torwarts, die Vereine, für die er gespielt hat, seine Ehefrau, die Hauptstadt eines Landes oder die Vorstandsmitglieder eines Unternehmens.

Die dritte Dimension schließlich sind Regeln, die generelle Zusammenhänge ausdrücken – unabhängig von konkreten Entitäten. Dazu gehören Gesetzmäßigkeiten wie etwa die, dass jede Person genau einen Geburtsort hat und dass Hauptstädte von Ländern im jeweiligen Land liegen müssen. Solche Regeln können allerdings auch mit Unsicherheiten behaftet sein, müssen also nicht immer hundertprozentig zutreffen. Eine Person wohnt wahrscheinlich in derselben Stadt wie der Ehepartner oder in der Stadt, in der sie arbeitet.

Solches Allgemeinwissen brauchen Maschinen, um mehrere Fakten logisch zu verknüpfen. Hat man zum Beispiel keine Anhaltspunkte über den Wohnort von Angela Merkel, weiß aber, dass ihr Ehemann an der Humboldt-Universität Berlin arbeitet, so kann der Computer daraus schließen, dass die Kanzlerin in Berlin wohnt.

Was können Maschinen lesen und verstehen?

Sprache ist oft mehrdeutig. Das mag an der Satzstruktur liegen, viel häufiger aber lassen Namen und Phrasen mehrere Interpretationen zu. Um dies zu illustrieren, betrachten wir den Satz: „Page played Kashmir on his Gibson.” Handelt es sich hier um den Google-Gründer Larry Page, der sich mit dem Schauspieler und Regisseur Mel Gibson am Rande des Himalaya trifft? Das ergibt offensichtlich keinen Sinn! Menschen erkennen dies aufgrund ihres Erfahrungsschatzes sofort, die Maschine jedoch muss das systematisch und algorithmisch analysieren. Tatsächlich ist hier die Rede von dem Led-Zeppelin-Gitarristen Jimmy Page, der den Song Kashmir auf einer Les-Paul-Gitarre der Firma Gibson spielt.

Um einen Satz aber wirklich zu verstehen, muss die Maschine auch die Beziehungen zwischen den beteiligten Entitäten erkennen und semantisch interpretieren. So kann sich das Verb „play” auf Spiele, Sport, Musik, Trickserei und vieles mehr beziehen. Die Wahrscheinlichkeit, dass „play” im Sinne der Relation MusicianPerformsSong verwendet wurde, ist eben sehr hoch, wenn die mehrdeutigen Namen „Page” und „Kashmir” auf einen Musiker und ein Musikstück hinweisen.

Umgekehrt spricht in einem Satz, der „play” mit der genannten Bedeutung von MusicianPerformsSong verwendet, vieles dafür, dass der Satz auch einen Musiker und einen Song erwähnt. Diese wechselseitigen Abhängigkeiten in der Interpretation der Verbal- und Nominalphrasen werden mithilfe von Optimierungsalgorithmen gelöst [8].

Digitales Wissen in Kombination mit reichhaltiger Statistik und schlauen Algorithmen ermöglicht der Maschine also ein verblüffend tiefes Sprachverstehen. Und natürlich bleibt man nicht bei einzelnen Sätzen in Aussageform stehen, sondern betrachtet außerdem Fragen, ganze Absätze, lange Essays oder wissenschaftliche Publikationen und auch Dialoge mit dem Menschen.

Ein schwieriges Beispiel für einen Fragesatz ist etwa: „Who did scores for westerns?” Da muss man analysieren, dass sich „scores” auf Filmmusik bezieht, mit „westerns” Westernfilme gemeint sind und die saloppe Formulierung „did” im Sinne der Relation ComposedMusic zu interpretieren ist [9]. Mit diesem Sprachverständnis kann der Computer direkt eine Antwort aus seiner Wissensbasis liefern – etwa Ennio Morricone, der zum Beispiel die Musik zum Film „Once upon a Time in the West” komponiert hat.

Grenzen und Chancen des maschinellen Sprachverstehens

Natürlich hat die Wissens- und Sprachtechnologie heute noch Limitationen. Oft steht und fällt alles mit dem Reichtum der zugrundeliegenden Statistiken oder dem Ausmaß an Training für Lernverfahren. Auch gibt es Sprachen wie Mandarin, die einer Syntaxanalyse inhärent schwer zugänglich sind und ein viel komplexeres Maß an Mehrdeutigkeit aufweisen als Englisch oder Deutsch. Oder man denke an Sprachen wie Bambara oder Urdu, für die es keinen großen Korpus an digitalen Texten und damit auch keine umfassenden Statistiken gibt.

Wenn wir jedoch den Fortschritt des letzten Jahrzehnts extrapolieren, kann man womöglich schon im Jahr 2020 mit Leistungen rechnen, die dem Bestehen des Turing-Tests nahekommen. Wir könnten dem Computer ein Schullehrbuch über Biologie „zum Lesen” geben und der Computer beantwortet anschließend Fragen auf dem Niveau einer mündlichen Abiturprüfung. In einem immersiven Computerspiel, in dem Menschen mit digitalen Avataren interagieren, hilft das Sprachverstehen und Weltwissen des Computers, um die Computerrolle perfekt zu spielen. Man denke an ein Spiel, in dem man gemeinsam mit anderen Online-Nutzern mit einer virtuellen Version von Jamie Oliver kochen lernt. Damit Jamie richtig auf die Fehler seiner Lehrlinge bei der Zubereitung des Tiramisu reagieren kann, muss der Computer die Gespräche, Gesten, Mimik und visuellen Eindrücke analysieren und mit seinem Kochkunstwissen kombinieren.

Fazit und Thesen

Maschinen werden dem Menschen in nicht zu ferner Zukunft in vielen Anwendungssituationen haushoch überlegen sein, wie etwa bei wissensintensivem Question Answering oder der automatischen Zusammenfassung langer Texte oder ganzer Korpora und deren Aufbereitung für Analysen.

In Situationen, in denen Einfühlungsvermögen und kognitive Flexibilität gefordert sind, wird die Maschine dem Mensch nicht wirklich überlegen sein, kann aber als Assistent unverzichtbar werden. Ein Beispiel dafür ist die Hilfe bei medizinischen Diagnosen, wo der Computer zum Gesprächspartner und Assistenten für Arzt und Patient werden könnte.

Dem Bestehen des Turing-Tests werden Maschinen sehr nahe kommen. Man kann dies als Simulation intelligenten Verhaltens ansehen, die auf Wissen, Statistik und Algorithmen beruht. Für den Effekt in Anwendungen ist es irrelevant, ob wir es mit Künstlicher Intelligenz oder „echter Intelligenz” zu tun haben. Andererseits wird es auch immer Situationen geben, in denen die Maschine den Menschen nicht imitieren kann. Humor, Ironie, Flirten und andere Emotionen bleiben noch lange dem Menschen vorbehalten.

Literaturhinweise

1.
Special Issue on “This is Watson”
IBM Journal of Research and Development 56, 3/4 (2012)
2.
Norvig, P.; Russell, S.
Artificial Intelligence
3rd Edition, Prentice Hall, 2009
3.
Hovy, E.; Navigli, R.; Ponzetto, S. P.
Collaboratively Built Semi-Structured Content and Artificial Intelligence: the Story So Far
Artificial Intelligence 194, 2-27 (2013)
4.
Lenat, D. B.
CYC: A Large-Scale Investment in Knowledge Infrastructure
Communications of the ACM 38, 32-8 (1995)
5.
Hoffart, J.; Suchanek, F. M.; Berberich, K.; Weikum G.
YAGO2: a Spatially and Temporally Enhanced Knowledge Base from Wikipedia
Artificial Intelligence 194, 28-61 (2013)
6.
Tandon, N.; de Melo, G.; Suchanek, F. M.; Weikum; G.
WebChild: Harvesting and Organizing Commonsense Knowledge from the Web
ACM Int. Conf. on Web Search and Data Mining (WSDM), 2014
7.
Suchanek, F. M.; Weikum, G.
Knowledge Harvesting in the Big-Data Era
ACM Int. Conf. on Management of Data (SIGMOD), 2013
8.
Hoffart, J.; Yosef, M. A.; Bordino, I.; Fürstenau, H.; Pinkal, M.; Spaniol, M.; Taneva, B.; Thater, S.; Weikum, G.
Robust Disambiguation of Named Entities in Text
ACL Int. Conf. on Empirical Methods for Natural Language Processing (EMNLP), 2011
9.
Yahya, M.; Berberich, K.; Elbassuoni, S.; Ramanath, M.; Tresp, V.; Weikum, G.
Natural Language Questions for the Web of Data
ACL Int. Conf. on Empirical Methods for Natural Language Processing (EMNLP), 2012
Zur Redakteursansicht