Forschungsbericht 2019 - Max-Planck-Institut für Informatik
Suchmaschinen von übermorgen
Stand der Kunst: Semantische Suche
Suchmaschinen haben sich in den letzten drei Jahrzehnten eindrucksvoll weiterentwickelt. Nach der ersten Generation vor der Jahrtausendwende wurden vor allem die Erschließung und effiziente Suche von Texten verbessert. Der wichtigste Trend der dritten Generation im letzten Jahrzehnt war der Schritt zum Verständnis von Entitäten.
In Webseiten und Nutzeranfragen kommen häufig Namen von Personen, Organisationen, Orten, Produkten oder Ereignissen vor. Allgemein spricht man von Entitäten. Deren Bezeichnungen in Textform sind aber oft mehrdeutig, beispielsweise Alibaba, Ma oder Brazil World Cup. Wenn man diesen Namen aufgrund ihres Kontextes eindeutige Entitäten einer Wissensbank zuordnet und damit die Mehrdeutigkeit auflöst, kann die Suchmaschine selbst für anspruchsvolle Fragen punktgenaue Antworten geben. Für die genannten Beispiele wären dies etwa Alibaba Group Holding Limited, Jack Ma und der 2014 FIFA World Cup.
Weitere Beispiele:
Suche: „Höhe des Eiffelturms“ | Antwort: 324 Meter | |
Suche: „höchstes Gebäude in Paris“ | Antwort: Eiffelturm | |
Suche: „CEO von Amazon“ | Antwort: Jeff Bezos | |
Suche: „Vermögen von Bezos“ | Antwort: 108,9 Milliarden USD | |
Suche: „CEOs von IT-Unternehmen“ | Antwort: Jeff Bezos, Sundar Pichai, Ginny Rometti, Zhang Yong, … |
Ermöglicht wurde dies durch die automatische Konstruktion umfassender Wissensbanken, ein Trend, zu dem das vor 15 Jahren begonnene YAGO-NAGA-Projekt am Max-Planck-Institut für Informatik wesentlich beigetragen hat. Heute haben alle großen Suchmaschinen (Google, Bing, Baidu etc.) im Hintergrund eine Wissensbank (Knowledge Graphs), und auch andere Unternehmen, wie Amazon, Alibaba etc., setzen auf diese Art von KI-Technologie.
Neue Herausforderung: Suche mit Quantitäten
Ein Typus von Anfragen, zu denen es bislang wenig Forschung gibt, ist die Suche mit Quantitäten: Maße für finanzielle, physikalische oder technisch-ökologische Eigenschaften von Entitäten, wie das Vermögen von Unternehmern, der Energieverbrauch von Autos, die Wärmeleitfähigkeit von Materialien oder die übliche und die maximale Dosierung von Medikamenten.
Suchmaschinen liefern gute Antworten, wenn man den Wert solcher Quantitäten für eine gegebene Entität wissen will (beispielsweise die Höhe des Eiffelturms). Wenn man aber alle Entitäten sucht, die eine quantitative Bedingung erfüllen (zum Beispiel Gebäude über 500 Meter), liefern Suchmaschinen nur Links auf Webseiten, die man manuell durchforsten muss.
Beispiele:
Suche: | „Personen mit einem Vermögen über 50 Milliarden USD“ |
Antwort: Links auf Webseiten wie z.B. „Meet the world’s 50 richest billionaires in 2019“ |
Suche: | „Personen mit einem Vermögen zwischen 10 und 50 Milliarden Euro“ |
Antwort: eine Mixtur aus Webseiten über Milliardäre generell und Nachrichtenartikeln wie z.B. „Inequality and Wealth Distribution in Germany“ |
Suchmaschinen verstehen weder die Zahlen selbst noch deren Maßeinheiten. Dies wird noch deutlicher, wenn man mit physikalisch-technischen Quantitäten sucht, etwa nach Hybridautos mit einer Batteriereichweite von mindestens 100 km oder nach Autos mit einem städtischen Energieverbrauch von weniger als 5 l auf100 km oder 44 kWh auf 100 km oder mindestens 47 MPG(e) (Miles Per Gallon (equivalent)). Die Erkennung der Einheiten und notwendigen Konversionen sollten dabei automatisch erfolgen.
Qsearch: Grundlagenforschung und ein erstes Prototypsystem
Unser Team am Max-Planck-Institut für Informatik hat sich als Ziel gesetzt, diese Schwächen zu überwinden und damit die Weichen zur nächsten Generation von Suchmaschinen 4.0 zu stellen. Dafür ist ein Forschungsprogramm nötig, das sowohl neue grundlegende Methoden für die Suche mit Quantitäten als auch prototypische Softwareentwicklung und Experimente umfasst. Ein erstes Zwischenresultat ist das Prototypsystem Qsearch, das als Demonstrator online unter https://qsearch.mpi-inf.mpg.de verfügbar ist. Abbildung 1 zeigt ein Beispiel.
Zerlegung der Anfrage: Drei Komponenten müssen identifiziert werden: der semantische Typ der gewünschten Treffer (zum Beispiel Gebäude oder Hybridautos oder Diabetesmedikamente), die zu erfüllende Bedingung für eine Quantität und der relevante Kontext (zum Beispiel der CO2-Footprint eines Elektroautomodells in Deutschland vs. Kalifornien vs. China im Jahr 2019).
Extraktion von Trefferkandidaten: Mit Textsuchalgorithmen werden Sätze oder kurze Passagen identifiziert, die eine Entität des gewünschten Antworttyps, eine Quantität (Zahl und Maßeinheit) und Hinweise auf den Fragekontext enthalten. Dies ist nicht nur wegen der riesigen Datenmengen im Internet sehr aufwändig, sondern vor allem aufgrund der extrem diversen und oft irreführenden Textformulierungen hoch komplex. So liefert der Satz „the battery of the hybrid Toyota Prius lasts well over 100,000 miles” keinen korrekten Hinweis auf die Reichweite einer Batterieladung. Um solche Fehler möglichst auszuschließen, haben wir maschinelle Lernverfahren trainiert, die mit neuronalen Netzen berechnen, wie man die Spreu vom Weizen trennt.
Berechnung der Rangliste: Die Methode, um mit verrauschten und teilweise fehlerhaften Trefferkandidaten umzugehen, ist bei Suchmaschinen das finale Ranking, sodass die vermutlich korrekten Treffer in der Rangliste vorne platziert werden. Unsere statistischen Verfahren aggregieren Konfidenzwerte, die in sogenannte Learning-to-Rank-Algorithmen einfließen.
Der Traum des Analysten
Suchmaschinen und Wissensbanken haben das Potenzial, die Produktivität und Qualität von intellektuell anspruchsvollen Informationsanalysen zu verbessern. Welches ist das energiegünstigste Hybridauto? Wie vergleicht sich die CO2-Bilanz japanischer Automodelle gegenüber amerikanischen Autos bei der Fahrt in US-Großstädten? Wie viel Geld spart der britische Bürger durch den Brexit wirklich? Welche Abdeckungen erreichen welche Arten von Impfungen in den 50 größten Ländern der Erde?
Für derartige Studien müssen Analysten auf spezialisierte Datenbanken zurückgreifen, die aber oft unvollständig, veraltet oder einseitig sind. Im Prinzip enthält das Internet wesentlich mehr Informationsquellen. Diese Wissensfülle präzise und kompakt mit Algorithmen bereitzustellen, ist unser Langzeitziel.
Literaturhinweise
International Semantic Web Conference (ISWC), 237 (2019)
ACM International Conference on Web Search and Data Mining (WSDM) 2020