Forschungsbericht 2019 - Max-Planck-Institut für Informatik

Suchmaschinen von übermorgen

Autoren

Weikum, Gerhard

Abteilungen

D5 - Databases and Information Systems

Zusammenfassung

Die nächste Generation von Suchmaschinen sollte quantitative Maße von Entitäten verstehen. Zum Beispiel sollte man alle Unternehmer mit einem Vermögen zwischen 1 und 10 Milliarden Euro finden können, und man sollte punktgenaue Antworten über Elektroautos erhalten, deren CO2-Bilanz unter 5kg/100km liegt. Wir entwickeln Algorithmen und Lernverfahren, die dies ermöglichen. Unser Qsearch-Prototyp unterstützt die Suche nach finanziellen, technischen und physikalischen Quantitäten. Das Langzeitziel ist, dass Analysten Internet-Inhalte auf Knopfdruck für anspruchsvolle Studien nutzen können.

Stand der Kunst: Semantische Suche

Suchmaschinen haben sich in den letzten drei Jahrzehnten eindrucksvoll weiterentwickelt. Nach der ersten Generation vor der Jahrtausendwende wurden vor allem die Erschließung und effiziente Suche von Texten verbessert. Der wichtigste Trend der dritten Generation im letzten Jahrzehnt war der Schritt zum Verständnis von Entitäten.

In Webseiten und Nutzeranfragen kommen häufig Namen von Personen, Organisationen, Orten, Produkten oder Ereignissen vor. Allgemein spricht man von Entitäten. Deren Bezeichnungen in Textform sind aber oft mehrdeutig, beispielsweise Alibaba, Ma oder Brazil World Cup. Wenn man diesen Namen aufgrund ihres Kontextes eindeutige Entitäten einer Wissensbank zuordnet und damit die Mehrdeutigkeit auflöst, kann die Suchmaschine selbst für anspruchsvolle Fragen punktgenaue Antworten geben. Für die genannten Beispiele wären dies etwa Alibaba Group Holding Limited, Jack Ma und der 2014 FIFA World Cup.

Weitere Beispiele:

Suche: „Höhe des Eiffelturms“		Antwort: 324 Meter
Suche: „höchstes Gebäude in Paris“		Antwort: Eiffelturm
Suche: „CEO von Amazon“		Antwort: Jeff Bezos
Suche: „Vermögen von Bezos“		Antwort: 108,9 Milliarden USD
Suche: „CEOs von IT-Unternehmen“		Antwort: Jeff Bezos, Sundar Pichai, Ginny Rometti, Zhang Yong, …

Ermöglicht wurde dies durch die automatische Konstruktion umfassender Wissensbanken, ein Trend, zu dem das vor 15 Jahren begonnene YAGO-NAGA-Projekt am Max-Planck-Institut für Informatik wesentlich beigetragen hat. Heute haben alle großen Suchmaschinen (Google, Bing, Baidu etc.) im Hintergrund eine Wissensbank (Knowledge Graphs), und auch andere Unternehmen, wie Amazon, Alibaba etc., setzen auf diese Art von KI-Technologie.

Neue Herausforderung: Suche mit Quantitäten

Ein Typus von Anfragen, zu denen es bislang wenig Forschung gibt, ist die Suche mit Quantitäten: Maße für finanzielle, physikalische oder technisch-ökologische Eigenschaften von Entitäten, wie das Vermögen von Unternehmern, der Energieverbrauch von Autos, die Wärmeleitfähigkeit von Materialien oder die übliche und die maximale Dosierung von Medikamenten.

Suchmaschinen liefern gute Antworten, wenn man den Wert solcher Quantitäten für eine gegebene Entität wissen will (beispielsweise die Höhe des Eiffelturms). Wenn man aber alle Entitäten sucht, die eine quantitative Bedingung erfüllen (zum Beispiel Gebäude über 500 Meter), liefern Suchmaschinen nur Links auf Webseiten, die man manuell durchforsten muss.

Beispiele:

Suche:	„Personen mit einem Vermögen über 50 Milliarden USD“
	Antwort: Links auf Webseiten wie z.B. „Meet the world’s 50 richest billionaires in 2019“

Suche:	„Personen mit einem Vermögen zwischen 10 und 50 Milliarden Euro“
	Antwort: eine Mixtur aus Webseiten über Milliardäre generell und Nachrichtenartikeln wie z.B. „Inequality and Wealth Distribution in Germany“

Suchmaschinen verstehen weder die Zahlen selbst noch deren Maßeinheiten. Dies wird noch deutlicher, wenn man mit physikalisch-technischen Quantitäten sucht, etwa nach Hybridautos mit einer Batteriereichweite von mindestens 100 km oder nach Autos mit einem städtischen Energieverbrauch von weniger als 5 l auf100 km oder 44 kWh auf 100 km oder mindestens 47 MPG(e) (Miles Per Gallon (equivalent)). Die Erkennung der Einheiten und notwendigen Konversionen sollten dabei automatisch erfolgen.

Qsearch: Grundlagenforschung und ein erstes Prototypsystem

Unser Team am Max-Planck-Institut für Informatik hat sich als Ziel gesetzt, diese Schwächen zu überwinden und damit die Weichen zur nächsten Generation von Suchmaschinen 4.0 zu stellen. Dafür ist ein Forschungsprogramm nötig, das sowohl neue grundlegende Methoden für die Suche mit Quantitäten als auch prototypische Softwareentwicklung und Experimente umfasst. Ein erstes Zwischenresultat ist das Prototypsystem Qsearch, das als Demonstrator online unter https://qsearch.mpi-inf.mpg.de verfügbar ist. Abbildung 1 zeigt ein Beispiel.

Abb.1: Screenshot des Qsearch-Prototypsystems — **Abb.1:** Screenshot des Qsearch-Prototypsystems

© MPI-INF

**Abb.1:** Screenshot des Qsearch-Prototypsystems

© MPI-INF

Zerlegung der Anfrage: Drei Komponenten müssen identifiziert werden: der semantische Typ der gewünschten Treffer (zum Beispiel Gebäude oder Hybridautos oder Diabetesmedikamente), die zu erfüllende Bedingung für eine Quantität und der relevante Kontext (zum Beispiel der CO₂-Footprint eines Elektroautomodells in Deutschland vs. Kalifornien vs. China im Jahr 2019).

Extraktion von Trefferkandidaten: Mit Textsuchalgorithmen werden Sätze oder kurze Passagen identifiziert, die eine Entität des gewünschten Antworttyps, eine Quantität (Zahl und Maßeinheit) und Hinweise auf den Fragekontext enthalten. Dies ist nicht nur wegen der riesigen Datenmengen im Internet sehr aufwändig, sondern vor allem aufgrund der extrem diversen und oft irreführenden Textformulierungen hoch komplex. So liefert der Satz „the battery of the hybrid Toyota Prius lasts well over 100,000 miles” keinen korrekten Hinweis auf die Reichweite einer Batterieladung. Um solche Fehler möglichst auszuschließen, haben wir maschinelle Lernverfahren trainiert, die mit neuronalen Netzen berechnen, wie man die Spreu vom Weizen trennt.

Berechnung der Rangliste: Die Methode, um mit verrauschten und teilweise fehlerhaften Trefferkandidaten umzugehen, ist bei Suchmaschinen das finale Ranking, sodass die vermutlich korrekten Treffer in der Rangliste vorne platziert werden. Unsere statistischen Verfahren aggregieren Konfidenzwerte, die in sogenannte Learning-to-Rank-Algorithmen einfließen.

Der Traum des Analysten

Suchmaschinen und Wissensbanken haben das Potenzial, die Produktivität und Qualität von intellektuell anspruchsvollen Informationsanalysen zu verbessern. Welches ist das energiegünstigste Hybridauto? Wie vergleicht sich die CO₂-Bilanz japanischer Automodelle gegenüber amerikanischen Autos bei der Fahrt in US-Großstädten? Wie viel Geld spart der britische Bürger durch den Brexit wirklich? Welche Abdeckungen erreichen welche Arten von Impfungen in den 50 größten Ländern der Erde?

Für derartige Studien müssen Analysten auf spezialisierte Datenbanken zurückgreifen, die aber oft unvollständig, veraltet oder einseitig sind. Im Prinzip enthält das Internet wesentlich mehr Informationsquellen. Diese Wissensfülle präzise und kompakt mit Algorithmen bereitzustellen, ist unser Langzeitziel.

Literaturhinweise

Fridman Noy, N., Gao, Y., Jain, A., Anant, N., Patterson, A., Taylor, J.

Industry-scale Knowledge Graphs: Lessons and Challenges

Communications of the ACM 62(8), 36 (2019)

Weikum, G., Hoffart, J., Suchanek, F. M.

Knowledge Harvesting: Achievements and Challenges. In: Computing and Software Science - State of the Art and Perspectives

Lecture Notes in Computer Science 10000, 217, Springer, Heidelberg 2019

Ho, V. T., Ibrahim, Y., Pal, K., Berberich, K., Weikum, G.

Qsearch: Answering Quantity Queries from Text

International Semantic Web Conference (ISWC), 237 (2019)

Ho, V..T., Pal, K., Kleer, N., Berberich, K.,Weikum, G.

Entities with Quantities: Extraction, Search, and Ranking

ACM International Conference on Web Search and Data Mining (WSDM) 2020