Forschungsbericht 2021 - Max-Planck-Institut für Informatik

Aufbau optischer Rechenzentrumsnetze für die Cloud der Zukunft

Autoren
Xia, Yiting
Abteilungen
Max-Planck-Institut für Informatik, Saarbrücken
Forschungsgruppe Network and Cloud Systems
Zusammenfassung
Netzwerke auf Basis optischer Switches sind die aktuell mögliche Spitzentechnologie zum Aufbau einer Netzinfrastruktur für das Cloud Computing. Sie bergen sowohl großes Potenzial als auch Herausforderungen bei der Realisierung. Am MPI für Informatik entwickeln wir Verfahren für den praktischen Einsatz dieser Netzwerke, um den ständig steigenden Anforderungen der Nutzer von Cloud-Anwendungen in der Zukunft gerecht zu werden.
 

Fast alle Online-Dienste, die wir heute nutzen, darunter Suchmaschinen, soziale Netzwerke, Online-Shopping und Videostreaming, werden in Cloud-Rechenzentren auf der ganzen Welt gehostet. Diese Dienste führen im Backend anspruchsvolle Berechnungen durch, die die Rechenleistung eines einzelnen Computers übersteigen. Die Rechenzentren stellen Hunderttausende von Computerservern bereit, die koordiniert arbeiten, um diese Dienste zu erbringen. Ein leistungsfähiges Netz, das so genannte Rechenzentrumsnetzwerk, verbindet diese Server miteinander, um eine Hochgeschwindigkeits-Datenkommunikation zwischen ihnen zu ermöglichen.

Das Netz eines Rechenzentrums ist vergleichbar mit einem Autobahnnetz: Die Server entsprechen den Städten, die Netzverbindungen den Autobahnen, die elektrischen Netzschalter den Autobahnkreuzen und der über die Netzverbindungen übertragene Datenverkehr dem Fahrzeugverkehr . Mit der wachsenden Zahl von Benutzern und Diensten steigt der jährliche Datenverkehr exponentiell an, und die Netzwerke der Rechenzentren werden ständig erweitert, um eine höhere Bandbreite, mehr Netzwerkverbindungen, mehr Netzwerk-Switches und mehr Server zu unterstützen.

Der Erfolg von Rechenzentrums-Netzwerken in den letzten zehn Jahren ist weitgehend auf die freie Skalierung der elektrischen Netzwerk-Switches zurückzuführen – die Bandbreite elektrischer Switches verdoppelt sich alle zwei Jahre bei gleichen Kosten und gleicher Leistung [1]. In den letzten Jahren hat sich die Skalierung jedoch verlangsamt, so dass elektrische Switches zum Engpass für die Weiterentwicklung von Rechenzentrumsnetzen geworden sind. Optische Rechenzentrums-Netzwerke werden daher vorgeschlagen, um elektrische durch optische Switches zu ersetzen, die erhebliche Kosten-, Energie- und Leistungsvorteile bieten. In der Forschungsgruppe für Cloud- und Netzwerksysteme am MPI-INF entwickeln wir aktiv optische Netzwerklösungen für Rechenzentren, um die wachsende Nachfrage nach zukünftigen Cloud-Diensten zu bedienen.

Eine Technologie für die Zukunft

Optische Datenzentren mit 400 Gbps sind heute Standard. Das ist 8000-mal schneller als das typische 50-Mbps-DSL-Internet zu Hause! Bei den meisten optischen Switches handelt es sich um passive Geräte, die im Betrieb nur wenig Strom verbrauchen. Außerdem haben sie eine größere Spannweite für den Anschluss von mehr Servern als herkömmliche elektrische Switches, so dass die Kosten für den Anschluss jedes Servers niedriger sind. Jüngste Studien zeigen, dass der Aufbau optischer Rechenzentrums-Netzwerke mit optischen Switches etwa 50 % der Kosten [1] und 75 % des Stromverbrauchs [2] einsparen kann.

Optische Rechenzentrumsnetze sind in hohem Maße erweiterbar. Optische Switches haben keine Bandbreitenbegrenzung, und ihre Kapazität wird allein durch die Sendegeschwindigkeit der angeschlossenen Server bestimmt. Dies ist wie eine nie überfüllte Autobahn, auf der sich der gesamte Verkehr immer mit der Geschwindigkeit der Autos fortbewegen kann.

Optische Rechenzentrumsnetze sind im Idealfall hochflexibel. Optische Switches können Schaltkreise nach Bedarf aufbauen, und zwar dort, wo die Datenübertragung benötigt wird. Man könnte dies mit einem flexiblen Autobahnsystem vergleichen, bei dem die Straßen beliebig verlegt werden können. Einige unserer früheren Arbeiten machten sich diese Eigenschaft zunutze, um die Leistung des Netzes zu verbessern: Während der Hauptverkehrszeit können nicht ausgelastete Straßen an eine überlastete Stelle verlegt werden, um den Stau abzumildern [3]. Wenn eine Straße kaputt ist, können ungenutzte Straßen ausgeliehen werden, anstatt die Autos zu zwingen, längere Strecken zu fahren [4, 5].

Herausforderungen bei der Einführung

Trotz der oben genannten Vorzüge bringen optische Netze für Rechenzentren grundlegende Veränderungen bei der Datenübertragung mit sich. Im Gegensatz zu den herkömmlichen Netzwerken mit gemeinsam genutzter Bandbreite, die immer eingeschaltet sind, werden bei optischen Rechenzentrumsnetzwerken dedizierte Verbindungen zwischen dem Datensender und -empfänger hergestellt, bevor die Kommunikation stattfinden kann. Das ist so, als würde man zu einem beliebigen Ort fahren, wann immer man will, mit dem Risiko, mit anderen Autos im Stau zu stehen, im Gegensatz zu einer Privatspur zur Zielstadt, die man ganz für sich allein hat, aber nur in einem zugewiesenen Zeitraum. Dieser Unterschied macht die meisten herkömmlichen Netzkonzepte für optische Rechenzentrumsnetze unbrauchbar. Die Kommunikationssoftware auf den Endservern muss umgestaltet werden, um sich an diese neue Art der Datenübertragung anzupassen. Z. B. müssen die Server netzweit koordiniert werden, um zu wissen, wann sie mit wem und wie lange sprechen können. Das ist genauso schwierig, wie allen Autofahrern in einer Stadt den Fahrplan mitzuteilen und sicherzustellen, dass ihre Uhren genau gleich gehen.

Optische Netze für Rechenzentren wurden bisher nur in Labors getestet. Die derzeitigen Tests konzentrieren sich hauptsächlich auf die Kernnetzinfrastruktur, ohne die vollständige Integration der Endserver. Viele potenzielle Probleme sind somit noch unbekannt. Dies führt zu einem „Henne-Ei“-Problem: Ohne vollständige Tests werden Cloud-Anbieter nicht davon überzeugt sein, optische Rechenzentrumsnetze einzusetzen, während ohne einen realen Einsatz in der Produktion viele praktische Probleme nicht aufgedeckt werden können, um die Technologie zu verbessern.

Der Weg in die Zukunft

Das optische Rechenzentrumsnetzwerk ist ein neues Design, zu dem sich die Cloud-Infrastruktur entwickelt. Wir gehen davon aus, dass die Einführung von optischen Rechenzentrums-Netzwerken schrittweise erfolgen wird, nach iterativen Zyklen von Produktionstests in wachsendem Umfang. Am MPI-INF gehen wir diese Herausforderung von zwei Seiten an. Auf der einen Seite evaluieren wir die Anpassungsfähigkeit bestehender Netzwerkhardware an das optische Netzwerkparadigma, um zu verstehen, welche Änderungen rückwärtskompatibel sind. Auf der anderen Seite erforschen wir die grundlegenden Prinzipien optischer Rechenzentrumsnetzwerke und entwickeln die Kommunikationssoftware neu, um die Leistung mit heutiger Netzwerkhardware zu maximieren. Wenn die beiden Seiten zusammentreffen, werden wir unser Softwaresystem als Open Source zur Verfügung stellen, um es Cloud-Anbietern und akademischen Forschungsgruppen zu ermöglichen, optische Rechenzentrumsnetzwerke in Produktions- und Laborumgebungen einzusetzen. Auf diese Weise werden mehr Probleme und Erkenntnisse aufgedeckt werden, die es erlauben die Technologie im Laufe der Zeit zu verbessern.

1.
Ballani, H.; Costa, P.; Behrendt, R.; Cletheroe, D.; Haller, I.; Jozwik, K.; Karinou, F.; Lange, S.; Shi, K.; Thomsen, B.; Williams, H.
Sirius: A Flat Datacenter Network with Nanosecond Optical Switching.
 
Proceedings of the Conference of the CM Special Interest Group on Data Communication, SIGCOMM’20, 782–797 (2020).
2.
Mellette, W. M.; Das, R.; Guo, Y.; McGuinness, R.; Snoeren, A. C.; Porter, G.
Expanding Across Time to Deliver Bandwidth Efficiency and Low Latency
 
Proceedings of the 17th USENIX Symposium on Networked Systems Design and Implantation (NSDI’20), 1-18 (2020)
3.
Xia, Y.; Sun, X. S.; Dzinamarira, S.; Wu, D.; Huang, X. S.; Ng, T. S. E.
A Tale of Two Topologies: Exploring Convertible Data Center Network Architecture with Flat-tree
 
Proceedings of the Conference of the CM Special Interest Group on Data Communication (SIGCOMM’17), 295–308 (2017)
4.
Wu, D.; Xia, Y.; Sun, X. S.; Huang, X. S.; Dzinamarira, S.; Ng, T. S. E.
Masking Failures from Application Performance in Data Center Networks with Shareable Backup
 
Proceedings of the Conference of the CM Special Interest Group on Data Communication (SIGCOMM’18), 176–190 (2018).
 
5.
Zhong, Z.; Ghobadi, M.; Khaddai, A.; Leach, J.; Xia, Y.; Zhang, Y.
Arrow: Restoration-Aware Traffic Engineering
 
Proceedings of the Conference of the CM Special Interest Group on Data Communication (SIGCOMM’21), 560–579 (2021)

Weitere interessante Beiträge

Zur Redakteursansicht