08.04.2022

NHR@KIT nimmt ersten NVIDIA Arm Development Cluster weltweit in Betrieb

Das neue NVIDIA-Arm-Cluster reiht sich in eine stetig weiter wachsende Zahl von Entwicklungssystemen für Zukunftstechnologien ein.

Eines der neuen NVIDIA Arm HPC Development Kits. Oben die beiden NVIDIA A100 GPUs, rechts die beiden BlueField-2 DPUs. Der Arm-Prozessor steckt unter der Platine an der Unterseite. (Foto: S. Raffeiner)

Ob im Ingenieurwesen, den Lebenswissenschaften, der Astrophysik oder der Materialforschung – in kaum einem Fachbereich ist Spitzenforschung heute noch ohne leistungsfähige Supercomputer möglich. Das Nationale Hochleistungsrechenzentrum des Karlsruher Instituts für Technologie (NHR@KIT ) betreibt gleich mehrere solcher Systeme für Forschende aus ganz Deutschland.

Der Großteil der weltweit betriebenen Supercomputer setzte im letzten Jahrzehnt auf nur zwei unterschiedliche Hardware-Architekturen von drei verschiedenen Herstellern. Intel und AMD dominieren mit ihrer sogenannten „x86“-Architektur den Markt für Hochleistungsprozessoren (CPUs), die Beschleuniger-Chips (GPUs) stammen fast immer von NVIDIA. Diese „Monokultur“ erleichtert den Nutzenden zwar den Wechsel zwischen den Systemen, andererseits bleibt aber auch das Potential alternativer Architekturen, die möglicherweise eine vielfach höhere Leistung und Energieefizienz erreichen können, ungenutzt.

Um diese Potentiale auszuschöpfen, ist es wichtig, Nutzenden wie auch Betreibern die Möglichkeit zu geben, diese alternativen Architekturen auf einfache Art und Weise und unter realen Bedingungen zu evaluieren. Ein zentraler Bestandteil von NHR@KIT ist daher die sogenannte „Future Technologies Partition“, ein Hard- und Software-Testbett für neuartige, disruptive Technologien die noch keine Marktdurchdringung erreicht haben und in den großen Hochleistungsrechnern deswegen noch nicht verfügbar sind. Zu dieser Kategorie gehören auch Prozessoren mit der Arm-Architektur. Diese Architektur kommt mittlerweile nicht mehr nur in Mobiltelefonen zum Einsatz, sondern beispielsweise auch im derzeit schnellsten Supercomputer der Welt, dem japanischen „Fugaku“, oder in aktuellen Systemen von Apple.

Auch NVIDIA plant für das Jahr 2023 den Einstieg in die Herstellung von Hochleistungsprozessoren auf Basis der Arm-Architektur. Diese sollen zusammen mit der nächsten GPU-Generation (Codename „Hopper“) in zukünftigen Supercomputern zum Einsatz kommen. Um bereits jetzt die Portierung von Anwendungen zu ermöglichen, bietet NVIDIA seinen Partnern spezielle Entwicklungssysteme (NVIDIA Arm HPC Developer Kits) an. Jedes dieser Kits besteht aus einem Arm-Prozessor des Herstellers Ampere mit 80 CPU-Kernen, zwei NVIDIA A100 Beschleunigern und zwei BlueField-2 Data Processing Units (DPU) mit InfiniBand-Anschluss.

NVIDIA Rack
Eines der Racks der Future Technologies Partition,
in dem die neuen Systeme installiert wurden.

„Die Übertragbarkeit der in der Future Technologies Partition gewonnenen Ergebnisse ist uns sehr wichtig“, so Simon Raffeiner, Technischer Leiter des HPC-Bereichs bei NHR@KIT. „Die meisten Berechnungen auf den großen Hauptsystemen wie HoreKa laufen auf mehr als nur einem einzigen Serversystem gleichzeitig. Daher hat das KIT als einziger Standort weltweit nicht nur ein einziges NVIDIA Arm Developer Kit beschafft, sondern ein ganzes Cluster. Nur so ist es Nutzenden möglich, ihre Anwendungen unter realistischen und vergleichbaren Bedingungen zu testen.“

Die neuen Systeme reihen sich in eine stetig weiter wachsende Zahl von Entwicklungssystemen in der Future Technologies Partition ein. Dazu gehören beispielsweise auch spezielle Beschleuniger für Künstliche Intelligenz und Machine Learning (KI/ML) des Herstellers Graphcore, bereits existierende Arm-Systeme oder neuartige All-Flash-Datenspeicher.

„Wir versuchen die Systeme soweit möglich symmetrisch auszulegen“, erklärt Raffeiner weiter. „Wenn es beispielsweise ein System mit einer x86-CPU und NVIDIA-GPUs gibt, dann gibt es auch ein System mit einer Arm-CPU und NVIDIA-GPUs.“ Um die aktuelle Matrix der Systeme zu vervollständigen, seien beispielsweise auch Arm-Systeme mit AMD-GPUs im Zulauf - eine Kombination, die so sonst noch nirgends im Einsatz sei. „Wir portieren auch unseren eigenen Cluster-Software-Stack auf die Arm-Architektur, damit die Unterschiede in puncto Software möglichst klein ausfallen.“

Im Idealfall sollen die Nutzenden gar nicht bemerken, dass sie eine andere Hardware-Architektur benutzen, und sich auf die Portierung und Vermessung ihrer Anwendungen konzentrieren können. Bis dahin sei es aber oft ein weiter Weg. „Wir können derzeit beispielsweise nur über Umwege auf eines der großen parallelen Dateisysteme zugreifen, weil der Hersteller noch keine Version für Arm-Systeme anbietet. Hier arbeiten wir gemeinsam an einer Lösung.“ Das Ergebnis käme dann auch anderen Betreibern zu Gute, die erst später auf solche neuartigen Architekturen umsteigen. Die neuen Systeme werden derzeit in Zusammenarbeit mit NVIDIA mit passender Software versehen und stehen den Nutzenden voraussichtlich in wenigen Wochen zur Verfügung.

Weitere Informationen zur Future Technologies Partition, zu HoreKa und dem Nationalen Hochleistungsrechenzentrum NHR@KIT finden Sie unter www.nhr.kit.edu/
 

Kontakt am SCC: Simon Raffeiner

 

 

Achim Grindler