23.11.2022

MLPerf™ HPC Benchmark: Helmholtz AI Rechnerinfrastruktur auf die Probe gestellt

Forschende der Plattform Helmholtz AI aus dem SCC und dem JSC haben erneut ihre Ergebnisse gemeinsam in die MLPerf™ HPC Benchmarking Suite eingebracht und konnten so zeigen, dass ihre HPC-Systeme mit den leistungsfähigsten KI-Chips arbeiten.

Supercomputer mit Nvidia Beschleuniger (hier in der Future Technologies Partition des HoreKa am KIT) sind super leistungsfähige KI-Rechner (Foto: S. Raffeiner)

Die rasante Entwicklung von KI-Methoden und -Tools kann es schwierig machen, mit den real verfügbaren Möglichkeiten der Computertechnologie Schritt zu halten und noch schwieriger ist es, die beste Wahl für eine bestimmte KI-Aufgabe zu treffen. Aus diesem Grund sind Benchmarking-Werte der Schlüssel zum Vergleich und damit zur Auswahl der besten verfügbaren Option für KI Probleme. Benchmarking-Plattformen geben unter anderem einen Gesamtüberblick über relevante Aspekte wie Leistung, Umweltauswirkungen, Effizienz und Trainingsgeschwindigkeit.

Aus diesem Grund haben Forschende der Plattform Helmholtz AI aus dem Scientific Computing Center (SCC) am Karlsruher Institut für Technologie (KIT) und dem Jülich Supercomputing Centre (JSC) am Forschungszentrum Jülich wie im vergangenen Jahr ihre Ergebnisse gemeinsam in die MLPerf™ HPC Benchmarking Suite eingebracht. Die Gruppe ist stolz zu verkünden, dass die HPC-Infrastrukturen an deren Helmholtz-Zentren mit den leistungsfähigsten KI-Chips ausgestattet sind.

Die Helmholtz-KI-Mitglieder Daniel Coquelin, Katharina Flügel und Markus Götz vom SCC sowie Jan Ebert, Chelsea John und Stefan Kesselheim vom JSC koordinierten gemeinsam die Einreichung. Die Ergebnisse beziehen sich auf beide Einheiten in diesen Zentren: den Supercomputer HoreKa am SCC und den JUWELS Booster am JSC. Beide sind mit Beschleunigern vom Typ NVIDIA A100 ausgestattet, die laut Benchmark die beste Leistung erbringen. Der JUWELS Booster verwendete für diese Messungen sogar bis zu 3.072 NVIDIA A100 GPUs.

Die MLPerf™ HPC-Benchmarking-Suite bietet den Wissenschaftlerinnen und Wissenschaftlern eine großartige Gelegenheit code- als auch systembasierte Optimierungsmethoden und -werkzeuge aufs feinste abzustimmen. So konnten sie die Performance beispielsweise mit dem CosmoFlow-Benchmark (Physical Quantity Estimation From Cosmological Image Data) im Vergleich zum letzten Jahr um über 300 % verbessern. Bei der Feinabstimmung der IO-Operationen fanden sie beispielsweise Möglichkeiten, wie die Dateisysteme eine schnellere und zuverlässigere Lese- und Schreibleistung erbringen können. Dank dieser Ergebnisse erreichte der Supercomputer HoreKa in den jüngsten CosmoFlow-Benchmark-Ergebnissen, die unter anderem in IEEE Spectrum und HPCWire gezeigt wurden, den zweiten Platz hinter NVIDIAs Selene-System und den ersten Platz für Forschungs- und Lehreeinrichtungen in Bezug auf die schnellste Trainingszeit. Dabei konnten sogar größere Systeme wie RIKENs Fugaku übertroffen werden.

Da die Auswirkungen des Klimawandels immer offensichtlicher werden, ist es auch unerlässlich, dass man den ökologischen Fußabdruck bewusster gestaltet, insbesondere im Hinblick auf den Energieverbrauch. Zu diesem Zweck haben die Systemadministratoren von HoreKa den Einsatz des Lenovo XClarity Controllers zur Messung des Energieverbrauchs der Rechenknoten* aktiviert. Für die Einreichungsläufe auf dem HoreKa wurden 1.127,8 kWh verbraucht. Das ist mehr Leistung, als man braucht, um mit einem durchschnittlichen Elektroauto von Portugal nach Finnland zu fahren.

Die MLPerf™ HPC-Benchmarking Suite ist dabei essentiell, um den Nutzen der HPC-Maschinen für moderne KI-Arbeitsabläufe zu ermitteln. Das Helmholtz-AI-Team freut sich darauf, nächstes Jahr wieder mitzumachen.

Kontakt am SCC: Dr. Markus Götz

*Diese Messung umfasst nicht alle Teile des Systems und ist keine offizielle MLCommons-Methode, bietet jedoch einen Mindestmesswert für den Energieverbrauch auf dem System. Da jedes System anders konfiguriert ist, können diese Ergebnisse nicht direkt auf andere Einreichungen übertragen werden.

Achim Grindler