Home | Sitemap | english  | Impressum | Datenschutz | KIT

bwUniCluster 2.0+GFB-HPC

Ansicht des Komplettsystems bwUniCluster 2.0+GFB-HPC
Das neue System bwUniCluster 2.0

Das SCC nimmt am 17.03.2020 im Rahmen des baden-württembergischen Umsetzungskonzepts für Hochleistungsrechnen (bwHPC) das neue Parallelrechnersystem „bwUniCluster 2.0+GFB-HPC“ (kurz bwUniCluster 2.0) als Landesdienst in Betrieb. Der bwUniCluster 2.0 ersetzt das Vorgängersystem „bwUniCluster“ und umfasst auch die im November 2016 beschaffte Erweiterung des Vorgängersystems.

Das moderne, erweiterte HPC-System besteht aus mehr als 840 SMP-Knoten mit 64-bit Xeon Prozessoren von Intel. Es dient der Grundversorgung der Universitäten des Landes Baden-Württemberg mit Rechenleistung und kann von den Mitarbeiterinnen und Mitarbeitern aller Universitäten in Baden-Württemberg unentgeltlich genutzt werden.

Die Zugangsberechtigung zu diesem System regelt jede Landesuniversität für ihre Mitarbeiter/innen selbst. Nutzer, welche derzeit Zugang zum bwUniCluster 1 haben, werden automatisch auch Zugang zum bwUniCluster 2.0 haben. Die Beantragung neuer Entitlements oder eine Neuregistrierung sind nicht nötig. Weitere Details bezüglich Registrierung und Zugang zu diesem Landesdienst sind unter wiki.bwhpc.de/e/bwUniCluster_2.0 verfügbar.


Konfiguration des Systems

Der bwUniCluster 2.0 beinhaltet

  • 4 Login-Knoten mit jeweils 40 Cores in "Cascade Lake"-Architektur mit 384 GB Hauptspeicher pro Knoten,
  • 2 Login-Knoten mit jeweils 20 Cores in "Broadwell"-Architektur und 128 GB Hauptspeicher pro Knoten,
  • 100  HTC Rechenknoten (Cascade Lake) mit jeweils 40 Cores mit  96 GB Hauptspeicher pro Knoten,
  • 360 HPC Rechenknoten (Cascade Lake) mit jeweils 40 Cores mit  96 GB Hauptspeicher pro Knoten,
  • 8 "fette" Rechenknoten (Cascade Lake) mit jeweils 80 Cores mit  3TB Hauptspeicher pro Knoten,
  • 14 GPU Rechenknoten (Cascade Lake) mit jeweils 40 Cores mit  384 GB Hauptspeicher pro Knoten und 4X Nvidia Tesla V100 (32GB),
  • 10 GPU Rechenknoten (Cascade Lake) mit jeweils 40 Cores mit  768 GB Hauptspeicher pro Knoten und 8X Nvidia Tesla V100 (32GB),
  • 352 Rechenknoten (Broadwell) mit jeweils 28 Cores mit 128 GB Hauptspeicher pro Knoten (alte bwUnicluster Erweiterung).

 

Als Verbindungsnetzwerk kommt InfiniBand in verschiedenen Generationen und Ausbaustufen zum Einsatz:

  • Die „High Throughput“ und „fetten“ Knoten sind mit InfiniBand HDR100 mit 100 Gbit/s verbunden. Da diese Knoten nicht für Jobs vorgesehen sind, welche mehr als einen Knoten belegen, weist die Netzwerktopologie in diesem Bereich einen hohen Blocking-Faktor auf.

  • Die „HPC“- und „GPU“-Knoten sind mit InfiniBand HDR100 mit 100 Gbit/s verbunden. Da diese Knoten für parallele Jobs vorgesehen sind, weist die Netzwerktopologie in diesem Bereich keinen Blocking-Faktor auf.

  • Die „HPC“-Knoten der Erweiterungspartition sind mit InfiniBand FDR mit 56 Gbit/s ohne Blocking-Faktor verbunden.

  • Die Anbindung an die Dateisysteme erfolgt mittels InfiniBand EDR mit 100 Gbit/s.

Der bwUniCluster 2.0 ist ein massiv paralleler Parallelrechner mit insgesamt 848 Knoten. Über das Gesamtsystem hinweg ergeben sich eine theoretische Spitzenleistung von ca. 1,4 PetaFLOPS und ein Gesamtspeicherausbau von ca. 119 TB.

Das Basisbetriebssystem auf jedem Knoten ist ein Red Hat Enterprise Linux (RHEL) 7.x. Als Managementsoftware für den Cluster dient KITE, eine am SCC entwickelte Softwareumgebung für den Betrieb heterogener Rechencluster.

Als globales Dateisystem wird das skalierbare, parallele Dateisystem Lustre über ein separates InfiniBand Netzwerk angebunden. Durch die Nutzung mehrerer Lustre Object Storage Target (OST) Server und Meta Data Server (MDS) werden sowohl eine hohe Skalierbarkeit als auch eine Redundanz beim Ausfall einzelner Server erreicht. Die zusammen mit dem bwUniCluster 2.0+GFB-HPC neu beschafften paralleln Dateisystem haben eine Gesamtkapazität von ca. 5 PetaByte bei einem Gesamtdurchsatz von ca. 72 Gigabyte pro Sekunde.

Detaillierte Kurzbeschreibung der Knoten:

  • Dünne Knoten (HTC+HPC): 2x Intel Xeon Gold 6230 (20 Kerne, 2,1 GHz - 125 Watt TDP), 96 GiB RAM (DDR4), 960 GB SATA SSD, 1x InfiniBand HDR 100
  • Dicke Knoten (HTC): 4x Intel Xeon Gold 6230 (20 Kerne, 2,1 GHz - 125 Watt TDP), 3 TiB RAM (DDR4), 4.8 TB NVMe, 2x InfiniBand HDR 100
  • 4-GPU-Knoten: 2x Intel Xeon Gold 6230 (20 Kerne, 2,1 GHz - 125 Watt TDP), 384 GiB RAM, 3.2 TB NVMe, 2x InfiniBand HDR 100 HDA, 4x Tesla V100 32GB NVLINK
  • 8-GPU-Knoten: 2x Intel Xeon Gold 6248 (20 Kerne, 2,5 GHz - 125 Watt TDP), 768 GiB RAM, 6.4 TB NVMe, 4x InfiniBand HDR 100 HDA, 8x Tesla V100 32GB NVLINK, 
  • InfiniBand-Netz: Mixed HDR 100/200 (zwei Knoten mit Splitterkabel an einem Switch-Port), EDR im Filesystem
  • 352 28-Wege (Rechen-)Knoten mit jeweils 2 14-Core Intel Xeon E5-2660 v4 Prozessoren (Broadwell) mit einer Standard-Taktfrequenz von 2,0 GHz, 128 GB Hauptspeicher und 480 GB lokaler SSD.

Access & Support

Wichtige Informationen für die Benutzung des bwUniCluster

Hotline per E-Mail, Telefon und Ticketsytem

  • +49 721 608-48011