Anwenderbericht: Flüssigkeitsgekühlter HPC-Cluster von KAYTUS und NEC an der Uni Köln
Kühlen Kopf bewahren
von Clark Li
Veröffentlicht in Ausgabe 07/2025 - PRAXIS
Im Bereich der Biowissenschaften und Medizin erfordert die Forschung eine immense Rechenleistung. Neue leistungsstarke und energieeffiziente flüssigkeitsgekühlte Rechenzentren sollen den wissenschaftlichen Fortschritt voranbringen. So nutzt die Universität zu Köln flüssigkeitsgekühlte High-Performance-Cluster von KAYTUS und NEC, die die Rechenleistung des Vorgängers um das 48-fache übersteigen.
Der Anbieter von IT-Infrastruktur KAYTUS stattete im vergangenen Jahr zusammen mit NEC Deutschland, Anbieter von HPC-Systemen für wissenschaftliche und technische Anwendungen, das Rechenzentrum der Universität zu Köln mit einem hochmodernen flüssigkeitsgekühlten High-Performance-Computing-Cluster aus. Um ihre medizinische Forschung voranzutreiben, hatte die Universität den Bau des neuen Clusters RAMSES (Research Accelerator for Modeling and Simulation with Enhanced Security) initiiert, der das bisherige, veraltete System CHEOPS (Cologne High Efficient Operating Platform for Science) ersetzt.
Dieses Upgrade soll moderne Software-Anwendungen in den Bereichen Astrophysik, Quantenphysik, Biowissenschaften und Genomanalyse unterstützen. Angesichts der immensen wissenschaftlichen Rechenleistung, die für komplexe Simulationen erforderlich ist, wurde ein effektives Wärmemanagement unerlässlich. Mit den Flüssigkeitskühlungssystemen von KAYTUS und NEC konnte das Rechenzentrum der Universität die Kosten für die Kühlung um ganze 40 Prozent senken.
Zur Infrastruktur der Universität mit ihren dem wissenschaftlichen Fortschritt gewidmeten fünf Exzellenzclustern gehört das IT-Center der Universität zu Köln (ITCC), das fortschrittliche HPC-Funktionen bietet. Es beherbergte bislang den Hochleistungscomputer CHEOPS für Simulationen bei komplexen wissenschaftlichen Forschungen. Im September 2024 stellte die Universität dann ihr Nachfolgesystem RAMSES vor.
Der Anbieter von IT-Infrastruktur KAYTUS stattete im vergangenen Jahr zusammen mit NEC Deutschland, Anbieter von HPC-Systemen für wissenschaftliche und technische Anwendungen, das Rechenzentrum der Universität zu Köln mit einem hochmodernen flüssigkeitsgekühlten High-Performance-Computing-Cluster aus. Um ihre medizinische Forschung voranzutreiben, hatte die Universität den Bau des neuen Clusters RAMSES (Research Accelerator for Modeling and Simulation with Enhanced Security) initiiert, der das bisherige, veraltete System CHEOPS (Cologne High Efficient Operating Platform for Science) ersetzt.
Dieses Upgrade soll moderne Software-Anwendungen in den Bereichen Astrophysik, Quantenphysik, Biowissenschaften und Genomanalyse unterstützen. Angesichts der immensen wissenschaftlichen Rechenleistung, die für komplexe Simulationen erforderlich ist, wurde ein effektives Wärmemanagement unerlässlich. Mit den Flüssigkeitskühlungssystemen von KAYTUS und NEC konnte das Rechenzentrum der Universität die Kosten für die Kühlung um ganze 40 Prozent senken.
Zur Infrastruktur der Universität mit ihren dem wissenschaftlichen Fortschritt gewidmeten fünf Exzellenzclustern gehört das IT-Center der Universität zu Köln (ITCC), das fortschrittliche HPC-Funktionen bietet. Es beherbergte bislang den Hochleistungscomputer CHEOPS für Simulationen bei komplexen wissenschaftlichen Forschungen. Im September 2024 stellte die Universität dann ihr Nachfolgesystem RAMSES vor.
Mit Grafikprozessoren (GPUs), die für die Durchführung von Berechnungen in Bereichen wie neuronale Netze, Pharmakokinetik und Proteinstrukturvorhersage entwickelt wurden, ist RAMSES in der Lage, die kritische Herausforderung zu bewältigen, Kernkomponenten über längere Zeiträume mit hoher Rechenlast und hohen Temperaturen zu betreiben. Die Universität zu Köln hat sich für diese hochmoderne IT-Lösung entschieden, um die beste parallele und auch serielle Leistung ihres HPC-Systems zu erzielen sowie möglichst hohe Sicherheit, Zuverlässigkeit und Energieeffizienz zu gewährleisten, um ihren komplexen Forschungsanforderungen gerecht zu werden.
48-fache Leistung
RAMSES ermöglicht für die Wissenschaftler fortschrittliche Simulationen und Datenverarbeitung. Mit einer Rechenleistung von 4,8 PFLOPs – 48-mal mehr als beim Vorgänger – setzt es neue Maßstäbe für die Forschungsinfrastruktur. Das System umfasst 174 Knoten, die mit 384 CPUs mit insgesamt 31.576 Kernen und 74 GPUs ausgestattet eine CPU-Leistung von 1,7 PFLOPs sowie eine GPU-Leistung von 3,1 PFLOPs erbringen. Diese Rechenkapazität unterstützt ein breites Spektrum von Forschungsbereichen, insbesondere die Förderung der Forschungsmöglichkeiten in den Biowissenschaften und zahlreichen anderen wissenschaftlichen Disziplinen.
NEC und KAYTUS kooperierten bei der Bereitstellung des Clustersystems für RAMSES. Die Umgebung umfasst mehr als 170 Server, darunter 1U2S-, 2U2S- und AI-Server, mit mehr als 140 flüssigkeitsgekühlten Knoten, die für anspruchsvolle Anwendungen wie Gromacs für Molekulardynamiksimulationen und NWChem für computergestützte Chemie ausgelegt sind. Der Cluster umfasst flüssigkeitsgekühlte Serverschränke, eine Kühlverteilungseinheit (Cooling Distribution Unit, CDU) sowie ein komplettes Servicepaket mit Testverfahren und Implementierung, die im Zusammenspiel eine gute Performance und Energieeffizienz des Systems für intensive Forschungsaufgaben gewährleisten.
"Die Analyse von klinischen Genomdaten ist traditionell kein klassisches Anwendungsgebiet für HPC-Systeme. Das ändert sich mit RAMSES – dank einer Ende-zu-Ende-Verschlüsselung während des gesamten Berechnungsprozesses und einer maßgeschneiderten Systemarchitektur, die derzeit in Deutschland einmalig ist", erklärt Professor Dr.-Ing. Stefan Wesner, Direktor des Regionalen Rechenzentrums Köln und Leiter der Abteilung für Informatik. "Die innovativen Flüssigkeitskühlungslösungen von NEC und KAYTUS überzeugen nicht nur durch hohe Rechnerdichte, starke Rechenleistung, Energieeinsparung, hohe Effizienz und Zuverlässigkeit, sondern auch durch vielfältige Produktkonfigurationen. Die beiden Unternehmen haben eine auf die Anwendung in Forschungskooperationen zugeschnittene Systemarchitektur und ein entsprechendes Betriebsmodell entwickelt und geliefert."
RAMSES bietet eine Rechenleistung von 4,8 PFLOPs und umfasst 174 Knoten mit 384 CPUs.
Hohe Dichte und Flüssigkeitskühlung
Der HPC-Cluster der Universität zu Köln setzt eine Reihe von KAYTUS-Serverprodukten ein, um sowohl hohe Rechenleistung als auch Energieeffizienz zu erreichen. Das Kernstück des Projekts sind die neuesten flüssigkeitsgekühlten 1U2S-Knoten von KAYTUS, die jeweils mit zwei aktuellen AMD-Genova-Prozessoren ausgestattet sind, die jeweils 400 Watt pro Chip verbrauchen. Diese Knoten nutzen die Technologie der direkten Warmwasserkühlung, die den Einsatz von Systemen mit hoher Dichte in einem einzigen Serverschrank ermöglicht. Die Warmwasserkühlplatte leitet die Wärme von wichtigen Komponenten wie CPU, Speicher und VR ab, wobei die Flüssigkeitskühlung über 80 Prozent des gesamten Stromverbrauchs des Systems abdeckt. Dieser Ansatz senkt die Kosten für die Kühlung um 30 bis 40 Prozent im Vergleich zu herkömmlichen Luftkühlungsmethoden, was zu Einsparungen im Betrieb führt, während die Leistung erhalten bleibt.
Neben der Performance bieten die flüssigkeitsgekühlten Knoten auch eine bemerkenswerte Zuverlässigkeit. Ausgestattet mit einer Leckage-Erkennungstechnologie kann sich das System automatisch abschalten und Alarm auslösen, wenn ein Leck entdeckt wird, was einen effizienten Betrieb und eine effektive Wartung gewährleistet. Darüber hinaus können die Server dank der Flüssigkeitskühlung bei niedrigeren Temperaturen betrieben werden, was die Lebensdauer temperaturempfindlicher Komponenten verlängert, und die Ausfallrate verringert. Dieser proaktive Ansatz senkt die Betriebs- und Wartungskosten des Clusters und erhöht die Effizienz und Langlebigkeit des Gesamtsystems.
Datensicherheit mitgedacht
RAMSES erfüllt nicht nur die Nachfrage nach einer hochleistungsfähigen Rechenarchitektur, sondern bietet auch eine sichere IT-Umgebung, die für Bereiche wie Biowissenschaften und Medizin von entscheidender Bedeutung ist. Während beispielsweise die direkte Beobachtung von Phänomenen wie schwarzen Löchern oder Sternexplosionen unmöglich ist, machen Simulationen auf HPC-Systemen solche Forschungen möglich. Auch die Interpretation genetischer Merkmale ist so rechenintensiv, dass nur HPC-Systeme die Arbeitslast bewältigen können, und das bei gleichzeitiger Einhaltung strenger Anforderungen an die Datensicherheit.
Der KAYTUS-Server gewährleistet Systemsicherheit auf Hardwareebene, schützt wissenschaftliche Forschungsdaten und ermöglicht es Wissenschaftlern, sich auf ihre Arbeit zu konzentrieren. Die Server bieten mehrdimensionale Sicherheitsverbesserungen und einen Schutz in verschiedenen Einsatzbereichen:
- BIOS/BMC Dual-Core Redundant Design: Diese Funktion sichert die Kerndaten des Systems auf Chipebene, gewährleistet die Sicherheit per Fernzugriff und unterstützt duale Systeme mit In-Band- und Out-of-Band-Management.
- Verschlüsselte Festplatten: Bieten Sicherheit von der Hardware- bis zur Anwendungsebene. Eine Firmware-Verschlüsselung und digitale Signaturen verhindern das unbefugte Schreiben von unbekannter Firmware.
- Sichere Datenlöschung: Benutzer haben die Möglichkeit, Festplattendaten sicher zu löschen und dauerhaft zu vernichten, wodurch vollständiger Datenschutz und Vertraulichkeit gewährleistet werden.
Fazit
Der neue HPC-Cluster RAMSES stellt mit seinen 174 Knoten, 384 CPUs und 74 GPUs eine signifikante technische Verbesserung gegenüber dem Vorgänger CHEOPS dar. Die implementierte Warmwasserkühlungstechnologie deckt über 80 Prozent des Stromverbrauchs durch direkte Flüssigkeitskühlung ab, was die Betriebstemperaturen senkt und die Lebensdauer der Komponenten verlängert.
(dr)
Clark Li ist Country Manager von KAYTUS für die DACH-Region.