Quelloffene Lösungsansätze für Monitoring und Systemeinstellungen für energieoptimierte Rechenzentren (Green-IT EE-HPC)

Third party funded individual grant


Acronym: Green-IT EE-HPC

Start date : 01.09.2022

End date : 31.08.2025

Website: https://eehpc.clustercockpit.org/


Project details

Short description

The energy consumption of HPC data centers is a decisive factor in the procurement and operation of the systems. EE-HPC achieves a more efficient energy use of HPC systems by targeted job-specific control and optimization of the hardware configuration as well as of settings of the runtime environments.

Scientific Abstract


Ziel dieses Vorhabens ist eine Reduzierung der Stromaufnahme bei gleichzeitiger Maximierung des Durchsatzes im Betrieb von HPC-Systemen. Dies wird erreicht, indem Systemparameter, die einen Einfluss auf den Energieverbrauch haben, optimal auf jeweils laufende Jobs eingestellt werden. Um den Durchsatz an Nutzarbeit abzubilden, wird die durch KPI4DCE vorgegebene Metrik Energy Productivity of the IT Equipment verwendet. Das Einsparpotential wird an allen beteiligten Rechenzentren exemplarisch für je zwei ausgewählte Anwendungen demonstriert. Dieses Projekt kombiniert eine umfassende jobspezifische Mess- und Steuerungs-Infrastruktur mit Techniken des maschinellen Lernens (ML) und Software-Hardware- Co-Design mit der Möglichkeit über die Laufzeitumgebungen Energieparameter steuern zu können. Über Policies werden die Rahmenbedingungen vorgegeben, die eigentliche Optimierung der Systemparameter erfolgt automatisch und adaptiv. Zur Erreichung der Ziele muss das GEOPM Open-Source-Framework um eine Komponente des maschinellen Lernens erweitert werden. Um das Potential der Energieeinsparung optimal zu nutzen, wird eine automatische Phasenerkennung sowie Erweiterungen der Laufzeitumgebungen MPI und OpenMP entwickelt, die es erlauben, dem GEOPM-Framework Informationen zum Applikationszustand mitzuteilen. Um benötigte zeitaufgelöste Metriken zum Energieverbrauch sowie Performanceverhalten der Applikation zu erfassen, werden Schnittstellen und Erweiterungen in LIKWID entwickelt. Zur Visualisierung und Steuerung der GEOPM-Funktionalität wird das Framework zum jobspezifischen Performance Monitoring ClusterCockpit erweitert und mit GEOPM gekoppelt. Die Neuheit des Lösungsansatzes ist die Entwicklung und Bereitstellung einer produktreifen Softwareumgebung für eine vollständig benutzertransparente Energieoptimierung von HPC-Applikationen. Das Projekt baut auf bestehende Open-Source-Software-Komponenten auf und integriert, erweitert und adaptiert diese für die neuen Anforderungen. 

Involved:

Contributing FAU Organisations:

Funding Source