Problème de refroidissement avec les systèmes HPC
La continuité de services pour les systèmes HPC est la directe résultante du degré de redondance apportée à chaque chaine technique : alimentation électrique et refroidissement. Il faut dissocier la disponibilité des systèmes de calcul, de la sécurisation des données (pas de pertes) traitées par le HPC.
La conséquence de ces deux points précédents est qu’un système HPC bénéficie le plus souvent de différents niveaux de redondance, en fonction de la partie du système : nœuds de services pour le HPC, stockage de données issues du HPC, calcul HPC. Les deux premières briques sont généralement mieux servies (alimentation sécurisée HQ et cooling).
La contrainte principale qui pèse sur la très haute disponibilité des systèmes HPC concerne le refroidissement de ces systèmes – et particulièrement le traitement calorifique terminal (dans la baie).
Les systèmes HPC sont de plus en plus puissants et les coûts électriques ne cesseront d’augmenter. Il faut donc chercher le meilleur rendement possible. Cela passe par l’élimination, au maximum, du mode compresseur dans le traitement calorifique (production de froid).
Sur un système traditionnel, il faut donc augmenter les températures d’eau qui véhiculeront les calories en dehors des baies (éléments actifs de réseaux, serveurs, stockage).
Cette recherche du rendement doit se mener en parallèle de la très forte augmentation de la densité électrique au U (utilisation du GPU, typologie de CPU, nombre de CPU et GPU au U) des systèmes HPC.
Le mode de refroidissement en « tout air » devient difficile à conserver sur des densités supérieures à 25 kW/baie.-