Introduction

La figure suivante présente l'architecture du Cluster SLURM (Simple Linux Utility for Resource Management) sur la plateforme ANITI :

Le cluster est constitué :

D'un nœud interactif (isis.aniti.fr)  

C'est le nœud sur lequel vous devez vous connecter pour accéder au cluster de calcul. Ce nœud (sous système Linux Centos7) peut être utilisé pour valider les programmes avant de les lancer sur le cluster de calcul. Ce nœud étant partagé entre tous les utilisateurs, il ne doit pas être utilisé pour l'exécution de jobs longs.

De nœuds de calcul  

Ces nœuds (sous système Linux Centos7) sont des serveurs dédiés aux calculs. Le gestionnaire de jobs SLURM gère sur les nœuds de calcul la répartition et l'exécution des traitements que vous lancez à partir du nœud interactif. Un processus qui tourne sur un nœud de calcul accède à des données hébergées sur la baie de stockage, effectue un traitement et enregistre le résultat sur la baie.

Les nœuds de calcul sont répartis en 2 catégories :

  • 4 nœuds de calcul bi processeurs Intel Xeon Gold 6240 18 coeurs à 2,6 Ghz, et 384 Go de RAM. Le multithreading est activé sur ces serveurs. Ces nœuds sont regroupés dans une partition Slurm que nous avons nommée "CPU-Nodes". Il s'agit de la partition par défaut.
    Cette partition sera dédiée aux traitements n'utilisant pas de GPUs. Chaque processus sera limité à 72 threads et/ou 368 Go de RAM. En revanche, le nombre de processus créés par un Job, un Job Step ou une Task n'est limité que par la taille totale de la partition (et la disponibilité des ressources) : par exemple un unique Job pourra exécuter, en parallèle, 2 Steps de 2 Tasks chacun, avec chaque Task créant 72 threads. Ce Job utilisera 288 threads (144 CPUs) et sera distribué sur les 4 nœuds.
  • 3 nœuds de calcul dotés chacun de 3 de cartes graphiques Nvidia Quadro RTX 8000 (48 Go RAM). Le multithreading n'est pas activé sur ces noeuds. Ces nœuds sont regroupés dans une partition Slurm que nous avons nommée "GPU-Nodes". Cette partition est destinée aux traitements tirant parti de la puissance de calcul fournie par les processeurs des GPUs. Les frameworks de Deep Learning (TensorFlow, Pytorch, ...) en sont le parfait exemple.

D'une baie de stockage

D'une capacité d'environ 200 To, ce stockage est assuré par le stockage ATLAS du mésocentre CALMIP. Les données sont accessibles depuis le nœud interactif et les nœuds de calcul via le protocole GPFS.