aide mémoire pbs: liste, suspension d'un job

Pour afficher les calculs en cours, la commande à taper est qstat. Cette commande ne permet que d'avoir accès aux calculs en cours de l'utilisateur courant. Le super utilisateur, quant à lui, peut avoir accès à tous les travaux, via sudo qstat.

L'utilisateur peut avoir cependant accès à la charge du cluster via un utilitaire type ganglia: http://NomDuCluster/ganglia

La liste des travaux soumis à une file d'attente s’affiche ainsi (la file d'attente ici est 'batch')


Job id                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
6355              calcul1              charles         07:21:16 R batch          
6356              calcul2              charles                0 H batch          
6357              calcul3              charles                0 H batch          
6358              calcul4              charles                0 H batch          
6451              calcul5              charles         02:20:57 R batch          
6452              calcul6              charles                0 H batch          
6453              calcul7              charles                0 H batch          
6454              calcul8              charles                0 H batch          
6459              calcul9              charles         00:00:12 S batch          
6460              calcul10             charles                0 H batch          
6461              calcul11             charles                0 H batch          
6462              calcul12             charles                0 H batch          
6463              calcul13             charles                0 H batch          
6464              calcul14             charles                0 H batch          
6465              calcul15             charles                0 H batch          
6466              calcul16             charles                0 H batch          
6467              calcul17             charles         01:33:24 R batch         

L’utilisateur charles à ici 17 calculs lancés sur la file d'attente par défaut, mais seuls 3 d'entre eux tournent effectivement:  ce sont ceux avec une balise 'R' dans la colonne 'S', qui signifie 'Run'. La liste des ststus la plus courante est donnée ci après.

 

Balise C H R S W
titre complet Completed Hold Run Suspended Wait
Signification Calcul finis (attention, cela peut signifier que le calcul a été tué)

Calcul en attente d'un lancement (option qsub -W)

 

Calcul en cours Calcul arrêté mais non tué (en suspend)

Calcul en attente d'un lancement (option qsub -a)

La suspension et la relance de calcul n'est possible que via un super utilisateur:

sudo qsib -s suspend JobId

et

sudo qsib -s resume JobId

Pour tuer son propre processus, il suffit de taper la commande

qdel JobId

Les principales options de qstat sont données ci dessous (pour un super utilisateur, cela fait la liste de tous les travaux, alors que pour un utilisateur, seul les travaux de ce dernier sont concernés)

commande qstat -f qstat -r qstat -n
Effet

liste tous les calculs soumis en affichant toues les informations sur ceux ci.

La commande qstat JobId -f permet de restreindre ce détail au calcul no JobId

Donne tous les calculs en cours d’exécution

Donne les nœuds sur lesquels sont lancés les calculs.

La commande qstat -n -1 permet d'afficher ces nœuds sur la même ligne que les travaux

Il est a noter qu'un alias (qstat_long) peut être définit à partir d'un fichier python pour traiter les sorties de qstat -f (en s'inspirant de ca et ca pour le python 2.6).

Écrire un commentaire

Quelle est la deuxième lettre du mot pszcz ? :