HTC clusters reaching saturation for the past few days

3 replies [Last post]
ras143
ras143's picture

Hi All,

I see all nodes being saturated for the past few days by only a few users with **same kind of job **running on multiple nodes. Is there any way it can be used such that more users can run jobs at HTC without having most of the users to keep waiting for jobs? Could the following users please either group their runs in one node and free up couple of nodes? You can use: #SBATCH --nodelist=n[node_name] to use specific nodes.

-bash-4.1$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
htc*         up 6-00:00:00      2    mix n[415,427]
htc*         up 6-00:00:00     18  alloc n[409-414,416-426,428]
-bash-4.1$ squeue -l | grep "RUNNING"
            403818       htc        R    tic37  RUNNING 5-18:57:22 12-00:00:00      1 n411
            406666       htc OVCA_17_    nmp50  RUNNING    1:12:09 3-00:00:00      1 n419
            406665       htc OVCA_16_    nmp50  RUNNING    1:46:34 3-00:00:00      1 n425
            406664       htc OVCA_16_    nmp50  RUNNING    1:55:34 3-00:00:00      1 n410
            406663       htc OVCA_16_    nmp50  RUNNING    2:01:24 3-00:00:00      1 n410
            406662       htc OVCA_15_    nmp50  RUNNING    2:52:12 3-00:00:00      1 n425
            406661       htc OVCA_15_    nmp50  RUNNING    4:46:09 3-00:00:00      1 n428
            406660       htc OVCA_14_    nmp50  RUNNING    5:06:01 3-00:00:00      1 n424
            406659       htc OVCA_14_    nmp50  RUNNING    6:25:12 3-00:00:00      1 n409
            406658       htc OVCA_14_    nmp50  RUNNING    7:42:35 3-00:00:00      1 n424
            406657       htc OVCA_13_    nmp50  RUNNING    8:12:20 3-00:00:00      1 n411
            406656       htc OVCA_13_    nmp50  RUNNING    8:42:42 3-00:00:00      1 n418
            406655       htc OVCA_12_    nmp50  RUNNING    9:28:25 3-00:00:00      1 n418
            406654       htc OVCA_12_    nmp50  RUNNING   10:12:18 3-00:00:00      1 n428
            406653       htc OVCA_11_    nmp50  RUNNING   10:27:37 3-00:00:00      1 n409
            406649       htc OVCA_09_    nmp50  RUNNING   11:38:40 3-00:00:00      1 n421
            407377       htc    align    nlr23  RUNNING       2:17 3-00:00:00      1 n416
            407376       htc    align    nlr23  RUNNING       3:27 3-00:00:00      1 n417
            407375       htc    align    nlr23  RUNNING       4:03 3-00:00:00      1 n427
            407337       htc EH_RNAse    aeh77  RUNNING    1:15:34 2-00:00:00      1 n420
            407397       htc    bwaFq    xuc13  RUNNING       0:23 3-00:00:00      1 n414
            407396       htc    bwaFq    xuc13  RUNNING       1:23 3-00:00:00      1 n422
            407395       htc    bwaFq    xuc13  RUNNING       4:23 3-00:00:00      1 n423
            407394       htc    bwaFq    xuc13  RUNNING      10:54 3-00:00:00      1 n413
            407393       htc    bwaFq    xuc13  RUNNING      11:24 3-00:00:00      1 n414
            407392       htc    bwaFq    xuc13  RUNNING      12:24 3-00:00:00      1 n426
            407391       htc    bwaFq    xuc13  RUNNING      13:24 3-00:00:00      1 n412
            407389       htc    bwaFq    xuc13  RUNNING      14:54 3-00:00:00      1 n413
            407388       htc    bwaFq    xuc13  RUNNING      16:25 3-00:00:00      1 n422
            407387       htc    bwaFq    xuc13  RUNNING      17:55 3-00:00:00      1 n426
            407386       htc    bwaFq    xuc13  RUNNING      18:55 3-00:00:00      1 n421
            407384       htc    bwaFq    xuc13  RUNNING      20:25 3-00:00:00      1 n419
            407367       htc    bwaFq    xuc13  RUNNING      35:56 3-00:00:00      1 n423
            407359       htc    bwaFq    xuc13  RUNNING      45:26 3-00:00:00      1 n415
            406637       htc OVCA_03_    nmp50  RUNNING   23:48:56 3-00:00:00      1 n412
            407300       htc mutect2_    pel67  RUNNING   14:41:27 3-00:00:00      1 n415

Thanks, Rahil