队列

微星使用作业调度队列高效,公平地共享资源,微星。在我们的系统作业队列管理不同组的硬件,并有大量不同的限制,如walltime,可用的处理器,以及可用内存。提交计算时,它选择在哪里工作既适用于硬件和资源限制的队列是很重要的。

选择一个队列

每个易胜博娱乐系统包含作业队列管理整套的硬件具有不同的资源和政策上的限制。 易胜博娱乐目前有两个主要系统:超级计算机梅萨比和梅萨比膨胀mangi。梅萨比拥有高性能的硬件和各种适用于许多不同的工作类型的队列。 mangi膨胀梅萨比和应提交的工作你的第一选择。该系统的选择很大程度上取决于该系统有适合您的软件/脚本队列。有关选择队列和不同的队列参数的更多信息可在发现 选择一个作业队列 快速入门指南。

下面是系统组织的可用队列,以及相关的队列限制的摘要。列出的量是总计或上限。

mangi:梅萨比扩张 

mangi是使用大多数节点Linux集群 AMD EPYC 7702 处理器。

队列名称 节点共享 每个作业的最大节点 每个节点处理器内核 时间上限 总节点内存限制 每个核心的内存分配建议 局部的搔抓
(GB /节点)
每个用户限制 服务单元(SU)速率
amd小 1 128 96小时 250GB 1950mb 429 50个职位 1.50 CPU小时/苏
amd大 没有 32 128 24小时 250GB 1950mb 429 2个工作 1.50 CPU小时/苏
amd2tb 1 128 96小时 2000GB 15500mb 429 1个职位 0.79 CPU小时/苏
V100 GPU节点 没有 6 24 24小时 375GB 3000MB 875 6个工作 0.19 CPU小时/苏
V100-4 GPU节点 没有 2 24 24小时 375GB 3000MB 875 2个工作 0.10 CPU小时/苏
V100-8 GPU节点 没有 1 24 24小时 375GB 3000MB 875 1个职位 0.06 CPU小时/苏
amd_要么_intel 1 *(1) 24小时 *(1) *(1) *(1) 50个职位 *(1)
mangi 该mangi队列是元队列,这会自动将作业发送到 amd小 要么 amd大,根据每个岗位将最适合基于资源请求。

服务单元(SU)速率:见上文。

(1)注意: 该amd_要么_intel队列可以安排在属于mangi amd小和梅萨比小队列节点。你的工作将被限制用于放置在满足您的资源请求节点。

梅萨比

梅萨比是使用的Haswell e5-2680v3处理器的马力Linux集群与大多数节点。

队列名称 节点共享 每个作业的最大节点 分每个作业节点 每个节点处理器内核 时间上限 总节点内存限制 每个核心的内存分配建议 局部的搔抓
(GB /节点)
每个用户限制 每组限 服务单元(SU)速率
(1) 9 没有 24 96小时 62GB 2580mb 390 GB 500个就业机会 1800个总内核(4) 1.50 CPU小时/苏
没有 48 10 24 24小时 62GB 2580mb 390 GB 4个就业 16个作业 1.50 CPU小时/苏
最宽(5) 没有 360 49 24 24小时 62GB 2580mb 390 GB 4个就业 16个作业 1.50 CPU小时/苏
最大 1 没有 24 696小时 62GB 62GB 390 GB 4个就业 16个作业 1.50 CPU小时/苏
ram256g 2 没有 24 96小时 251gb 10580mb 390 GB 2个节点 1800个总内核(4) 1.50 CPU小时/苏
ram1t 2 没有 32(3) 96小时 998gb 31180mb 228 GB 2个节点 1800个总内核(4) 1.50 CPU小时/苏
K40 
GPU节点(2)
没有 40 没有 24 24小时 125GB 5290mb 390 GB 没有 1800个总内核(4) 1.50 CPU小时/苏
互动 1/2/4(6) 没有 24(8) 12小时 62GB(8) 2580mb(8) 共享,228gb / 390gb(7) 1个职位 1.50 CPU小时/苏
梅萨比
(默认)
该梅萨比队列是元队列,这会自动将作业发送到 , , 最宽, 要么 最大 队列,按照每个职位将最适合基于资源请求。

服务单元(SU)速率:见上文。 

(1)注意: 小队列内有与〜440 GB的本地SSD空间32级的节点可用的,在访问 “/scratch.SSD”请记住存储在该数据 /scratch.SSD 在每个作业结束时被删除。提交作业到SSD节点,修改与“你的PBS脚本或qsub命令SSD“的文章:

#pbs -l节点= 1:SSD:PPN = 1,walltime = 1:00:00

可以使用命令“来生成这些SSD-能够节点的列表pbsnodes:SSD”。

(2)注意: 该K40队列是用于执行GPU的计算的计算。每个K40节点是未共享。不具有GPU的资源请求的作业将被拒绝。每个节点K40包含两颗NVIDIA的GPU K40m。在此队列中储备的GPU与“图形处理器“的文章: 

#pbs -l节点= 1:PPN = 24:的GPU = 2,walltime = 1:00:00

(3)注意: 在ram1t节点包含英特尔的Ivy Bridge处理器,不支持所有的Haswell处理器的优化指令。使用的Haswell指令编译的程序将只在的Haswell处理器上运行。

(4)注意: 1800核心的极限是包​​容在小,ram256g,ram1t和K40全组作业,队列一起。例如,同时使用在小队列1798个核心和2个芯在ram1t队列的基团可以运行在小,ram256g,ram1t,或K40没有进一步的同步作业,队列。

(5)注意: 最宽的队列需要特别许可使用。请提交您的代码在回顾: help@msi.umn.edu

(6)注意: 交互式队列具有4个处理器核的限制。这可以是1个节点与4芯,2个核,或具有1芯4级的节点2级的节点。 

(7)注意: 这些节点上划痕是共享的,并且可用的(228gb或390gb)总刮取决于哪个节点在工作的土地上。

(8)注意: 交互式队列访问从ram256g和ram1t队列节点。指那些队列限制,如果请求大量的资源。 

梅萨比小队列特性

在梅萨比小队列节点并不总是对应于物理节点分开。相反,“节点”被带到对应于芯组。  

例如,如果作业要求的节点= 2:PPN = 4,则调度器将尝试找到2组4空闲芯(8个核总数)。调度可将本工作给单个物理节点上使用8个核。对于大多数计算,没关系请求的核心是否在不同的物理节点,或同一物理节点上,但对于一些计算这非常重要。

在梅萨比小队列节点共享启用,因此在使用一个节点的一小部分则很可能是与其他作业共享该节点的梅萨比小队列中的作业。这会影响在某些情况下的性能。
 

SLURM分区(队列)

根据微星的新的调度,SLURM,队列被称为 分区。在我们的系统中工作的分区管理不同组的硬件,并有大量不同的限制,如walltime,可用的处理器,以及可用内存。提交计算时,它选择在哪里工作既适用于硬件和资源限制分区是非常重要的。

选择分区/队列

每个易胜博娱乐系统包含作业分区管理整套硬件具有不同的资源和政策上的限制。 易胜博娱乐目前有两个主要系统:超级计算机梅萨比和梅萨比膨胀mangi。梅萨比拥有高性能的硬件和各种适用于许多不同的工作类型的分区。 mangi膨胀梅萨比和应提交的工作你的第一选择。该系统的选择很大程度上取决于该系统有适合您的软件/脚本分区。有关选择分区和所述分区的不同参数的更多信息可在发现 选择一个分区(SLURM) 在选择作业队列页部分。

下面是系统组织的可用分区,以及相关的局限性的摘要。列出的量是总计或上限。

mangi和梅萨比 

分区名 节点共享? 内核每个节点 walltime极限 总节点存储器 每个核心的内存建议 每个节点的局部的搔抓
amd小 (1) 128 96:00:00 248.7 GB 2000 MB 429 GB
amd大 没有 128 24:00:00 248.7 GB 2000 MB 429 GB
amd2tb 128 96:00:00 2010 GB 16000 MB 429 GB
V100 (1) 24 24:00:00 376.4 GB 16000 MB 875 GB
24 96:00:00 60.4 GB 2500 MB 390 GB
没有 24 24:00:00 60.4 GB 2500 MB 390 GB
最大 24 696:00:00 60.4 GB 2500 MB 390 GB
ram256g 24 96:00:00 248.9 GB 10 GB

390 GB

ram1t (2) 24 96:00:00 10003.9 GB 32 GB 228 GB
K40 (1) 24 24:00:00 123.2 GB 5 GB 390 GB
互动 (3) 24 24:00:00 60.4 GB 2 GB 228 GB
交互式GPU (3) 24 24:00:00 60.4 GB 2 GB 228 GB
抢占 (4) 24 24:00:00 60.4 GB 2 GB 228 GB
抢占-GPU (4) 24 24:00:00 60.4 GB 2 GB 228 GB

 

(1) 注意: 除了选择GPU分区的GPU必须要求所有GPU的工作。一个K40 GPU可通过在您提交的脚本中的以下两行请求: 

 

#sbatch -p K40                                            
#sbatch --gres = GPU:K40:1

一个V100的GPU可通过在您提交的脚本中的以下两行请求: 

 

#sbatch -p V100                                            
#sbatch --gres = GPU:V100:1

 

(2) 注意:ram1t 节点包含英特尔的Ivy Bridge处理器,不支持所有的Haswell处理器的优化指令。使用的Haswell指令编译的程序将只在的Haswell处理器上运行。

 

(3) 注意: 用户仅限于在单个作业 互动交互式GPU 分区。

(4) 注意: 在工作 抢占抢占-GPU 分区可以在任何时间,以腾出空间互动或互动GPU的分区作业被杀死。