选择一个作业队列

注意: 此页面包含的指导方针 选择一个作业队列 下微星目前的作业调度,PBS /扭矩,和 选择一个分区 根据微星的新作业调度,SLURM。该 易胜博娱乐系统迁移到SLURM调度 将发生在2020年4季度,和PBS /扭矩将在1月6日停产,2021点击以下链接跳转到一个部分,根据调度您使用以提交作业。

选择工作队列(PBS /转矩) 

概要

大多数易胜博娱乐系统使用作业队列高效和计算执行时相当管理。作业队列是使用一组特定的计算硬件的自动待岗。当计算作业提交到作业队列,他们在队列中排队等候,直到合适的资源可用。不同的工作队列具有不同的资源和局限性。提交作业时,这是非常重要的,选择具有资源和限制适用于特定的计算任务队列。

本文件概述因素选择作业队列时要考虑的。选择在什么地方工作时,这些因素都是非常重要的。这份文件是在所有微星系统,并与一起最好使用 队列 它概述了每个队列的资源限制页。

请注意,梅萨比的“最宽”队列需要特别许可使用。请提交您的代码在回顾: help@msi.umn.edu.

方针

有特定程序或自定义脚本选择工作队列时需要考虑几个重要因素。在大多数情况下,如在作业通过PBS提交脚本 作业提交和调度

整体系统

每个易胜博娱乐系统包含作业队列管理整套的硬件具有不同的资源和政策上的限制。微星目前有两个主要系统:超级计算机梅萨比和梅萨比的扩张mangi。梅萨比有各种各样的适用于许多不同的工作类型的队列。 mangi适用于更加作业类型的异构系统。 微星做任何计算时mangi应该是您的第一选择。所述梅萨比交互式队列主要用于交互式软件本质上是图形化的,和测试。该系统的选择很大程度上取决于该系统有适合您的软件/脚本队列。检查 队列 页面以确定最合适的系统。

作业walltime(walltime =)

工作walltime是从开始到工作的结束时间(就像使用在墙壁上的时钟衡量),这还不包括花在等待运行时间。这是相对于CPUTIME,它测量的累计时间花在岗位上工作的所有核心。不同的作业队列有不同的walltime限制,并选择一个队列具有足够高的walltime,使你的工作,完全是很重要的。超出工作要求walltime被系统杀死让路给其他工作。 walltime限制仅是最大值,并且可以随时要求更短的walltime,这会降低你的时间在队列中等待的金额,让您的工作开始。如果你不确定多少walltime你的工作将需要先从队列较短walltime限制,并仅在需要移动到其他人。 

工作节点和核心(节点= X:PPN = Y)

许多计算不得不使用多个核(PPN),或(较不频繁)多个节点,为了提高计算速度的能力。某些作业队列具有最大值或最小值的数量的节点和核心的作业可以使用。如果 节点共享 为队列可以请求整个节点上比存在更少的核(PPN)被使能。如果未启用节点共享,那么你必须要求等同于整个节点的多个资源。梅萨比最宽和大队列 不允许 节点共享.

工作存储器(MEM =)

选择一个队列时作业要求的内存是一个重要因素。可以请求的作业的存储器(RAM)量最大是通过在与该队列相关联的硬件的存储器的限制。梅萨比具有两个队列(ram256g和ram1t)具有高内存硬件,最大存储器硬件是可通过ram1t队列。 

用户和组的限制

高效地共享资源,许多队列对的工作或核的特定用户或用户组可以同时使用数的限制。如果工作流需要很多工作要完成,它可以帮助选择队列,这将使许多作业同时运行。 

特殊的硬件

一些队列包含有特殊的硬件,GPU加速器和固态硬盘划伤是最常见的节点。如果计算需要使用特殊的硬件,然后选择与提供的正确的硬件队列是非常重要的。此外,这些队列可能需要额外的资源来指定(例如,GPU节点需要“:图形处理器= X”)。

队列拥堵

在特定的时间特定的队列可能会超载提交的作业。在这种情况下,它可以帮助将作业发送到队列,利用率较低 (节点状态)。发送作业利用率较低队列可以减少等待时间和提高吞吐量。必须小心,以确保计算将适合队列限制范围内。

 

选择一个分区(SLURM)

概要

大多数易胜博娱乐系统使用工作的分区有效和计算执行时相当管理。工作分区是使用一组特定的计算硬件的自动待岗。当计算作业提交到作业分区,他们在行分区等到适当的资源可用。不同的工作分区具有不同的资源和局限性。提交作业时,这是非常重要的,选择具有资源和限制适用于特定的计算工作分区。
 
本文件概述因素选择工作分区时要考虑的。选择在什么地方工作时,这些因素都是非常重要的。这份文件是在所有微星系统,并与一起最好使用 分区页面 它概述了每个分区的资源限制。

方针

有选择特定程序或自定义脚本作业分区时需要考虑几个重要因素。在大多数情况下,作业中的说明通过SLURM提交脚本 作业提交和调度(SLURM)

整体系统

每个易胜博娱乐系统包含作业分区管理整套硬件具有不同的资源和政策上的限制。微星目前有两个主要系统:超级计算机梅萨比和梅萨比的扩张mangi。梅萨比有各种各样的适用于许多不同的工作类型的分区。 mangi适用于更加作业类型的异构系统。所述梅萨比交互式分区主要用于交互式软件本质上是图形化的,和测试。该系统的选择很大程度上取决于该系统有适合您的软件/脚本分区。检查分区页面,以确定最合适的系统。

作业walltime(--time =)

工作walltime是从开始到工作的结束时间(就像使用在墙壁上的时钟衡量),这还不包括花在等待运行时间。这是相对于CPUTIME,它测量的累计时间花在岗位上工作的所有核心。不同的工作分区具有不同walltime限制,并选择具有足够高的walltime,使你的工作,完成一个分区是非常重要的。超出工作要求walltime被系统杀死让路给其他工作。 walltime限制仅是最大值,并且可以随时要求更短的walltime,这将减少的时候,你在分区等待的时间为你的工作开始。如果你不确定你的工作多少walltime需要,先从分区较短walltime限制,并仅在需要移动到其他人。 

工作节点和核心(--nodes =和--ntasks =)

许多计算不得不使用多个核,或(较不频繁)多个节点,为了提高计算速度的能力。某些工作分区具有最大值或最小值的数量的节点和核心的作业可以使用。如果节点共享的分区激活,您可以将整个节点上的要求比存在核心少。如果未启用节点共享,那么你必须要求等同于整个节点的多个资源。梅萨比的大分区不允许节点共享。

工作存储器(--mem =)

选择分区时,其工作需要的内存是一个重要因素。可以请求的作业的存储器(RAM)量最大是通过在与该分区相关联的硬件的存储器的限制。梅萨比具有高存储器硬件两个分区(ram256g和ram1t),最大存储器硬件是可通过amd2tb分区。 

用户和组的限制

高效地共享资源,许多分区具有对工作或核的特定用户或用户组可以同时使用数的限制。如果工作流需要很多工作要完成,它可以帮助选择,这将使许多作业同时运行的分区。 

特殊的硬件

一些分区包含有特殊的硬件,GPU加速器和固态硬盘划伤是最常见的节点。如果计算需要使用特殊的硬件,然后选择与提供的正确的硬件分区是非常重要的。此外,这些分区可能需要额外的资源来指定(例如,V100 GPU节点需要 “--gres = GPU:V100:1”)。

分区拥堵

在特定的时间特定的分区可能会变得超载提交的作业。在这样的情况下,它可以是有帮助的作业发送到分区具有较低的利用率(节点状态)。发送作业利用率较低的分区可以减少等待时间和提高吞吐量。必须小心,以确保计算将配分限制范围内。

抢占分区 

抢先和抢占GPU的分区是特殊的分区,它允许利用闲置资源的交互。提交抢占队列作业可能在任何时候被杀死,以腾出空间交互式作业。必须小心使用这些队列只能在能够被杀害后容易重新启动作业。一个例子的工作如下所示
 
#sbatch --time = 24:00:00
#sbatch --mem = 20GB
#sbatch -n 12
#sbatch --requeue
#sbatch -p抢占-GPU
#sbatch --gres = GPU:K40:1
 
模块负载奇异
奇异EXEC --nv \ /home/support/public/singularity/gromacs_2018.2.sif \
GMX mdrun -s benchmem.tpr -cpi state.cpi -append