Starten Sie Instances mit Capacity Blocks (CB) - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten Sie Instances mit Capacity Blocks (CB)

AWS ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke (CB) für Machine Learning. Im Gegensatz zu ODCR kann CB eine future Startzeit haben und ist zeitgebunden. Weitere Informationen zum Starten mit ODCR finden Sie unter Starten von Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Verwenden von CB mit AWS ParallelCluster

Um Ihre neuen oder vorhandenen Cluster für die Verwendung eines CB zu konfigurieren, benötigen Sie zunächst eine gültige CB in Ihrem AWS Konto. Sie können das AWS-Managementkonsole, oder SDK verwenden AWS Command Line Interface, um ein verfügbares CB zu finden und zu kaufen, indem Sie der offiziellen Dokumentation folgen. Sobald Sie einen gültigen CB haben, können Sie den CB Amazon Resource Name (ARN) und die zugehörigen Parameter in Ihrer AWS ParallelCluster Konfigurationsdatei festlegen. Weitere Informationen finden Sie unter Kapazitätsblöcke (CB) finden und kaufen

CB in der Cluster-Konfiguration

Um einen CB für eine bestimmte Warteschlange zu verwenden, müssen Sie den CapacityReservationId Parameter verwenden. Konfigurieren Sie es mit einer vorhandenen CB-ID. Sie können den CB-ARN von dem AWS-Managementkonsole AWS CLI, oder SDK beziehen, mit dem Sie den CB erstellt haben.

Sie müssen CapacityType = CAPACITY_BLOCK für die Warteschlange festlegen, wo Sie den CB verwenden möchten. Stellen Sie ihn auf die InstanceType der Rechenressource ein (entspricht dem Amazon Elastic Compute Cloud-Instance-Typ des CB).

Wenn Sie das CapacityReservationId auf Rechenressourcenebene angeben, InstanceType ist dies optional, da es automatisch aus der Reservierung abgerufen wird.

Wenn Sie es verwendenCapacityType = CAPACITY_BLOCK, MaxCount muss es gleich MinCount und größer als 0 sein, da alle Instances, die Teil der CB-Reservierung sind, als statische Knoten verwaltet werden.

Bei der Clustererstellung wartet der Hauptknoten darauf, dass alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Bei der Verwendung werden die KnotenCapacityType = CAPACITY_BLOCK, die Teil der zugewiesenen Rechenressourcen sind, bei dieser Prüfung jedoch nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Cluster aktiv sind.

Der folgende Ausschnitt aus der Konfigurationsdatei zeigt die Parameter, die für die Aktivierung in der AWS ParallelCluster Konfigurationsdatei erforderlich sind.

SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)

Wie AWS ParallelCluster verwendet Capacity Blocks (CB)

AWS ParallelCluster verwaltet statische Knoten, die mit auf besondere Weise verknüpft sind. AWS ParallelCluster erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und Instances werden automatisch gestartet, sobald der CB aktiv ist.

Die Slurm Knoten, die Rechenressourcen entsprechen, mit denen sie verknüpft sind und noch nicht aktiv sind, werden solange gewartet, bis sie die CB-Startzeit erreichen. SlurmDie Knoten bleiben in einem reservation/maintenance Status und sind dem Slurm-Admin-Benutzer zugeordnet. Das bedeutet, dass sie Jobs annehmen können, aber die Jobs bleiben bestehen, pending bis die Reservierung entfernt wird.

AWS ParallelCluster aktualisiert Slurm Reservierungen automatisch und versetzt die zugehörigen CB-Knoten in den Wartungszustand (entspricht dem CB-Status). Wenn der CB aktiv ist, wird die Slurm Reservierung entfernt, und die Knoten werden gestartet und stehen für ausstehende Jobs oder für neue Job-Einreichungen zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten wieder in einen bestimmten reservation/maintenance Zustand versetzt. Wenn der CB nicht mehr aktiv ist und resubmit/requeue die Instances beendet werden, liegt es an den Benutzern, die Jobs einer neuen Warteschlange/Rechenressource zuzuweisen.