Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Amazon SageMaker AI und Application Auto Scaling
<a name="services-that-can-integrate-sagemaker"></a>

Sie können SageMaker KI-Endpunktvarianten, bereitgestellte Parallelität für serverlose Endpunkte und Inferenzkomponenten mithilfe von Skalierungsrichtlinien für Zielverfolgung, schrittweiser Skalierung und geplanter Skalierung skalieren. 

Verwenden Sie die folgenden Informationen, um Sie bei der Integration von SageMaker KI in Application Auto Scaling zu unterstützen. 

## Für SageMaker KI wurde eine serviceverknüpfte Rolle erstellt
<a name="integrate-service-linked-role-sagemaker"></a>

Die folgende serviceverknüpfte Rolle wird automatisch in Ihrem erstellt, AWS-Konto wenn Sie SageMaker KI-Ressourcen als skalierbare Ziele mit Application Auto Scaling registrieren. Mit dieser Rolle kann Application Auto Scaling unterstützte Operationen innerhalb Ihres Kontos durchführen. Weitere Informationen finden Sie unter [Servicegebundene Rollen für Application Auto Scaling](application-auto-scaling-service-linked-roles.md).
+ `AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint`

## Von der dienstgebundenen Rolle verwendeter Hauptdienst
<a name="integrate-service-principal-sagemaker"></a>

Die im vorigen Abschnitt beschriebene dienstgebundene Rolle kann nur vom Hauptdienst übernommen werden, der durch die für die Rolle definierten vertrauenswürdigen Beziehungen autorisiert ist. Die von Application Auto Scaling verwendete dienstgebundene Rolle gewährt Zugriff auf den folgenden Hauptdienst: 
+ `sagemaker.application-autoscaling.amazonaws.com`

## Registrierung von SageMaker KI-Endpunktvarianten als skalierbare Ziele mit Application Auto Scaling
<a name="integrate-register-sagemaker"></a>

Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für ein SageMaker KI-Modell (Variante) erstellen können. Ein skalierbares Ziel ist eine Ressource, die dank Application Auto Scaling auf- und abskaliert werden kann. Skalierbare Ziele werden eindeutig durch die Kombination von Ressourcen-ID, skalierbarer Dimension und Namespace identifiziert. 

Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie. 

Wenn Sie Auto Scaling über die AWS CLI oder eine der folgenden Optionen konfigurieren möchten AWS SDKs, können Sie die folgenden Optionen verwenden:
+ AWS CLI: 

  Rufen Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)Befehl für eine Produktvariante auf. Das folgende Beispiel registriert die gewünschte Anzahl von Instances für eine Produktvariante namens `my-variant`, die auf dem Endpunkt `my-endpoint` ausgeführt wird, mit einer Mindestkapazität von einer Instance und einer Höchstkapazität von acht Instances.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredInstanceCount \
    --resource-id endpoint/my-endpoint/variant/my-variant \
    --min-capacity 1 \
    --max-capacity 8
  ```

  Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Rufen Sie den Vorgang [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) auf und geben Sie `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity`, und `MaxCapacity` als Parameter an. 

## Registrieren der bereitgestellten Gleichzeitigkeit von Serverless-Endpunkten als skalierbare Ziele mit Application Auto Scaling
<a name="integrate-register-provisioned-concurrency"></a>

Application Auto Scaling erfordert auch ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für die bereitgestellte Gleichzeitigkeit von Serverless-Endpunkten erstellen können.

Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie. 

Verwenden Sie andernfalls eine der folgenden Methoden, um das skalierbare Ziel zu registrieren:
+ AWS CLI: 

  Rufen Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)Befehl für eine Produktvariante auf. Das folgende Beispiel registriert die bereitgestellte Gleichzeitigkeit für eine Produktvariante namens `my-variant`, die auf dem Endpunkt `my-endpoint` ausgeführt wird, mit einer Mindestkapazität von eins und einer Höchstkapazität von zehn.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/my-endpoint/variant/my-variant \
    --min-capacity 1 \
    --max-capacity 10
  ```

  Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Rufen Sie den Vorgang [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) auf und geben Sie `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity`, und `MaxCapacity` als Parameter an. 

## Registrieren von Inferenzkomponenten als skalierbare Ziele mit Application Auto Scaling
<a name="integrate-register-inference-components"></a>

Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für Inferenzkomponenten erstellen können.
+ AWS CLI: 

  Rufen Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)Befehl für eine Inferenzkomponente auf. Im folgenden Beispiel wird die gewünschte Kopienanzahl für eine Inferenzkomponente namens `my-inference-component` registriert, mit einer Mindestkapazität von null Kopien und einer Höchstkapazität von drei Kopien.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
    --resource-id inference-component/my-inference-component \
    --min-capacity 0 \
    --max-capacity 3
  ```

  Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Rufen Sie den Vorgang [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) auf und geben Sie `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity`, und `MaxCapacity` als Parameter an. 

## Zugehörige Ressourcen
<a name="sagemaker-related-resources"></a>

Wenn Sie gerade erst mit Application Auto Scaling beginnen, finden Sie weitere nützliche Informationen zur Skalierung Ihrer SageMaker KI-Ressourcen im *Amazon SageMaker AI Developer Guide*:
+ [Automatisches Skalieren von Amazon SageMaker AI-Modellen](https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html)
+ [Automatisches Skalieren von Provisioned Concurrency für einen serverlosen Endpunkt](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints-autoscale.html)
+ [Legen Sie Richtlinien für die auto Skalierung für Endpunktbereitstellungen mit mehreren Modellen fest](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints-autoscaling.html)
+ [Automatische Skalierung eines asynchronen Endpunkts](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html)

**Anmerkung**  
Im Jahr 2023 führte SageMaker KI neue Inferenzfunktionen ein, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter [Amazon SageMaker AI fügt neue Inferenzfunktionen hinzu, um die Bereitstellungskosten und die Latenz](https://aws.amazon.com/blogs/aws/amazon-sagemaker-adds-new-inference-capabilities-to-help-reduce-foundation-model-deployment-costs-and-latency/) [von Basismodellen zu reduzieren und die Kosten für die Modellbereitstellung mithilfe der neuesten Funktionen von Amazon SageMaker AI um durchschnittlich 50%](https://aws.amazon.com/blogs/machine-learning/reduce-model-deployment-costs-by-50-on-average-using-sagemakers-latest-features/) zu reduzieren. AWS