Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Automatische Skalierung von Amazon SageMaker AI-Modellen
<a name="endpoint-auto-scaling"></a>

Amazon SageMaker AI unterstützt die automatische Skalierung (Auto Scaling) für Ihre gehosteten Modelle. *Auto Scaling* passt dynamisch die Anzahl der Instances an, die für ein Modell als Reaktion auf Workload-Änderungen zur Verfügung gestellt werden. Wenn die Arbeitslast steigt, bringt die automatische Skalierung mehr Instances online. Wenn die Arbeitslast sinkt, werden durch die automatische Skalierung unnötige Instances entfernt, so dass Sie nicht für bereitgestellte Instances zahlen, die Sie nicht nutzen.

**Topics**
+ [Überblick über Auto-Scaling-Richtlinien](endpoint-auto-scaling-policy.md)
+ [Voraussetzungen für Auto Scaling](endpoint-auto-scaling-prerequisites.md)
+ [Konfigurieren Sie Auto Scaling für Modelle über die Konsole](endpoint-auto-scaling-add-console.md)
+ [Registrieren eines Modells](endpoint-auto-scaling-add-policy.md)
+ [Definieren einer Skalierungsrichtlinie](endpoint-auto-scaling-add-code-define.md)
+ [Anwenden einer Skalierungsrichtlinie](endpoint-auto-scaling-add-code-apply.md)
+ [Anweisungen zum Bearbeiten einer Skalierungsrichtlinie](endpoint-auto-scaling-edit.md)
+ [Vorübergehendes Deaktivieren von Skalierungsrichtlinien](endpoint-auto-scaling-suspend-scaling-activities.md)
+ [Löschen einer Skalierungsrichtlinie](endpoint-auto-scaling-delete.md)
+ [Überprüfen des Status einer Skalierungsaktivität durch Beschreibung der Skalierungsaktivitäten](endpoint-scaling-query-history.md)
+ [Skalieren eines Endpunkts auf null Instances](endpoint-auto-scaling-zero-instances.md)
+ [Lasttest Ihrer Auto -Scaling-Konfiguration](endpoint-scaling-loadtest.md)
+ [Wird verwendet CloudFormation , um eine Skalierungsrichtlinie zu erstellen](endpoint-scaling-cloudformation.md)
+ [Aktualisieren von Endpunkten, für die das Auto Scaling verwendet wird](endpoint-scaling-update.md)
+ [Löschen von Endpunkten, die für das Auto Scaling konfiguriert wurden](endpoint-delete-with-scaling.md)

# Überblick über Auto-Scaling-Richtlinien
<a name="endpoint-auto-scaling-policy"></a>

Um Auto Scaling zu verwenden, definieren Sie eine Skalierungsrichtlinie, die die Anzahl der Instances für Ihre Produktionsvariante als Reaktion auf die tatsächlichen Workloads erhöht oder verringert.

Für die automatische Skalierung bei Veränderungen der Workload haben Sie zwei Optionen: Zielverfolgungs-Skalierungsrichtlinien oder Richtlinien zur schrittweisen Skalierung. 

In den meisten Fällen empfehlen wir die Verwendung von Zielverfolgungs-Skalierungsrichtlinien. Bei der Zielverfolgung wählen Sie eine CloudWatch Amazon-Metrik und einen Zielwert aus. Auto Scaling erstellt und verwaltet die CloudWatch Alarme für die Skalierungsrichtlinie und berechnet die Skalierungsanpassung auf der Grundlage der Metrik und des Zielwerts. Durch die Richtlinie werden so viele Instances wie erforderlich hinzugefügt und entfernt, damit die Metrik auf oder nahe am Zielwert gehalten wird. Hierbei kann z. B. eine Skalierungsrichtlinie, die die vorab definierte `InvocationsPerInstance`-Kennzahl mit einem Zielwert von 70 verwendet, `InvocationsPerInstance` auf oder fast auf 70 halten. Weitere Informationen finden Sie in den [Skalierungsrichtlinien für die Ziel-Nachverfolgung](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-target-tracking.html) im *Benutzerhandbuch für Application Auto Scaling*.

Sie können die schrittweise Skalierung verwenden, wenn Sie eine erweiterte Konfiguration benötigen, z. B. angeben, wie viele Instances unter welchen Bedingungen bereitgestellt werden sollen. Die schrittweise Skalierung ist beispielsweise dann erforderlich, wenn ein Endpunkt in der Lage sein soll, von null aktiven Instances aus aufzuskalieren. Einen Überblick über die Richtlinien zur schrittweisen Skalierung und ihre Funktionsweise finden Sie unter [Richtlinien zur schrittweisen Skalierung](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-step-scaling-policies.html) im *Benutzerhandbuch zum Auto Scaling von Anwendungen*.

Zum Erstellen einer Skalierungsrichtlinie für die Ziel-Nachverfolgung geben Sie Folgendes an:
+ **Metrik** — Die zu verfolgende CloudWatch Metrik, z. B. die durchschnittliche Anzahl von Aufrufen pro Instance. 
+ **Zielwert** – der Zielwert für die Metrik, z. B. 70 Aufrufe pro Instance pro Minute

Sie können Skalierungsrichtlinien zur Zielverfolgung mit vordefinierten oder benutzerdefinierten Metriken erstellen. Eine vordefinierte Metrik ist in einer Aufzählung definiert, sodass Sie sie im Code namentlich angeben oder in der SageMaker AI-Konsole verwenden können. Alternativ können Sie entweder die AWS CLI oder die API zum Auto Scaling von Anwendungen verwenden, um eine Skalierungsrichtlinie für die Zielnachverfolgung anzuwenden, die auf einer vor- oder benutzerdefinierten Metrik basiert.

Beachten Sie, dass den Skalierungsaktivitäten Ruhephasen liegen, um schnelle Kapazitätsschwankungen zu vermeiden. Sie können die Ruhephasen für Ihre Richtlinie optional konfigurieren. 

Weitere Informationen zu den Schlüsselkonzepten des Auto Scaling finden Sie im folgenden Abschnitt.

## Zeitplanbasierte Skalierung
<a name="scheduled-scaling"></a>

Sie können auch geplante Aktionen erstellen, um Skalierungsaktivitäten zu bestimmten Zeitpunkten durchzuführen. Sie können geplante Aktionen erstellen, die nur einmal oder nach einem wiederkehrenden Zeitplan skaliert werden. Nachdem eine geplante Aktion ausgeführt wurde, kann Ihre Skalierungsrichtlinie weiterhin Entscheidungen darüber treffen, ob eine dynamische Skalierung erfolgen soll, wenn sich die Workload ändert. Die geplante Skalierung kann nur über die AWS CLI oder die Application Auto Scaling API verwaltet werden. Weitere Informationen finden Sie unter [Geplante Skalierung](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-step-scaling-policies.html) im *Benutzerhandbuch für Application Auto Scaling*.

## Mindest- und Höchstwerte für die Skalierung
<a name="endpoint-auto-scaling-target-capacity"></a>

Bei der Konfiguration von Auto Scaling müssen Sie Ihre Skalierungsgrenzen angeben, bevor Sie eine Skalierungsrichtlinie erstellen. Sie legen Grenzwerte für die Mindest- und die Höchstwerte separat fest.

Der Mindestwert muss mindestens 1 betragen und gleich oder kleiner sein als der Wert, der als Höchstwert angegeben ist.

Der Höchstwert muss gleich oder größer als der für den Minimalwert angegebene Wert sein. SageMaker AI Auto Scaling erzwingt kein Limit für diesen Wert.

Um die Skalierungsgrenzen zu bestimmen, die Sie für einen typischen Datenverkehr benötigen, testen Sie Ihre Auto-Scaling-Konfiguration mit der zu erwartenden Rate des Datenverkehrs für Ihr Modell.

Wenn der Traffic einer Variante Null wird, skaliert SageMaker KI automatisch auf die angegebene Mindestanzahl von Instanzen. In diesem Fall gibt SageMaker KI Metriken mit einem Wert von Null aus.

Es gibt drei Optionen für die Angabe der minimalen und maximalen Kapazität:

1. Verwenden Sie die Konsole, um die Einstellungen für **Minimale Instance-Anzahl** und **Maximale Instance-Anzahl** zu aktualisieren.

1. Verwenden Sie die `--max-capacity` Optionen AWS CLI und include the `--min-capacity` und, wenn Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)Befehl ausführen.

1. Rufen Sie die [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html)API auf und geben Sie die `MaxCapacity` Parameter `MinCapacity` und an.

**Tipp**  
Sie können manuell aufskalieren, indem Sie den Mindestwert erhöhen, oder manuell abskalieren, indem Sie den Höchstwert verringern.

## Ruhephase
<a name="endpoint-auto-scaling-target-cooldown"></a>

Eine *Ruhephase* wird verwendet, um vor einer Überskalierung zu schützen, wenn Ihr Modell abskaliert (die Kapazität reduziert) oder aufskaliert (die Kapazität erhöht). Dabei werden nachfolgende Skalierungsaktivitäten bis zum Ablauf der Phase verlangsamt. Auf diese Weise wird die Löschung von Instances für Abskalieranfragen blockiert und die Erstellung von Instances für Aufskalieranfragen wird begrenzt. Weitere Informationen finden Sie unter [Definieren von Ruhephasen](https://docs.aws.amazon.com/autoscaling/application/userguide/target-tracking-scaling-policy-overview.html#target-tracking-cooldown) im *Benutzerhandbuch zum Auto Scaling von Anwendungen*. 

Sie können die Ruhephase in Ihrer Skalierungsrichtlinie konfigurieren. 

Wenn Sie keine Ruhephase zum Abskalieren bzw. Aufskalieren festlegen, verwendet die Skalierungsrichtlinie für jede Aktivität den Standardwert von 300 Sekunden.

Werden Instances zu schnell hinzugefügt oder entfernt, während Sie Ihre Skalierungskonfiguration testen, dann denken Sie daran, diesen Wert zu erhöhen. Sie können dieses Verhalten beobachten, wenn der Datenverkehr in Ihrem Modell zu viele Spitzen aufweist, oder wenn Sie mehrere Skalierungsrichtlinien für eine Variante festgelegt haben.

Wenn Instances nicht schnell genug hinzugefügt werden, um auf den erhöhten Datenverkehr zu antworten, dann sollten Sie diesen Wert verringern.

## Zugehörige Ressourcen
<a name="auto-scaling-related-resources"></a>

Weitere Informationen zum Konfigurieren des Auto Scaling finden Sie in den folgenden Ressourcen:
+ Abschnitt [application-autoscaling](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling) in der *AWS CLI -Befehlsreferenz*
+ [API-Referenz zu Application Auto Scaling](https://docs.aws.amazon.com/autoscaling/application/APIReference/)
+ [Benutzerhandbuch zum Application Auto Scaling](https://docs.aws.amazon.com/autoscaling/application/userguide/)

**Anmerkung**  
SageMaker KI hat kürzlich neue Inferenzfunktionen eingeführt, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter [SageMaker KI fügt neue Inferenzfunktionen hinzu, um die Kosten und die Latenz](https://aws.amazon.com/blogs/aws/amazon-sagemaker-adds-new-inference-capabilities-to-help-reduce-foundation-model-deployment-costs-and-latency/) [von Basismodellen zu reduzieren und die Kosten für die Modellbereitstellung mithilfe der neuesten SageMaker KI-Funktionen um durchschnittlich 50%](https://aws.amazon.com/blogs/machine-learning/reduce-model-deployment-costs-by-50-on-average-using-sagemakers-latest-features/) zu senken. AWS 

# Voraussetzungen für Auto Scaling
<a name="endpoint-auto-scaling-prerequisites"></a>

Bevor Sie Auto Scaling verwenden können, müssen Sie bereits einen Amazon SageMaker AI-Modellendpunkt erstellt haben. Sie können mehrere Modellversionen für denselben Endpunkt haben. Jedes Modell wird als [Produktionsvariante (Modellvariante)](model-ab-testing.md) bezeichnet. Weitere Informationen zur Bereitstellung eines Modellendpunkts finden Sie unter [Stellen Sie das Modell für SageMaker AI Hosting Services bereit](ex1-model-deployment.md#ex1-deploy-model).

Um Auto Scaling für ein Modell zu aktivieren, können Sie die SageMaker AI-Konsole, das AWS Command Line Interface (AWS CLI) oder ein AWS SDK über die Application Auto Scaling API verwenden. 
+ Wenn Sie zum ersten Mal die Skalierung für ein Modell konfigurieren, empfehlen wir Ihnen [Konfigurieren Sie Auto Scaling für Modelle über die Konsole](endpoint-auto-scaling-add-console.md). 
+ Wenn Sie die AWS CLI oder die Application Auto Scaling Scaling-API verwenden, besteht der Ablauf darin, das Modell als skalierbares Ziel zu registrieren, die Skalierungsrichtlinie zu definieren und sie dann anzuwenden. Wählen Sie auf der SageMaker AI-Konsole im Navigationsbereich unter **Inferenz** die Option **Endpoints** aus. Suchen Sie den Endpunktnamen Ihres Modells und wählen Sie ihn aus, um den Variantennamen zu finden. Sie müssen sowohl den Endpunktnamen als auch den Variantennamen angeben, um Auto Scaling für ein Modell zu aktivieren.

Auto Scaling wird durch eine Kombination aus Amazon SageMaker AI CloudWatch, Amazon und Application Auto Scaling ermöglicht APIs. Informationen zu den erforderlichen Mindestberechtigungen finden Sie unter [Beispiele für identitätsbasierte Richtlinien für Application Auto Scaling](https://docs.aws.amazon.com/autoscaling/application/userguide/security_iam_id-based-policy-examples.html) im *Benutzerhandbuch zu Application Auto Scaling*.

Die `SagemakerFullAccessPolicy` IAM-Richtlinie beinhaltet alle zur Durchführung von Auto Scaling erforderlichen IAM-Berechtigungen. Weitere Informationen zu SageMaker KI-IAM-Berechtigungen finden Sie unter[Wie verwendet man SageMaker AI-Ausführungsrollen](sagemaker-roles.md).

Wenn Sie Ihre eigene Berechtigungsrichtlinie verwenden, müssen Sie die folgenden Berechtigungen hinzufügen:

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "sagemaker:DescribeEndpoint",
        "sagemaker:DescribeEndpointConfig",
        "sagemaker:UpdateEndpointWeightsAndCapacities"
      ],
      "Resource": "*"
    },
    {    
        "Effect": "Allow",
        "Action": [
            "application-autoscaling:*"
        ],
        "Resource": "*"
    },
    {
      "Effect": "Allow",
      "Action": "iam:CreateServiceLinkedRole",
      "Resource": "arn:aws:iam::*:role/aws-service-role/sagemaker.application-autoscaling.amazonaws.com/AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint",
      "Condition": {
        "StringLike": { "iam:AWSServiceName": "sagemaker.application-autoscaling.amazonaws.com"	}
      }
    },
    {
      "Effect": "Allow",
      "Action": [
        "cloudwatch:PutMetricAlarm",
        "cloudwatch:DescribeAlarms",
        "cloudwatch:DeleteAlarms"
      ],
      "Resource": "*"
    }
  ]
}
```

------

## Servicegebundene Rolle
<a name="endpoint-auto-scaling-slr"></a>

Auto Scaling verwendet die serviceverknüpfte Rolle `AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint`. Diese Service-verknüpfte Rolle gewährt Application Auto Scaling die Berechtigung zum Beschreiben der Alarme für die Richtlinien, zum Überwachen der aktuellen Kapazitätsstufen und zum Skalieren der Zielressource. Diese Rolle wird automatisch für Sie erstellt. Damit die automatische Rollenerstellung erfolgreich ist, müssen Sie über die Berechtigung für die Aktion `iam:CreateServiceLinkedRole` verfügen. Weitere Informationen finden Sie unter [Serviceverknüpfte Rollen](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-service-linked-roles.html) im *Application Auto Scaling-Benutzerhandbuch*.

# Konfigurieren Sie Auto Scaling für Modelle über die Konsole
<a name="endpoint-auto-scaling-add-console"></a>

**So konfigurieren Sie Auto Scaling für ein Modell (Konsole)**

1. Öffnen Sie die Amazon SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Wählen Sie im Navigationsbereich **Inferenz** und anschließend **Endpunkte** aus. 

1. Wählen Sie Ihren Endpunkt und dann für **Endpunktlaufzeiteinstellungen** die Variante aus.

1. Wählen Sie **Configure auto scaling (Auto Scaling konfigurieren)** aus.

1. Gehen Sie auf der Seite **Auto Scaling von Varianten konfigurieren** unter **Varianten-Auto Scaling** wie folgt vor:

   1. Geben Sie für **Minimale Instance-Anzahl** die Mindestzahl an Instances ein, die die Skalierungsrichtlinie beibehalten soll. Es ist mindestens eine Instance erforderlich.

   1. Geben Sie für **Maximale Instance-Anzahl** die Höchstzahl an Instances ein, die die Skalierungsrichtlinie beibehalten soll.

1. Gehen Sie unter **Integrierte Skalierungsrichtlinie** wie folgt vor:

   1. Für die **Zielmetrik** ist `SageMakerVariantInvocationsPerInstance` automatisch ausgewählt und kann nicht geändert werden.

   1. Geben Sie für den **Zielwert** die durchschnittliche Anzahl der Aufrufe pro Instance pro Minute für das Modell ein. Um diesen Wert festzulegen, befolgen Sie die Richtlinien auf [Lasttest](endpoint-scaling-loadtest.md).

   1. (Optional) Geben Sie für **Cooldown für Herunterskalieren (Sekunden)** und **Cooldown für Hochskalieren (Sekunden)** die Zeit für jede Ruhephase in Sekunden ein.

   1. (Optional) Wählen Sie **Skalierung deaktivieren** aus, wenn Sie nicht möchten, dass Auto Scaling die Instances beendet, wenn der Traffic abnimmt.

1. Wählen Sie **Speichern**.

Dieses Verfahren registriert ein Modell als skalierbares Ziel mit Application Auto Scaling. Wenn Sie ein Modell registrieren, nimmt Application Auto Scaling Überprüfungen vor, um sicherzustellen, dass:
+ Das Modell existiert
+ die Berechtigungen ausreichen
+ Sie keine Variante mit einer Instance registrieren, die eine Burstable Performance Instance wie T2 ist
**Anmerkung**  
SageMaker KI unterstützt Auto Scaling für Burstable-Instances wie T2 nicht, da sie bereits eine höhere Kapazität bei erhöhten Workloads ermöglichen. Informationen zu Instances mit Spitzenlastleistung finden Sie unter [Instance-Typen von Amazon EC2](https://aws.amazon.com/ec2/instance-types/).

# Registrieren eines Modells
<a name="endpoint-auto-scaling-add-policy"></a>

Bevor Sie Ihrem Modell eine Skalierungsrichtlinie hinzufügen, müssen Sie Ihr Modell zunächst für Auto Scaling registrieren und die Skalierungsgrenzen für das Modell definieren.

Die folgenden Verfahren beschreiben, wie Sie ein Modell (Produktionsvariante) für Auto Scaling mithilfe der API AWS Command Line Interface (AWS CLI) oder Application Auto Scaling registrieren.

**Topics**
+ [Registrieren eines Modells (AWS CLI)](#endpoint-auto-scaling-add-cli)
+ [Ein Modell registrieren (Application Auto Scaling Anwendungen-API)](#endpoint-auto-scaling-add-api)

## Registrieren eines Modells (AWS CLI)
<a name="endpoint-auto-scaling-add-cli"></a>

Verwenden Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)Befehl mit den folgenden Parametern, um Ihre Produktionsvariante zu registrieren:
+ `--service-namespace` – Stellen Sie diesen Wert auf `sagemaker` ein.
+ `--resource-id`-Die Ressourcenkennung für das Modell (insbesondere die Produktionsvariante). Für diesen Parameter lautet der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Produktionsvariante. Beispiel, `endpoint/my-endpoint/variant/my-variant`.
+ `--scalable-dimension` – Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.
+ `--min-capacity` – Mindestanzahl von Instances Dieser Wert muss auf mindestens 1 gesetzt werden und muss gleich oder kleiner sein als der für `max-capacity` angegebene Wert.
+ `--max-capacity` – Höchstzahl von Instances Dieser Wert muss auf mindestens 1 gesetzt werden und muss gleich oder größer sein als der für `min-capacity` angegebene Wert.

**Example**  
Das folgende Beispiel zeigt, wie Sie eine Variante mit dem Namen `my-variant` registrieren, die auf dem Endpunkt `my-endpoint` ausgeführt wird und dynamisch skaliert werden kann, um eine bis acht Instances zu erhalten.  

```
aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --scalable-dimension sagemaker:variant:DesiredInstanceCount \
  --min-capacity 1 \
  --max-capacity 8
```

## Ein Modell registrieren (Application Auto Scaling Anwendungen-API)
<a name="endpoint-auto-scaling-add-api"></a>

Um Ihr Modell bei Application Auto Scaling zu registrieren, verwenden Sie die API-Aktion [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) Application Auto Scaling mit den folgenden Parametern:
+ `ServiceNamespace` – Stellen Sie diesen Wert auf `sagemaker` ein.
+ `ResourceID`-Die Ressourcenkennung für die Produktionsvariante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Zum Beispiel `endpoint/my-endpoint/variant/my-variant`.
+ `ScalableDimension` – Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.
+ `MinCapacity` – Mindestanzahl von Instances Dieser Wert muss auf mindestens 1 gesetzt werden und muss gleich oder kleiner sein als der für `MaxCapacity` angegebene Wert.
+ `MaxCapacity` – Höchstzahl von Instances Dieser Wert muss auf mindestens 1 gesetzt werden und muss gleich oder größer sein als der für `MinCapacity` angegebene Wert.

**Example**  
Das folgende Beispiel zeigt, wie Sie eine Variante mit dem Namen `my-variant` registrieren, die auf dem Endpunkt `my-endpoint` ausgeführt wird und dynamisch skaliert werden kann, um eine bis acht Instances zu erhalten.  

```
POST / HTTP/1.1
Host: application-autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget
X-Amz-Date: 20230506T182145Z
User-Agent: aws-cli/2.0.0 Python/3.7.5 Windows/10 botocore/2.0.0dev4
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/my-endpoint/variant/my-variant",
    "ScalableDimension": "sagemaker:variant:DesiredInstanceCount",
    "MinCapacity": 1,
    "MaxCapacity": 8
}
```

# Definieren einer Skalierungsrichtlinie
<a name="endpoint-auto-scaling-add-code-define"></a>

Bevor Sie eine Skalierungsrichtlinie zu Ihrem Modell hinzufügen, speichern Sie Ihre Richtlinienkonfiguration als JSON-Block in einer Textdatei. Sie verwenden diese Textdatei, wenn Sie die AWS Command Line Interface (AWS CLI) oder die Application Auto Scaling Scaling-API aufrufen. Sie können die Skalierung optimieren, indem Sie eine geeignete CloudWatch Metrik auswählen. Bevor Sie jedoch eine benutzerdefinierte Metrik in einer Produktionsumgebung verwenden, müssen Sie Auto Scaling mit Ihrer benutzerdefinierten Metrik testen.

**Topics**
+ [Geben Sie eine vordefinierte Metrik an (CloudWatch Metrik: InvocationsPerInstance)](#endpoint-auto-scaling-add-code-predefined)
+ [Geben Sie eine vordefinierte Metrik mit hoher Auflösung an (CloudWatch Metriken: ConcurrentRequestsPerModel und ConcurrentRequestsPerCopy)](#endpoint-auto-scaling-add-code-high-res)
+ [Definieren Sie eine benutzerdefinierte Metrik (CloudWatch Metrik: CPUUtilization)](#endpoint-auto-scaling-add-code-custom)
+ [Definieren Sie eine benutzerdefinierte Metrik (CloudWatch Metrik: ExplanationsPerInstance)](#endpoint-auto-scaling-online-explainability)
+ [Angabe von Ruhephasen](#endpoint-auto-scaling-add-code-cooldown)

In diesem Abschnitt finden Sie beispielhafte Richtlinienkonfigurationen für Skalierungsrichtlinien zur Zielverfolgung.

## Geben Sie eine vordefinierte Metrik an (CloudWatch Metrik: InvocationsPerInstance)
<a name="endpoint-auto-scaling-add-code-predefined"></a>

**Example**  
Nachfolgend finden Sie ein Beispiel für eine Richtlinienkonfiguration zur Zielverfolgung für eine Variante, welche die durchschnittlichen Aufrufe pro Instance bei 70 hält. Speichern Sie diese Konfiguration in einer Datei mit dem Namen `config.json`.  

```
{
    "TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
    }
}
```
Weitere Informationen finden Sie [TargetTrackingScalingPolicyConfiguration](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_TargetTrackingScalingPolicyConfiguration.html)in der *API-Referenz für Application Auto Scaling*.

## Geben Sie eine vordefinierte Metrik mit hoher Auflösung an (CloudWatch Metriken: ConcurrentRequestsPerModel und ConcurrentRequestsPerCopy)
<a name="endpoint-auto-scaling-add-code-high-res"></a>

Mit den folgenden hochauflösenden CloudWatch Metriken können Sie Skalierungsrichtlinien für das Volumen der gleichzeitigen Anfragen festlegen, die Ihre Modelle erhalten:

**ConcurrentRequestsPerModel**  
Legt die Anzahl der gleichzeitigen Anforderungen fest, die von einem Modellcontainer empfangen werden.

**ConcurrentRequestsPerCopy**  
Legt die Anzahl der gleichzeitigen Anforderungen fest, die von einer Inferenzkomponente empfangen werden.

Diese Metriken verfolgen die Anzahl der gleichzeitigen Anforderungen, die Ihre Modellcontainer verarbeiten, einschließlich der Anforderungen, die sich in den Containern in der Warteschlange befinden. Bei Modellen, die ihre Inferenzantwort als Token-Stream senden, verfolgen diese Metriken jede Anforderung, bis das Modell das letzte Token für die Anforderung sendet.

Als hochauflösende Metriken geben sie Daten häufiger aus als Standardmetriken. CloudWatch Standardmetriken, wie die `InvocationsPerInstance`-Metrik, geben einmal pro Minute Daten aus. Diese hochauflösenden Metriken geben hingegen alle 10 Sekunden Daten aus. Bei einer Zunahme des gleichzeitigen Datenverkehrs zu Ihren Modellen reagiert Ihre Richtlinie mit einer deutlich schnelleren Aufskalierung als es bei Standardmetriken der Fall wäre. Wenn der Datenverkehr zu Ihren Modellen jedoch abnimmt, erfolgt die Abskalierung durch die Richtlinie genauso schnell wie bei Standardmetriken.

Im Folgenden finden Sie ein Beispiel für eine Richtlinienkonfiguration zur Zielverfolgung, die Instances hinzufügt, wenn die Anzahl gleichzeitiger Anforderungen pro Modell auf über 5 steigt. Speichern Sie diese Konfiguration in einer Datei mit dem Namen `config.json`.

```
{
    "TargetValue": 5.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantConcurrentRequestsPerModelHighResolution"
    }
}
```

Wenn Sie Inferenzkomponenten verwenden, um mehrere Modelle auf demselben Endpunkt bereitzustellen, können Sie eine entsprechende Richtlinie erstellen. Stellen Sie in diesem Fall `PredefinedMetricType` auf `SageMakerInferenceComponentConcurrentRequestsPerCopyHighResolution` ein.

Weitere Informationen finden Sie [TargetTrackingScalingPolicyConfiguration](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_TargetTrackingScalingPolicyConfiguration.html)in der *API-Referenz für Application Auto Scaling*.

## Definieren Sie eine benutzerdefinierte Metrik (CloudWatch Metrik: CPUUtilization)
<a name="endpoint-auto-scaling-add-code-custom"></a>

Um eine Skalierungsrichtlinie zur Zielverfolgung mit einer benutzerdefinierten Metrik zu erstellen, geben Sie den Namen, den Namespace, die Einheit, die Statistik und null oder mehr Dimensionen für die Metrik an. Dimensionen bestehen aus einem Dimensionsnamen und einem Dimensionswert. Sie können eine beliebige Variantenmetrik verwenden, die sich proportional zur Kapazität ändert. 

**Example**  
Die folgende Beispielkonfiguration zeigt eine Skalierungsrichtlinie für die Zielnachverfolgung mit einer benutzerdefinierten Metrik. Die Richtlinie skaliert die Variante basierend auf einer durchschnittlichen CPU-Auslastung von 50 % über alle Instances hinweg. Speichern Sie diese Konfiguration in einer Datei mit dem Namen `config.json`.  

```
{
    "TargetValue": 50.0,
    "CustomizedMetricSpecification":
    {
        "MetricName": "CPUUtilization",
        "Namespace": "/aws/sagemaker/Endpoints",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "VariantName","Value": "my-variant"}
        ],
        "Statistic": "Average",
        "Unit": "Percent"
    }
}
```
Weitere Informationen finden Sie [CustomizedMetricSpecification](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_CustomizedMetricSpecification.html)in der *API-Referenz für Application Auto Scaling*. 

## Definieren Sie eine benutzerdefinierte Metrik (CloudWatch Metrik: ExplanationsPerInstance)
<a name="endpoint-auto-scaling-online-explainability"></a>

Wenn für den Endpunkt die Online-Erklärbarkeit aktiviert ist, wird eine `ExplanationsPerInstance`-Metrik ausgegeben, die die durchschnittliche Anzahl erklärter Datensätze pro Minute und Instance für eine Variante ausgibt. Die Ressourcennutzung bei der Erklärung von Datensätzen kann sich stärker von der der Vorhersage von Datensätzen unterscheiden. Wir empfehlen dringend, diese Metrik für die Skalierung der Zielnachverfolgung von Endpunkten zu verwenden, wenn die Online-Erklärbarkeit aktiviert ist.

Sie können mehrere Zielverfolgungsrichtlinien für ein skalierbares Ziel erstellen. Erwägen Sie, die `InvocationsPerInstance`-Richtlinie aus dem Abschnitt [Geben Sie eine vordefinierte Metrik an (CloudWatch Metrik: InvocationsPerInstance)](#endpoint-auto-scaling-add-code-predefined) hinzuzufügen (zusätzlich zur `ExplanationsPerInstance`-Richtlinie). Wenn die meisten Aufrufe aufgrund des im `EnableExplanations`-Parameter festgelegten Schwellenwerts keine Erklärung zurückgeben, kann der Endpunkt die Richtlinie `InvocationsPerInstance` auswählen. Wenn eine große Anzahl von Erklärungen vorliegt, kann der Endpunkt die Richtlinie `ExplanationsPerInstance` verwenden. 

**Example**  
Die folgende Beispielkonfiguration zeigt eine Skalierungsrichtlinie für die Zielnachverfolgung mit einer benutzerdefinierten Metrik. Die Richtlinienskala dient zur Einstellung der Anzahl der Varianten-Instances, damit für jede Instance `ExplanationsPerInstance`-Metrik auf 20 festgelegt ist. Speichern Sie diese Konfiguration in einer Datei mit dem Namen `config.json`.  

```
{
    "TargetValue": 20.0,
    "CustomizedMetricSpecification":
    {
        "MetricName": "ExplanationsPerInstance",
        "Namespace": "AWS/SageMaker",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "VariantName","Value": "my-variant"}
        ],
        "Statistic": "Sum"
    }
}
```

Weitere Informationen finden Sie [CustomizedMetricSpecification](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_CustomizedMetricSpecification.html)in der *API-Referenz für Application Auto Scaling*. 

## Angabe von Ruhephasen
<a name="endpoint-auto-scaling-add-code-cooldown"></a>

In Ihrer Skalierungsrichtlinie für die Zielverfolgung können Sie optional Ruhephasen definieren, indem Sie die Parameter `ScaleOutCooldown` und `ScaleInCooldown` festlegen. 

**Example**  
Nachfolgend finden Sie ein Beispiel für eine Richtlinienkonfiguration zur Zielverfolgung für eine Variante, welche die durchschnittlichen Aufrufe pro Instance bei 70 hält. Die Richtlinienkonfiguration sieht eine Ruhephase von 10 Minuten (600 Sekunden) zum Abskalieren und eine Ruhephase von 5 Minuten (300 Sekunden) zum Aufskalieren vor. Speichern Sie diese Konfiguration in einer Datei mit dem Namen `config.json`.   

```
{
    "TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
    },
    "ScaleInCooldown": 600,
    "ScaleOutCooldown": 300
}
```
Weitere Informationen finden Sie [TargetTrackingScalingPolicyConfiguration](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_TargetTrackingScalingPolicyConfiguration.html)in der *API-Referenz für Application Auto Scaling*. 

# Anwenden einer Skalierungsrichtlinie
<a name="endpoint-auto-scaling-add-code-apply"></a>

Nachdem Sie Ihr Modell registriert und eine Skalierungsrichtlinie definiert haben, wenden Sie die Skalierungsrichtlinie auf das registrierte Modell an. In diesem Abschnitt wird gezeigt, wie eine Skalierungsrichtlinie über die AWS Command Line Interface (AWS CLI) oder die Application Auto Scaling API angewendet wird. 

**Topics**
+ [Anwenden einer Skalierungsrichtlinie zur Zielnachverfolgung (AWS CLI)](#endpoint-auto-scaling-add-code-apply-cli)
+ [Wenden Sie eine Skalierungsrichtlinie an (Application Auto Scaling API)](#endpoint-auto-scaling-add-code-apply-api)

## Anwenden einer Skalierungsrichtlinie zur Zielnachverfolgung (AWS CLI)
<a name="endpoint-auto-scaling-add-code-apply-cli"></a>

Verwenden Sie den [put-scaling-policy](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/put-scaling-policy.html) AWS CLI Befehl mit den folgenden Parametern, um eine Skalierungsrichtlinie auf Ihr Modell anzuwenden:
+ `--policy-name` – Der Name der Skalierungsrichtlinie.
+ `--policy-type`-Stellen Sie diesen Wert auf `TargetTrackingScaling` ein.
+ `--resource-id`- Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Beispiel, `endpoint/my-endpoint/variant/my-variant`.
+ `--service-namespace`-Stellen Sie diesen Wert auf `sagemaker` ein.
+ `--scalable-dimension`-Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.
+ `--target-tracking-scaling-policy-configuration` – Die Konfiguration der Skalierungsrichtlinie für die Zielnachverfolgung, die für das Modell verwendet werden soll.

**Example**  
Im folgenden Beispiel wird eine Skalierungsrichtlinie zur Zielnachverfolgung namens `my-scaling-policy` auf eine Variante namens `my-endpoint` angewendet, die auf dem Endpunkt `my-variant` ausgeführt wird. Geben Sie unter der Option `--target-tracking-scaling-policy-configuration` die `config.json`-Datei an, die Sie zuvor erstellt haben.   

```
aws application-autoscaling put-scaling-policy \
  --policy-name my-scaling-policy \
  --policy-type TargetTrackingScaling \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredInstanceCount \
  --target-tracking-scaling-policy-configuration file://config.json
```

## Wenden Sie eine Skalierungsrichtlinie an (Application Auto Scaling API)
<a name="endpoint-auto-scaling-add-code-apply-api"></a>

Um auf eine Variante mit der Application Auto Scaling API eine Skalierungsrichtlinie anzuwenden, verwenden Sie die Aktion Application Auto Scaling API [PutScalingPolicy](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_PutScalingPolicy.html) mit den folgenden Parametern:
+ `PolicyName` – Der Name der Skalierungsrichtlinie.
+ `ServiceNamespace`-Stellen Sie diesen Wert auf `sagemaker` ein.
+ `ResourceID`- Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Beispiel, `endpoint/my-endpoint/variant/my-variant`.
+ `ScalableDimension`-Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.
+ `PolicyType`-Stellen Sie diesen Wert auf `TargetTrackingScaling` ein.
+ `TargetTrackingScalingPolicyConfiguration`-Die für die Variante zu verwendende Konfiguration der Skalierungsrichtlinie für die Zielverfolgung.

**Example**  
Im folgenden Beispiel wird eine Skalierungsrichtlinie zur Zielnachverfolgung namens `my-scaling-policy` auf eine Variante namens `my-endpoint` angewendet, die auf dem Endpunkt `my-variant` ausgeführt wird. Die Richtlinienkonfiguration hält die durchschnittlichen Aufrufe pro Instance bei 70.  

```
POST / HTTP/1.1
Host: application-autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.
X-Amz-Date: 20230506T182145Z
User-Agent: aws-cli/2.0.0 Python/3.7.5 Windows/10 botocore/2.0.0dev4
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "PolicyName": "my-scaling-policy",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/my-endpoint/variant/my-variant",
    "ScalableDimension": "sagemaker:variant:DesiredInstanceCount",
    "PolicyType": "TargetTrackingScaling",
    "TargetTrackingScalingPolicyConfiguration": {
        "TargetValue": 70.0,
        "PredefinedMetricSpecification":
        {
            "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
        }
    }
}
```

# Anweisungen zum Bearbeiten einer Skalierungsrichtlinie
<a name="endpoint-auto-scaling-edit"></a>

Nachdem Sie eine Skalierungsrichtlinie erstellt haben, können Sie alle Einstellungen mit Ausnahme des Namens bearbeiten.

 Verwenden Sie dasselbe Verfahren wie früher AWS-Managementkonsole, um eine Skalierungsrichtlinie für die Zielverfolgung mit der zu bearbeiten[Konfigurieren Sie Auto Scaling für Modelle über die Konsole](endpoint-auto-scaling-add-console.md).

Sie können die AWS CLI oder die Application Auto Scaling Scaling-API verwenden, um eine Skalierungsrichtlinie auf die gleiche Weise zu bearbeiten, wie Sie eine neue Skalierungsrichtlinie erstellen. Weitere Informationen finden Sie unter [Anwenden einer Skalierungsrichtlinie](endpoint-auto-scaling-add-code-apply.md).

# Vorübergehendes Deaktivieren von Skalierungsrichtlinien
<a name="endpoint-auto-scaling-suspend-scaling-activities"></a>

Nachdem Sie Auto Scaling konfiguriert haben, haben Sie die folgenden Optionen, wenn Sie ein Problem untersuchen müssen, ohne von Skalierungsrichtlinien beeinträchtigt zu werden (dynamische Skalierung):
+ Unterbrechen Sie die Skalierungsaktivitäten vorübergehend und setzen Sie sie dann fort, indem Sie den [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)CLI-Befehl oder die [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html)API-Aktion aufrufen und einen booleschen Wert für sowohl als auch `DynamicScalingInSuspended` angeben. `DynamicScalingOutSuspended`   
**Example**  

  Das folgende Beispiel zeigt, wie Skalierungsrichtlinien für eine Variante namens `my-variant`, die auf dem Endpunkt `my-endpoint` ausgeführt wird, ausgesetzt werden.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --resource-id endpoint/my-endpoint/variant/my-variant \
    --scalable-dimension sagemaker:variant:DesiredInstanceCount \
    --suspended-state '{"DynamicScalingInSuspended":true,"DynamicScalingOutSuspended":true}'
  ```
+ Verhindern Sie, dass bestimmte Zielverfolgungs-Skalierungsrichtlinien eine Abskalierung in Ihrer Variante durchführen, indem Sie den Abskalierungsteil der Richtlinie deaktivieren. Diese Methode verhindert das Löschen von Instances durch die Skalierungsrichtlinie und erlaubt ihr dennoch, Instances nach Bedarf zu erstellen.

  Deaktivieren Sie vorübergehend Scale-In-Aktivitäten und aktivieren Sie sie dann, indem Sie die Richtlinie mit dem [put-scaling-policy](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/put-scaling-policy.html)CLI-Befehl oder der [PutScalingPolicy](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_PutScalingPolicy.html)API-Aktion bearbeiten und einen booleschen Wert für angeben. `DisableScaleIn`  
**Example**  

  Im Folgenden finden Sie eine Beispielkonfiguration für die Zielnachverfolgung für eine Skalierungsrichtlinie, die das Aufskalieren, aber kein Abskalieren ermöglicht. 

  ```
  {
      "TargetValue": 70.0,
      "PredefinedMetricSpecification":
      {
          "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
      },
      "DisableScaleIn": true
  }
  ```

# Löschen einer Skalierungsrichtlinie
<a name="endpoint-auto-scaling-delete"></a>

Wenn Sie keine Skalierungsrichtlinie mehr benötigen, können Sie diese jederzeit löschen.

**Topics**
+ [Löschen aller Skalierungsrichtlinien und Aufheben der Registrierung des Modells (Konsole)](#endpoint-auto-scaling-delete-console)
+ [Löschen Sie eine Skalierungsrichtlinie (AWS CLI oder eine Application Auto Scaling Scaling-API)](#endpoint-auto-scaling-delete-code)

## Löschen aller Skalierungsrichtlinien und Aufheben der Registrierung des Modells (Konsole)
<a name="endpoint-auto-scaling-delete-console"></a>

**So löschen Sie alle Skalierungsrichtlinien und heben die Registrierung der Variante als skalierbares Ziel auf**

1. Öffnen Sie die Amazon SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Wählen Sie im Navigationsbereich **Endpunkte** aus.

1. Wählen Sie Ihren Endpunkt und dann für **Endpunktlaufzeiteinstellungen** die Variante aus.

1. Wählen Sie **Configure auto scaling (Auto Scaling konfigurieren)** aus.

1. Wählen Sie **Deregister auto scaling (Auto Scaling abmelden)** aus.

## Löschen Sie eine Skalierungsrichtlinie (AWS CLI oder eine Application Auto Scaling Scaling-API)
<a name="endpoint-auto-scaling-delete-code"></a>

Sie können die AWS CLI oder die Application Auto Scaling API verwenden, um eine Skalierungsrichtlinie aus einer Variante zu löschen.

### Löschen einer Skalierungsrichtlinie (AWS CLI)
<a name="endpoint-auto-scaling-delete-code-cli"></a>

Um eine Skalierungsrichtlinie aus einer Variante zu löschen, verwenden Sie den [delete-scaling-policy](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/delete-scaling-policy.html)Befehl mit den folgenden Parametern:
+ `--policy-name` – Der Name der Skalierungsrichtlinie.
+ `--resource-id`- Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Beispiel, `endpoint/my-endpoint/variant/my-variant`.
+ `--service-namespace`-Stellen Sie diesen Wert auf `sagemaker` ein.
+ `--scalable-dimension`-Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.

**Example**  
Im folgenden Beispiel wird eine Skalierungsrichtlinie zur Zielnachverfolgung namens `my-scaling-policy` aus einer Variante namens `my-endpoint` gelöscht, die auf dem Endpunkt `my-variant` ausgeführt wird.  

```
aws application-autoscaling delete-scaling-policy \
  --policy-name my-scaling-policy \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredInstanceCount
```

### Eine Skalierungsrichtlinie löschen (Application Auto Scaling API)
<a name="endpoint-auto-scaling-delete-code-api"></a>

Um eine Skalierungsrichtlinie für Ihre Variante zu löschen, verwenden Sie die API-Maßnahme [DeleteScalingPolicy](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_DeleteScalingPolicy.html) Application Auto Scaling mit den folgenden Parametern:
+ `PolicyName` – Der Name der Skalierungsrichtlinie.
+ `ServiceNamespace`-Stellen Sie diesen Wert auf `sagemaker` ein.
+ `ResourceID`- Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Beispiel, `endpoint/my-endpoint/variant/my-variant`.
+ `ScalableDimension`-Stellen Sie diesen Wert auf `sagemaker:variant:DesiredInstanceCount` ein.

**Example**  
Im folgenden Beispiel wird eine Skalierungsrichtlinie zur Zielnachverfolgung namens `my-scaling-policy` aus einer Variante namens `my-endpoint` gelöscht, die auf dem Endpunkt `my-variant` ausgeführt wird.  

```
POST / HTTP/1.1
Host: application-autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.DeleteScalingPolicy
X-Amz-Date: 20230506T182145Z
User-Agent: aws-cli/2.0.0 Python/3.7.5 Windows/10 botocore/2.0.0dev4
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "PolicyName": "my-scaling-policy",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/my-endpoint/variant/my-variant",
    "ScalableDimension": "sagemaker:variant:DesiredInstanceCount"
}
```

# Überprüfen des Status einer Skalierungsaktivität durch Beschreibung der Skalierungsaktivitäten
<a name="endpoint-scaling-query-history"></a>

Sie können den Status einer Skalierungsaktivität für Ihren automatisch skalierten Endpunkt überprüfen, indem Sie die Skalierungsaktivitäten beschreiben. Application Auto Scaling liefert beschreibende Informationen zu den Skalierungsaktivitäten im angegebenen Namespace aus den letzten sechs Wochen. Weitere Informationen finden Sie unter [Skalierungsaktivitäten für Application Auto Scaling](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-scaling-activities.html) im *Benutzerhandbuch zum Application Auto Scaling*.

Verwenden Sie den [describe-scaling-activities](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/describe-scaling-activities.html)Befehl, um den Status einer Skalierungsaktivität zu überprüfen. Sie können den Status einer Skalierungsaktivität nicht mit der Konsole überprüfen.

**Topics**
+ [Beschreiben von Skalierungsaktivitäten (AWS CLI)](#endpoint-how-to)
+ [Erkennen von blockierten Skalierungsaktivitäten anhand von Instance-Kontingenten (AWS CLI)](#endpoint-identify-blocked-autoscaling)

## Beschreiben von Skalierungsaktivitäten (AWS CLI)
<a name="endpoint-how-to"></a>

Um die Skalierungsaktivitäten für alle SageMaker KI-Ressourcen zu beschreiben, die bei Application Auto Scaling registriert sind, verwenden Sie den [describe-scaling-activities](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/describe-scaling-activities.html)Befehl und geben Sie `sagemaker` die `--service-namespace` Option an.

```
aws application-autoscaling describe-scaling-activities \
  --service-namespace sagemaker
```

Um Skalierungsaktivitäten für eine bestimmte Ressource zu beschreiben, fügen Sie die Option `--resource-id` hinzu. 

```
aws application-autoscaling describe-scaling-activities \
  --service-namespace sagemaker \
  --resource-id endpoint/my-endpoint/variant/my-variant
```

Das folgende Beispiel zeigt die Ausgabe, die beim Ausführen dieses Befehls erzeugt wird.

```
{
    "ActivityId": "activity-id",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/my-endpoint/variant/my-variant",
    "ScalableDimension": "sagemaker:variant:DesiredInstanceCount",
    "Description": "string",
    "Cause": "string",
    "StartTime": timestamp,
    "EndTime": timestamp,
    "StatusCode": "string",
    "StatusMessage": "string"
}
```

## Erkennen von blockierten Skalierungsaktivitäten anhand von Instance-Kontingenten (AWS CLI)
<a name="endpoint-identify-blocked-autoscaling"></a>

Wenn Sie aufskalieren (weitere Instances hinzufügen), erreichen Sie ggf. Ihr Instance-Kontingent auf Kontoebene. Sie können den [describe-scaling-activities](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/describe-scaling-activities.html)Befehl verwenden, um zu überprüfen, ob Sie Ihr Instance-Kontingent erreicht haben. Wenn Sie Ihr Kontingent überschreiten, wird das Auto Scaling blockiert. 

Um zu überprüfen, ob Sie Ihr Instanzkontingent erreicht haben, verwenden Sie den [describe-scaling-activities](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/describe-scaling-activities.html)Befehl und geben Sie die Ressourcen-ID für die `--resource-id` Option an. 

```
aws application-autoscaling describe-scaling-activities \
    --service-namespace sagemaker \
    --resource-id endpoint/my-endpoint/variant/my-variant
```

Überprüfen Sie in der Syntax der Antwort die Tasten [StatusCode](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_ScalingActivity.html#autoscaling-Type-ScalingActivity-StatusCode) und [StatusMessage](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_ScalingActivity.html#autoscaling-Type-ScalingActivity-StatusMessage)und die zugehörigen Werte. `StatusCode` gibt `Failed` zurück. `StatusMessage` enthält die Meldung, dass das Service Quota auf Kontoebene erreicht wurde. Es folgt ein Beispiel dafür, wie diese Mitteilung aussehen könnte: 

```
{
    "ActivityId": "activity-id",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/my-endpoint/variant/my-variant",
    "ScalableDimension": "sagemaker:variant:DesiredInstanceCount",
    "Description": "string",
    "Cause": "minimum capacity was set to 110",
    "StartTime": timestamp,
    "EndTime": timestamp,
    "StatusCode": "Failed",
    "StatusMessage": "Failed to set desired instance count to 110. Reason: The 
    account-level service limit 'ml.xx.xxxxxx for endpoint usage' is 1000 
    Instances, with current utilization of 997 Instances and a request delta 
    of 20 Instances. Please contact AWS support to request an increase for this 
    limit. (Service: AmazonSageMaker; Status Code: 400; 
    Error Code: ResourceLimitExceeded; Request ID: request-id)."
}
```

# Skalieren eines Endpunkts auf null Instances
<a name="endpoint-auto-scaling-zero-instances"></a>

Wenn Sie Auto Scaling für einen Endpunkt einrichten, können Sie zulassen, dass beim Abskalierungsprozess die Anzahl der betriebsbereiten Instances auf Null reduziert wird. Auf diese Weise sparen Sie Kosten in Zeiten, in denen Ihr Endpunkt keine Inferenzanforderungen bedient und daher keine aktiven Instances benötigt. 

Nach der Skalierung auf null Instances kann Ihr Endpunkt jedoch erst dann auf eingehende Inferenzanforderungen antworten, wenn er mindestens eine Instance bereitstellt. Um den Bereitstellungsprozess zu automatisieren, erstellen Sie eine Richtlinie zur schrittweisen Skalierung mit Application Auto Scaling. Anschließend weisen Sie die Richtlinie einem CloudWatch Amazon-Alarm zu.

Nachdem Sie die Richtlinie zur schrittweisen Skalierung und den Alarm eingerichtet haben, stellt Ihr Endpunkt automatisch eine Instance bereit, sobald er eine Inferenzanforderung erhält, auf die er nicht antworten kann. Beachten Sie, dass der Bereitstellungsprozess mehrere Minuten dauert. Während dieser Zeit führen alle Versuche, den Endpunkt aufzurufen, zu einem Fehler.

In den folgenden Verfahren wird erklärt, wie Sie beim Auto Scaling für einen Endpunkt die Abskalierung auf null Instances und die Aufskalierung von null Instances konfigurieren. Bei diesen Verfahren werden AWS CLI-Befehle verwendet.

**Bevor Sie beginnen**

Ihr Endpunkt muss die folgenden Voraussetzungen erfüllen, bevor er auf null Instances abskaliert bzw. von null Instances aufskaliert werden kann.
+ Er ist betriebsbereit.
+ Es hostet eine oder mehrere Inferenzkomponenten. Ein Endpunkt kann nur dann auf null Instances abskaliert und von null Instances aufskaliert werden, wenn er Inferenzkomponenten hostet.

  Informationen zum Hosten von Inferenzkomponenten auf SageMaker KI-Endpunkten finden Sie unter. [Modelle für Echtzeit-Inferenzen bereitstellen](realtime-endpoints-deploy-models.md)
+ In der Endpunktkonfiguration haben Sie für das `ManagedInstanceScaling`-Objekt der Produktionsvariante den Parameter `MinInstanceCount` auf `0` gesetzt.

  Referenzinformationen zu diesem Parameter finden Sie unter. [ProductionVariantManagedInstanceScaling](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariantManagedInstanceScaling.html)

**So aktivieren Sie die Abskalierung eines Endpunkts auf null Instances (AWS CLI)**

Gehen Sie für jede Inferenzkomponente, die der Endpunkt hostet, wie folgt vor:

1. Registrieren Sie die Inferenzkomponente als skalierbares Ziel. Legen Sie bei der Registrierung die Mindestkapazität auf `0` fest, wie im folgenden Befehl dargestellt:

   ```
   aws application-autoscaling register-scalable-target \
     --service-namespace sagemaker \
     --resource-id inference-component/inference-component-name \
     --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
     --min-capacity 0 \
     --max-capacity n
   ```

   Ersetzen Sie ihn in diesem Beispiel *inference-component-name* durch den Namen Ihrer Inferenzkomponente. *n*Ersetzen Sie durch die maximale Anzahl von Kopien der Inferenzkomponenten, die beim Skalieren bereitgestellt werden sollen.

   Weitere Informationen zu diesem Befehl und seinen einzelnen Parametern finden Sie [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)in der *AWS CLI Befehlsreferenz.*

1. Wenden Sie eine Zielverfolgungsrichtlinie auf die Inferenzkomponente an, wie im folgenden Befehl dargestellt:

   ```
   aws application-autoscaling put-scaling-policy \
     --policy-name my-scaling-policy \
     --policy-type TargetTrackingScaling \
     --resource-id inference-component/inference-component-name \
     --service-namespace sagemaker \
     --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
     --target-tracking-scaling-policy-configuration file://config.json
   ```

   Ersetzen Sie in diesem Beispiel *inference-component-name* durch den Namen Ihrer Inferenzkomponente.

   In dem Beispiel enthält die `config.json`-Datei eine Richtlinienkonfiguration für die Zielverfolgung wie die folgende:

   ```
   {
     "PredefinedMetricSpecification": {
         "PredefinedMetricType": "SageMakerInferenceComponentInvocationsPerCopy"
     },
     "TargetValue": 1,
     "ScaleInCooldown": 300,
     "ScaleOutCooldown": 300
   }
   ```

   Weitere Beispiele für Richtlinienkonfigurationen zur Nachverfolgung finden Sie unter [Definieren einer Skalierungsrichtlinie](endpoint-auto-scaling-add-code-define.md).

   Weitere Informationen zu diesem Befehl und seinen einzelnen Parametern finden Sie [put-scaling-policy](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/put-scaling-policy.html)in der *AWS CLI Befehlsreferenz.*

**So aktivieren Sie die Aufskalierung eines Endpunkts von null Instances (AWS CLI)**

Gehen Sie für jede Inferenzkomponente, die der Endpunkt hostet, wie folgt vor:

1. Wenden Sie eine Richtlinie zur schrittweisen Skalierung auf die Inferenzkomponente an, wie im folgenden Befehl dargestellt:

   ```
   aws application-autoscaling put-scaling-policy \
     --policy-name my-scaling-policy \
     --policy-type StepScaling \
     --resource-id inference-component/inference-component-name \
     --service-namespace sagemaker \
     --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
     --step-scaling-policy-configuration file://config.json
   ```

   Ersetzen Sie es in diesem Beispiel *my-scaling-policy* durch einen eindeutigen Namen für Ihre Richtlinie. *inference-component-name*Ersetzen Sie ihn durch den Namen Ihrer Inferenzkomponente.

   In dem Beispiel enthält die `config.json`-Datei eine Richtlinienkonfiguration für die schrittweise Skalierung wie die folgende:

   ```
   {
       "AdjustmentType": "ChangeInCapacity",
       "MetricAggregationType": "Maximum",
       "Cooldown": 60,
       "StepAdjustments":
         [
            {
              "MetricIntervalLowerBound": 0,
              "ScalingAdjustment": 1
            }
         ]
   }
   ```

   Wenn diese Richtlinie zur schrittweisen Skalierung ausgelöst wird, stellt SageMaker KI die erforderlichen Instanzen bereit, um die Kopien der Inferenzkomponenten zu unterstützen.

   Notieren Sie nach dem Erstellen der Richtlinie zur schrittweisen Skalierung den Amazon-Ressourcennamen (ARN). Im nächsten Schritt benötigen Sie den ARN für den CloudWatch Alarm.

   Weitere Informationen über Richtlinien zur schrittweisen Skalierung finden Sie unter [Richtlinien zur schrittweisen Skalierung](https://docs.aws.amazon.com/autoscaling/application/userguide/application-auto-scaling-step-scaling-policies.html) im *Benutzerhandbuch zum Auto Scaling von Anwendungen*.

1. Erstellen Sie einen CloudWatch Alarm und weisen Sie ihm die Step Scaling-Richtlinie zu, wie das folgende Beispiel zeigt:

   ```
   aws cloudwatch put-metric-alarm \
   --alarm-actions step-scaling-policy-arn \
   --alarm-description "Alarm when SM IC endpoint invoked that has 0 instances." \
   --alarm-name ic-step-scaling-alarm \
   --comparison-operator GreaterThanThreshold  \
   --datapoints-to-alarm 1 \
   --dimensions "Name=InferenceComponentName,Value=inference-component-name" \
   --evaluation-periods 1 \
   --metric-name NoCapacityInvocationFailures \
   --namespace AWS/SageMaker \
   --period 60 \
   --statistic Sum \
   --threshold 1
   ```

   In diesem Beispiel *step-scaling-policy-arn* ersetzen Sie es durch den ARN Ihrer Step Scaling-Richtlinie. *ic-step-scaling-alarm*Ersetzen Sie es durch einen Namen Ihrer Wahl. *inference-component-name*Ersetzen Sie durch den Namen Ihrer Inferenzkomponente. 

   In diesem Beispiel wird der `--metric-name` Parameter auf gesetzt`NoCapacityInvocationFailures`. SageMaker AI gibt diese Metrik aus, wenn ein Endpunkt eine Inferenzanforderung empfängt, der Endpunkt aber keine aktiven Instanzen hat, um die Anfrage zu bearbeiten. Wenn dieses Ereignis eintritt, initiiert der Alarm die Richtlinie zur schrittweisen Skalierung aus dem vorherigen Schritt.

   Weitere Informationen zu diesem Befehl und seinen einzelnen Parametern finden Sie [put-metric-alarm](https://docs.aws.amazon.com/cli/latest/reference/cloudwatch/put-metric-alarm.html)in der *AWS CLI Befehlsreferenz*.

# Lasttest Ihrer Auto -Scaling-Konfiguration
<a name="endpoint-scaling-loadtest"></a>

Führen Sie Lasttests durch, um eine Skalierungskonfiguration auszuwählen, die so funktioniert, wie Sie es möchten.

Die folgenden Richtlinien zur Durchführung von Lasttests gehen davon aus, dass Sie eine Skalierungsrichtlinie verwenden, die die vorab definierte `SageMakerVariantInvocationsPerInstance`-Kennzahl nutzt.

**Topics**
+ [Bestimmen der Leistungseigenschaften](#endpoint-scaling-loadtest-variant)
+ [Berechnen der Ziellast](#endpoint-scaling-loadtest-calc)

## Bestimmen der Leistungseigenschaften
<a name="endpoint-scaling-loadtest-variant"></a>

Führen Sie Lasttests durch, um die höchste Auslastung `InvocationsPerInstance`, die Ihre Produktionsvariante Ihres Modells verarbeiten kann, und die Latenz der Anfragen, während die Nebenläufigkeit zunimmt, zu finden.

Dieser Wert hängt vom ausgewählten Instance-Typ, von den Nutzlasten, die Kunden in der Regel an Ihr Modell senden sowie von der Performance der externen Abhängigkeiten Ihres Modells ab.

**Um den Spitzenwert requests-per-second (RPS) zu ermitteln, den die Produktionsvariante Ihres Modells bewältigen kann, und die Latenz von Anfragen**

1. Richten Sie mithilfe einer einzigen Instance einen Endpunkt für Ihr Modell ein. Informationen zum Einrichten eines Endpunkts finden Sie unter [Stellen Sie das Modell für SageMaker AI Hosting Services bereit](ex1-model-deployment.md#ex1-deploy-model).

1. Verwenden Sie ein Tool für Lasttests, um eine steigende Anzahl von Parallelanforderungen zu generieren und die Anfragen pro Sekunde (RPS) sowie das Latenzmodell im Ausgang des Tools für Lasttests zu überwachen. 
**Anmerkung**  
Sie können requests-per-minute anstelle von RPS auch überwachen. In diesem Fall multiplizieren Sie in der Gleichung nicht mit 60, um `SageMakerVariantInvocationsPerInstance`, wie unten veranschaulicht, zu berechnen.

   Steigt die Modelllatenz oder verringert sich der Anteil erfolgreicher Transaktionen, dann ist das die Höchstzahl der Anfragen pro Sekunde (RPS), die Ihr Modell verarbeiten kann.

## Berechnen der Ziellast
<a name="endpoint-scaling-loadtest-calc"></a>

Nachdem Sie die Leistungsmerkmale der Variante gefunden haben, können Sie die Höchstzahl der Anfragen pro Sekunde (RPS) bestimmen, die wir an eine Instance senden sollen. Die Schwellenwert, der für die Skalierung verwendet wurde, muss kleiner sein als dieser Maximalwert. Verwenden Sie die folgende Gleichung in Kombination mit einem Lasttest, um den passenden Wert für die Zielkennzahl `SageMakerVariantInvocationsPerInstance` in Ihrer Skalierungskonfiguration festzulegen.

```
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
```

Wo `MAX_RPS` die maximale, durch Sie zuvor festgelegte Anzahl der Anfragen pro Sekunde (RPS) darstellt, und `SAFETY_FACTOR` der Sicherheitsfaktor ist, den Sie gewählt haben, um sicherzustellen, dass Ihre Kunden die Höchstzahl der Anfragen (RPS) nicht überschreiten. Multiplizieren Sie mit 60, um von RPS so umzurechnen, dass es der CloudWatch Minutenmetrik entspricht, die SageMaker KI zur Implementierung von Auto Scaling verwendet (Sie müssen dies nicht tun, wenn Sie requests-per-minute stattdessen messen). invocations-per-minute requests-per-second

**Anmerkung**  
SageMaker AI empfiehlt, dass Sie mit dem Testen mit einem Wert `SAFETY_FACTOR` von 0,5 beginnen. Testen Sie Ihre Skalierungskonfiguration, um sicherzustellen, dass sie wunschgemäß entsprechend Ihres Modells funktioniert, um den Kundendatenverkehr an Ihrem Endpunkt zu erhöhen oder zu senken.

# Wird verwendet CloudFormation , um eine Skalierungsrichtlinie zu erstellen
<a name="endpoint-scaling-cloudformation"></a>

Das folgende Beispiel zeigt, wie Sie Auto Scaling für Modelle auf einem Endpunkt mit CloudFormation konfigurieren.

```
  Endpoint:
    Type: "AWS::SageMaker::Endpoint"
    Properties:
      EndpointName: yourEndpointName
      EndpointConfigName: yourEndpointConfigName

  ScalingTarget:
    Type: "AWS::ApplicationAutoScaling::ScalableTarget"
    Properties:
      MaxCapacity: 10
      MinCapacity: 2
      ResourceId: endpoint/my-endpoint/variant/my-variant
      RoleARN: arn
      ScalableDimension: sagemaker:variant:DesiredInstanceCount
      ServiceNamespace: sagemaker

  ScalingPolicy:
    Type: "AWS::ApplicationAutoScaling::ScalingPolicy"
    Properties:
      PolicyName: my-scaling-policy
      PolicyType: TargetTrackingScaling
      ScalingTargetId:
        Ref: ScalingTarget
      TargetTrackingScalingPolicyConfiguration:
        TargetValue: 70.0
        ScaleInCooldown: 600
        ScaleOutCooldown: 30
        PredefinedMetricSpecification:
          PredefinedMetricType: SageMakerVariantInvocationsPerInstance
```

Weitere Informationen finden Sie unter [Erstellen von Ressourcen für Application Auto Scaling mit AWS CloudFormation](https://docs.aws.amazon.com/autoscaling/application/userguide/creating-resources-with-cloudformation.html) im *Benutzerhandbuch zum Application Auto Scaling*.

# Aktualisieren von Endpunkten, für die das Auto Scaling verwendet wird
<a name="endpoint-scaling-update"></a>

Wenn Sie einen Endpunkt aktualisieren, prüft Application Auto Scaling, ob irgendeines der Modelle auf diesem Endpunkt Ziel für das Auto Scaling ist. Ändert die Aktualisierung den Instance-Typ für ein Modell, das ein Ziel für das Auto Scaling darstellt, so schlägt die Aktualisierung fehl. 

In der wird eine Warnung angezeigt AWS-Managementkonsole, dass Sie das Modell von Auto Scaling abmelden müssen, bevor Sie es aktualisieren können. Wenn Sie versuchen, den Endpunkt zu aktualisieren, indem Sie die [UpdateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpoint.html)-API aufrufen, schlägt der Aufruf fehl. Bevor Sie den Endpunkt aktualisieren, löschen Sie alle für ihn konfigurierten Skalierungsrichtlinien und heben Sie die Registrierung der Variante als skalierbares Ziel auf, indem Sie die API-Aktion [DeregisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_DeregisterScalableTarget.html)Application Auto Scaling aufrufen. Nachdem Sie den Endpunkt aktualisiert haben, können Sie die aktualisierte Variante als skalierbares Ziel registrieren und eine Skalierungsrichtlinie hinzufügen.

Es gibt eine Ausnahme. Wenn Sie das Modell für eine Variante ändern, die für Auto Scaling konfiguriert ist, ermöglicht Amazon SageMaker AI Auto Scaling das Update. Das liegt daran, dass sich die Änderung des Modells normalerweise nicht stark genug auf die Leistung auswirkt, um die Skalierung zu verändern. Wenn Sie ein Modell für eine Variante aktualisieren, die für das Auto Scaling konfiguriert wurde, stellen Sie sicher, dass die Änderung des Modells keine signifikanten Auswirkungen auf die Leistung und Skalierung hat.

Wenn Sie SageMaker KI-Endpunkte aktualisieren, auf die Auto Scaling angewendet wurde, führen Sie die folgenden Schritte aus:

**So aktualisieren Sie einen Endpunkt, bei dem das Auto Scaling angewendet wird**

1. Melden Sie den Endpunkt per Anruf als skalierbares Ziel ab. [DeregisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_DeregisterScalableTarget.html)

1. Da Auto Scaling während des Aktualisierungsvorgangs blockiert wird (oder wenn Sie Auto Scaling im vorangegangenen Schritt deaktiviert haben), sollten Sie als zusätzliche Vorsichtsmaßnahme die Anzahl der Instances für Ihren Endpunkt während der Aktualisierung erhöhen. Aktualisieren Sie dazu die Anzahl der Instances für die am Endpunkt gehosteten Produktionsvarianten, indem Sie [UpdateEndpointWeightsAndCapacities](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpointWeightsAndCapacities.html) aufrufen.

1. Rufen Sie [ DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html) wiederholt auf, bis der Wert des Feldes `EndpointStatus` der Antwort `InService` lautet.

1. Rufen Sie [ DescribeEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpointConfig.html) auf, um die Werte der aktuellen Endpunktkonfiguration abzurufen.

1. Erstellen Sie eine neue Endpunktkonfiguration, indem Sie [ CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html) aufrufen. Verwenden Sie für die Produktionsvarianten, für die Sie die vorhandene Instance-Zahl oder -Gewichtung beibehalten möchten, denselben Variantennamen aus der Antwort aus dem Aufruf von [ DescribeEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpointConfig.html) im vorherigen Schritt. Verwenden Sie für alle anderen Werte die Werte, die Sie im vorherigen Schritt beim Aufruf von [ DescribeEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpointConfig.html) erhalten haben.

1. Aktualisieren Sie den Endpunkt, indem Sie [ UpdateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpoint.html) aufrufen. Geben Sie die Endpunktkonfiguration an, die Sie im vorangegangenen Schritt als `EndpointConfig`-Feld erstellt haben. Wenn Sie Varianteneigenschaften wie Instance-Zahl oder -Gewichtung beibehalten möchten, legen Sie den Wert des Parameters `RetainAllVariantProperties` auf `True` fest. Dies gibt an, dass Produktionsvarianten mit demselben Namen mit der jeweils aktuellen `DesiredInstanceCount` aus der Antwort auf den Aufruf von `DescribeEndpoint` aktualisiert werden, unabhängig von den Werten für das Feld `InitialInstanceCount` in der neuen `EndpointConfig`.

1. (Optional) Reaktivieren Sie Auto Scaling, indem Sie [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html)und [PutScalingPolicy](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_PutScalingPolicy.html)aufrufen.

**Anmerkung**  
Die Schritte 1 und 7 sind nur erforderlich, wenn Sie einen Endpunkt mit den folgenden Änderungen aktualisieren:  
Ändern des Instance-Typs für eine Produktionsvariante, für die Auto Scaling konfiguriert ist
Entfernen einer Produktionsvariante, für die Auto Scaling konfiguriert ist

# Löschen von Endpunkten, die für das Auto Scaling konfiguriert wurden
<a name="endpoint-delete-with-scaling"></a>

Wenn Sie einen Endpunkt löschen, prüft Application Auto Scaling, ob eines der Modelle auf diesem Endpunkt Ziele für das Auto Scaling sind. Wenn dies der Fall ist und Sie die Erlaubnis haben, das Modell abzumelden, meldet Application Auto Scaling diese Modelle als skalierbare Ziele ab, ohne Sie zu benachrichtigen. Wenn Sie eine benutzerdefinierte Berechtigungsrichtlinie verwenden, die keine Genehmigung für die [DeregisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_DeregisterScalableTarget.html)Aktion gewährt, müssen Sie Zugriff auf diese Aktion anfordern, bevor Sie den Endpunkt löschen.

**Anmerkung**  
Als IAM-Benutzer verfügen Sie ggf. nicht über ausreichende Berechtigungen zum Löschen eines Endpunktes, wenn ein anderer Benutzer das Auto Scaling für eine Variante auf diesem Endpunkt konfiguriert hat.