Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Modelle für Echtzeit-Inferenzen bereitstellen
<a name="realtime-endpoints-deploy-models"></a>

**Wichtig**  
Benutzerdefinierte IAM-Richtlinien, die es Amazon SageMaker Studio oder Amazon SageMaker Studio Classic ermöglichen, SageMaker Amazon-Ressourcen zu erstellen, müssen auch Berechtigungen zum Hinzufügen von Tags zu diesen Ressourcen gewähren. Die Berechtigung zum Hinzufügen von Tags zu Ressourcen ist erforderlich, da Studio und Studio Classic automatisch alle von ihnen erstellten Ressourcen taggen. Wenn eine IAM-Richtlinie Studio und Studio Classic das Erstellen von Ressourcen, aber kein Tagging erlaubt, können "AccessDenied" Fehler beim Versuch, Ressourcen zu erstellen, auftreten. Weitere Informationen finden Sie unter [Erteilen Sie Berechtigungen für das Taggen von SageMaker KI-Ressourcen](security_iam_id-based-policy-examples.md#grant-tagging-permissions).  
[AWS verwaltete Richtlinien für Amazon SageMaker AI](security-iam-awsmanpol.md)die Berechtigungen zum Erstellen von SageMaker Ressourcen gewähren, beinhalten bereits Berechtigungen zum Hinzufügen von Tags beim Erstellen dieser Ressourcen.

Es gibt mehrere Möglichkeiten, ein Modell mithilfe von SageMaker KI-Hosting-Diensten bereitzustellen. Sie können ein Modell interaktiv mit SageMaker Studio bereitstellen. Oder Sie können ein Modell mithilfe eines AWS SDK programmgesteuert bereitstellen, z. B. mit dem Python-SDK oder dem SDK für SageMaker Python (Boto3). Sie können die Bereitstellung auch mit dem durchführen. AWS CLI

## Bevor Sie beginnen
<a name="deploy-prereqs"></a>

Bevor Sie ein SageMaker KI-Modell bereitstellen, sollten Sie Folgendes ausfindig machen und sich Folgendes notieren:
+  AWS-Region Wo sich Ihr Amazon S3 S3-Bucket befindet
+ Pfad des Amazon S3 URI, in dem die Modellartefakte gespeichert sind
+ Die IAM-Rolle für KI SageMaker 
+ Der Docker Amazon ECR URI-Registrierungspfad für das benutzerdefinierte Image, das den Inferenzcode enthält, oder das Framework und die Version eines integrierten Docker-Images, das unterstützt wird und von AWS

 Eine Liste der jeweils AWS-Services verfügbaren Netzwerke finden Sie unter [Regionskarten AWS-Region](https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/) und Edge-Netzwerke. Weitere Informationen zum Erstellen von IAM-Rollen finden Sie unter [Erstellen von IAM-Rollen](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create.html).

**Wichtig**  
Der Amazon-S3-Bucket, in dem die Modellartefakte gespeichert sind, muss sich in derselben AWS-Region wie das Modell, das Sie erstellen, befinden.

## Gemeinsame Ressourcennutzung mit mehreren Modellen
<a name="deployed-shared-utilization"></a>

Mit Amazon SageMaker AI können Sie ein oder mehrere Modelle auf einem Endpunkt bereitstellen. Wenn sich mehrere Modelle einen Endpunkt teilen, nutzen sie gemeinsam die Ressourcen, die dort gehostet werden, wie z. B. die ML-Recheninstanzen und Beschleuniger. CPUs Die flexibelste Methode, mehrere Modelle auf einem Endpunkt bereitzustellen, besteht darin, jedes Modell als *Inferenzkomponente* zu definieren.

### Inferenzkomponenten
<a name="inference-components"></a>

Eine Inferenzkomponente ist ein SageMaker KI-Hosting-Objekt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. In den Einstellungen für die Inferenzkomponente geben Sie das Modell, den Endpunkt und die Art und Weise an, wie das Modell die vom Endpunkt gehosteten Ressourcen nutzt. Um das Modell zu spezifizieren, können Sie ein SageMaker AI-Model-Objekt angeben, oder Sie können die Modellartefakte und das Bild direkt angeben.

In den Einstellungen können Sie die Ressourcennutzung optimieren, indem Sie anpassen, wie die erforderlichen CPU-Kerne, Accelerators und Speicher dem Modell zugewiesen werden. Sie können mehrere Inferenzkomponenten für einen Endpunkt bereitstellen, wobei jede Inferenzkomponente ein Modell und die für dieses Modell erforderliche Ressourcennutzung enthält. 

Nachdem Sie eine Inferenzkomponente bereitgestellt haben, können Sie das zugehörige Modell direkt aufrufen, wenn Sie die InvokeEndpoint Aktion in der SageMaker API verwenden.

Inferenzkomponenten bieten die folgenden Vorteile:

**Flexibilität**  
Die Inferenzkomponente entkoppelt die Einzelheiten zum Hosting des Modells vom Endpunkt selbst. Dies bietet mehr Flexibilität und Kontrolle darüber, wie Modelle über einen Endpunkt gehostet und bereitgestellt werden. Sie können mehrere Modelle auf derselben Infrastruktur hosten und je nach Bedarf Modelle zu einem Endpunkt hinzufügen oder daraus entfernen. Sie können jedes Modell unabhängig aktualisieren.

**Skalierbarkeit**  
Sie können angeben, wie viele Kopien jedes Modells gehostet werden sollen, und Sie können eine Mindestanzahl von Kopien festlegen, um sicherzustellen, dass das Modell in der Menge geladen wird, die Sie für die Bearbeitung von Anforderungen benötigen. Sie können jede Kopie einer Inferenzkomponente auf Null herunterskalieren, sodass Platz für eine weitere Kopie zum Hochskalieren geschaffen wird. 

SageMaker KI verpackt Ihre Modelle als Inferenzkomponenten, wenn Sie sie bereitstellen, indem Sie Folgendes verwenden:
+ SageMaker Studio-Klassiker.
+ Das SageMaker Python-SDK zur Bereitstellung eines Model-Objekts (wobei Sie den Endpunkttyp auf festlegen`EndpointType.INFERENCE_COMPONENT_BASED`).
+ Das AWS SDK für Python (Boto3) zur Definition von `InferenceComponent` Objekten, die Sie auf einem Endpunkt bereitstellen.

## Stellen Sie Modelle mit SageMaker Studio bereit
<a name="deploy-models-studio"></a>

Führen Sie die folgenden Schritte aus, um Ihr Modell interaktiv über SageMaker Studio zu erstellen und bereitzustellen. Weitere Informationen über Studio finden Sie in der [Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html)-Dokumentation. Weitere Anleitungen zu verschiedenen Bereitstellungsszenarien finden Sie im Blog [Verpacken und implementieren Sie klassische ML-Modelle LLMs ganz einfach mit Amazon SageMaker AI — Teil 2.](https://aws.amazon.com/blogs/machine-learning/package-and-deploy-classical-ml-and-llms-easily-with-amazon-sagemaker-part-2-interactive-user-experiences-in-sagemaker-studio/)

### Vorbereiten Ihrer Artefakte und Berechtigungen
<a name="studio-prereqs"></a>

Füllen Sie diesen Abschnitt aus, bevor Sie ein Modell in SageMaker Studio erstellen.

Sie haben zwei Möglichkeiten, Ihre eigenen Artefakte zu verwenden und ein Modell in Studio zu erstellen:

1. Sie können ein vorgefertigtes `tar.gz`-Archiv verwenden, das Ihre Modellartefakte, benutzerdefinierten Inferenzcode und alle in einer `requirements.txt`-Datei aufgelisteten Abhängigkeiten enthalten sollte.

1. SageMaker KI kann Ihre Artefakte für Sie verpacken. Sie müssen nur Ihre Rohmodellartefakte und alle Abhängigkeiten in einer `requirements.txt` Datei zusammenführen, und SageMaker AI kann Ihnen den Standard-Inferenzcode zur Verfügung stellen (oder Sie können den Standardcode mit Ihrem eigenen benutzerdefinierten Inferenzcode überschreiben). SageMaker AI unterstützt diese Option für die folgenden Frameworks: PyTorch,. XGBoost

Sie müssen nicht nur Ihr Modell, Ihre AWS Identity and Access Management (IAM-) Rolle und einen Docker-Container (oder das gewünschte Framework und die gewünschte Version, für die SageMaker AI einen vorgefertigten Container hat) mitbringen, sondern auch Berechtigungen zum Erstellen und Bereitstellen von Modellen über SageMaker AI Studio gewähren.

Sie sollten die [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)Richtlinie an Ihre IAM-Rolle angehängt haben, damit Sie auf SageMaker KI und andere relevante Dienste zugreifen können. Um die Preise der Instance-Typen in Studio zu sehen, müssen Sie auch die [AWS PriceListServiceFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AWSPriceListServiceFullAccess.html)Richtlinie anhängen (oder, wenn Sie nicht die gesamte Richtlinie anhängen möchten, genauer gesagt die `pricing:GetProducts` Aktion).

Wenn Sie beim Erstellen eines Modells Ihre Modellartefakte hochladen möchten (oder eine Beispiel-Nutzlastdatei für Inferenzempfehlungen hochladen), müssen Sie einen Amazon-S3-Bucket erstellen. Dem Bucket-Namen muss das Wort `SageMaker AI` vorangestellt werden. Alternative Groß-/Kleinschreibung von SageMaker KI ist ebenfalls zulässig: `Sagemaker` oder`sagemaker`.

Es wird empfohlen, die Benennungskonvention für Buckets zu verwenden: `sagemaker-{{{Region}}}-{{{accountID}}}`. Dieser Bucket wird verwendet, um die Artefakte zu speichern, die Sie hochladen.

Nachdem Sie den Bucket erstellt haben, fügen Sie ihm die folgende CORS-Richtlinie (Cross-Origin Resource Sharing) hinzu:

```
[
    {
        "AllowedHeaders": ["*"],
        "ExposeHeaders": ["Etag"],
        "AllowedMethods": ["PUT", "POST"],
        "AllowedOrigins": ['https://*.sagemaker.aws'],
    }
]
```

Sie können eine CORS-Richtlinie mit einer der folgenden Methoden an einen Amazon-S3-Bucket anfügen:
+ über die Seite [Bearbeiten von Cross-Origin Resource Sharing (CORS)](https://s3.console.aws.amazon.com/s3/bucket/bucket-name/property/cors/edit) in der Amazon-S3-Konsole
+ Verwenden der Amazon S3 S3-API [PutBucketCors](https://docs.aws.amazon.com/AmazonS3/latest/API/API_PutBucketCors.html)
+ Mit dem put-bucket-cors AWS CLI Befehl:

  ```
  aws s3api put-bucket-cors --bucket="..." --cors-configuration="..."
  ```

### Erstellen eines bereitstellbaren Modells
<a name="studio-create-model"></a>

In diesem Schritt erstellen Sie eine bereitstellbare Version Ihres Modells in SageMaker KI, indem Sie Ihre Artefakte zusammen mit zusätzlichen Spezifikationen wie Ihrem gewünschten Container und Framework, beliebigen benutzerdefinierten Inferenzcode und Netzwerkeinstellungen bereitstellen.

Erstellen Sie ein bereitstellbares Modell in SageMaker Studio, indem Sie wie folgt vorgehen:

1. Öffnen Sie die SageMaker Studio-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Models (Modelle)** aus.

1. Wählen Sie die Registerkarte **Bereitstellbare Modelle** aus.

1. Wählen Sie auf der Seite **Bereitstellbare Modelle** die Option **Erstellen** aus.

1. Geben Sie auf der Seite **Bereitstellbares Modell erstellen** in das Feld **Modellname** einen Namen für das Modell ein.

Auf der Seite **Bereitstellbares Modell erstellen**gibt es mehrere weitere Abschnitte, die Sie ausfüllen müssen.

Der Abschnitt **Container-Definition** sieht wie der folgende Screenshot aus:

![Screenshot des Abschnitts Container-Definition zum Erstellen eines Modells in Studio](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-container-definition.png)


**Führen Sie im Abschnitt **Containerdefinition** Folgendes aus:**

1. Wählen Sie als **Containertyp** die Option **Vorgefertigter Container** aus, wenn Sie einen SageMaker KI-verwalteten Container verwenden möchten, oder wählen Sie **Bring your own container** aus, wenn Sie Ihren eigenen Container haben.

1. Wenn Sie **Vorgefertigter Container** ausgewählt haben, wählen Sie das gewünschte **Container-Framework**, die **Framework-Version** und den **Hardwaretyp** aus.

1. Wenn Sie **Eigenen Container verwenden** ausgewählt haben, geben Sie einen Amazon-ECR-Pfad für den **ECR-Pfad zum Container-Image** ein.

Füllen Sie dann den Abschnitt **Artefakte** aus, der wie der folgende Screenshot aussieht:

![Screenshot des Abschnitts Artefakte zum Erstellen eines Modells in Studio](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-artifacts-section.png)


**Gehen Sie im Abschnitt **Artefakte** wie folgt vor:**

1. Wenn Sie eines der Frameworks verwenden, die SageMaker KI für das Verpacken von Modellartefakten (PyTorch oder XGBoost) unterstützt, können Sie für **Artefakte** die Option **Artefakte hochladen** auswählen. Mit dieser Option können Sie einfach Ihre Rohmodellartefakte, jeden benutzerdefinierten Inferenzcode, den Sie haben, und Ihre Datei requirements.txt angeben, und SageMaker AI übernimmt das Packen des Archivs für Sie. Gehen Sie wie folgt vor:

   1. Wählen Sie für **Artefakte** die Option **Artefakte hochladen** aus, um Ihre Dateien weiterhin bereitzustellen. Andernfalls, wenn Sie bereits über ein `tar.gz`-Archiv verfügen, das Ihre Modelldateien, Ihren Inferenzcode und Ihre `requirements.txt`-Datei enthält, wählen Sie **S3-URI für vorgefertigte Artefakte eingeben** aus.

   1. Wenn Sie Ihre Artefakte hochladen möchten, geben Sie für den **S3-Bucket** den Amazon S3 S3-Pfad zu einem Bucket ein, in dem SageMaker KI Ihre Artefakte speichern soll, nachdem sie für Sie verpackt wurden. Führen Sie anschließend die folgenden Schritte aus.

   1. Laden Sie unter **Modellartefakte hochladen** Ihre Modelldateien hoch.

   1. Wählen Sie **unter Inferenzcode** die Option **Standard-Inferenzcode verwenden** aus, wenn Sie den Standardcode verwenden möchten, den SageMaker KI für die Bereitstellung von Inferenzen bereitstellt. Wenn Sie stattdessen Ihren eigenen Inferenzcode verwenden möchten, wählen Sie **Benutzerdefinierten Inferenzcode hochladen** aus.

   1. Laden Sie über **requirements.txt hochladen** eine Textdatei hoch, in der alle Abhängigkeiten aufgeführt sind, die Sie zur Laufzeit installieren möchten.

1. Wenn Sie kein Framework verwenden, das SageMaker KI für das Verpacken von Modellartefakten unterstützt, zeigt Ihnen Studio die Option **Vorgefertigte Artefakte** an, und Sie müssen alle Ihre Artefakte, die bereits verpackt sind, als Archiv bereitstellen. `tar.gz` Gehen Sie wie folgt vor:

   1. Wählen Sie unter **Vorgefertigte Artefakte** die Option **S3-URI für vorgefertigte Modellartefakte eingeben** aus, wenn Sie Ihr `tar.gz`-Archiv bereits auf Amazon S3 hochgeladen haben. Wählen Sie **Vorverpackte Modellartefakte hochladen** aus, wenn Sie Ihr Archiv direkt in AI hochladen möchten. SageMaker 

   1. Wenn Sie **S3-URI für vorgefertigte Modellartefakte eingeben** ausgewählt haben, geben Sie unter **S3-URI** den Amazon-S3-Pfad zu Ihrem Archiv ein. Andernfalls wählen Sie das Archiv aus und laden es von Ihrem lokalen Rechner hoch.

Der nächste Abschnitt ist **Sicherheit** und sieht wie der folgende Screenshot aus:

![Screenshot des Abschnitts Sicherheit zum Erstellen eines Modells in Studio](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-security-section.png)


**Gehen Sie im Abschnitt **Sicherheit** wie folgt vor:**

1. Geben Sie unter **IAM-Rolle** den ARN für eine IAM-Rolle ein.

1. (Optional) Unter **Virtual Private Cloud (VPC)** können Sie eine Amazon-VPC zum Speichern Ihrer Modellkonfiguration und Ihrer Artefakte auswählen.

1. (Optional) Aktivieren Sie die Option **Netzwerkisolierung**, wenn Sie den Internetzugang Ihres Containers einschränken möchten.

Abschließend können Sie bei Bedarf den Abschnitt **Erweiterte Optionen** ausfüllen, der wie der folgende Screenshot aussieht:

![Screenshot des Abschnitts Erweiterte Optionen zum Erstellen eines Modells in Studio](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-advanced-options.png)


**(Optional) Führen Sie im Abschnitt **Erweiterte Optionen** Folgendes aus:**

1. Aktivieren Sie die Option **Benutzerdefinierte Instanzempfehlungen**, wenn Sie nach der Erstellung einen Amazon SageMaker Inference Recommender-Job für Ihr Modell ausführen möchten. Inference Recommender ist ein Feature, das Ihnen empfohlene Instance-Typen zur Optimierung der Leistung und der Kosten von Inferenzen bietet. Sie können sich diese Instance-Empfehlungen ansehen, wenn Sie sich auf die Bereitstellung Ihres Modells vorbereiten.

1. Geben Sie unter **Umgebungsvariablen hinzufügen** die Umgebungsvariablen für Ihren Container als Schlüssel-Wert-Paare ein.

1. Geben Sie unter **Tags** beliebige Tags als Schlüssel-Wert-Paare ein.

1. Wählen Sie nach Abschluss der Modell- und Container-Konfiguration die Option **Bereitstellbares Modell erstellen** aus.

Sie sollten jetzt über ein Modell in SageMaker Studio verfügen, das für die Bereitstellung bereit ist.

### Bereitstellen Ihres Modells
<a name="studio-deploy"></a>

Schließlich stellen Sie das Modell, das Sie im vorherigen Schritt konfiguriert haben, auf einem HTTPS-Endpunkt bereit. Sie können entweder ein einzelnes oder mehrere Modelle für den Endpunkt bereitstellen.

**Modell- und Endpunktkompatibilität**  
Bevor Sie ein Modell auf einem Endpunkt bereitstellen können, müssen Modell und Endpunkt kompatibel sein und dieselben Werte für die folgenden Einstellungen aufweisen:  
die IAM-Rolle
die Amazon VPC, einschließlich ihrer Subnetze und Sicherheitsgruppen
die Netzwerkisolierung (aktiviert oder deaktiviert)
Studio verhindert auf folgende Weise, dass Sie Modelle auf inkompatiblen Endpunkten bereitstellen:  
Wenn Sie versuchen, ein Modell auf einem neuen Endpunkt bereitzustellen, konfiguriert SageMaker AI den Endpunkt mit kompatiblen Anfangseinstellungen. Wenn Sie die Kompatibilität durch eine Änderung dieser Einstellungen beeinträchtigen, zeigt Studio eine Warnung an und verhindert die Bereitstellung.
Wenn Sie versuchen, eine Bereitstellung auf einem vorhandenen Endpunkt durchzuführen und dieser Endpunkt nicht kompatibel ist, zeigt Studio eine Warnung an und verhindert die Bereitstellung. 
Wenn Sie versuchen, einer Bereitstellung mehrere Modelle hinzuzufügen, die nicht miteinander kompatibel sind, verhindert Studio die Bereitstellung dieser Modelle.
Wenn Studio die Warnung zur Modell- und Endpunktinkompatibilität anzeigt, können Sie über die Schaltfläche **Details anzeigen** prüfen, welche Einstellungen nicht kompatibel sind.

Eine Möglichkeit, ein Modell bereitzustellen, besteht darin, in Studio wie folgt vorzugehen:

1. Öffnen Sie die SageMaker Studio-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Models (Modelle)** aus.

1. Wählen Sie auf der Seite **Modelle** ein oder mehrere Modelle aus der Liste der SageMaker KI-Modelle aus.

1. Wählen Sie **Bereitstellen**.

1. Öffnen Sie das Dropdown-Menü unter **Endpunktname**. Sie können entweder einen vorhandenen Endpunkt auswählen oder einen neuen Endpunkt erstellen, auf dem Sie das Modell bereitstellen.

1. Wählen Sie unter **Instance-Typ** den Instance-Typ aus, den Sie für den Endpunkt verwenden möchten. Wenn Sie zuvor einen Inference-Recommender-Job für das Modell ausgeführt haben, werden Ihre empfohlenen Instance-Typen in der Liste unter dem Titel **Empfohlen** angezeigt. Andernfalls werden Ihnen einige **voraussichtliche Instances** angezeigt, die möglicherweise für Ihr Modell geeignet sind.
**Kompatibilität mit dem Instanztyp für JumpStart**  
Wenn Sie ein JumpStart Modell bereitstellen, zeigt Studio nur Instanztypen an, die das Modell unterstützt.

1. Geben Sie unter **Anfängliche Instance-Anzahl** die anfängliche Anzahl der Instances ein, die Sie für Ihren Endpunkt bereitstellen möchten.

1. Geben Sie unter **Maximale Instance-Anzahl** die maximale Anzahl von Instances an, die der Endpunkt bereitstellen kann, wenn er entsprechend einem Anstieg des Datenverkehrs skaliert wird.

1. Wenn das Modell, das Sie bereitstellen, eines der am häufigsten JumpStart LLMs vom Model Hub verwendeten ist, wird die Option **Alternative Konfigurationen** hinter den Feldern Instanztyp und Instanzanzahl angezeigt.

   Für die beliebtesten Instance-Typen AWS wurden vorab Benchmarks durchgeführt JumpStart LLMs, um entweder Kosten oder Leistung zu optimieren. Diese Daten können Ihnen bei der Entscheidung helfen, welchen Instance-Typ Sie für die Bereitstellung Ihres LLM verwenden möchten. Wählen Sie **Alternative Konfigurationen** aus, um ein Dialogfeld zu öffnen, das die vorab geprüften Daten enthält. Das Panel sieht wie im folgenden Screenshot aus:  
![Screenshot des Felds Alternative Konfigurationen](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-jumpstart-alternate-configurations.png)

   Gehen Sie im Feld **Alternative Konfigurationen** wie folgt vor:

   1. Auswahl von Instance-Typen Sie können **Kosten pro Stunde** oder **Beste Leistung** wählen, um Instance-Typen anzuzeigen, die entweder die Kosten oder die Leistung für das angegebene Modell optimieren. Sie können auch **Andere unterstützte Instances** wählen, um eine Liste anderer Instance-Typen zu sehen, die mit dem JumpStart Modell kompatibel sind. Beachten Sie, dass die Auswahl eines Instance-Typs hier alle zuvor in Schritt 6 ausgewählten Instances überschreibt.

   1. (Optional) Aktivieren Sie die Option **Ausgewählte Konfiguration anpassen**, um **Max. Token-Gesamtzahl** (die maximale Anzahl von Tokens, die Sie zulassen möchten, d. h. die Summe Ihrer Eingabe-Token und der generierten Ausgabe des Modells), **Max. Länge des Eingabe-Tokens** (die maximale Anzahl von Tokens, die Sie für die Eingabe jeder Anforderung zulassen möchten) und **Max. Anzahl gleichzeitiger Anfragen** (die maximale Anzahl von Anfragen, die das Modell gleichzeitig verarbeiten kann) anzugeben.

   1. Wählen Sie **Auswählen**, um Ihren Instance-Typ und Ihre Konfigurationseinstellungen zu bestätigen.

1. Das Feld **Modell** sollte bereits mit dem Namen des Modells oder der Modelle ausgefüllt sein, das bzw. die Sie bereitstellen. Sie können **Modell hinzufügen** auswählen, um der Bereitstellung weitere Modelle hinzuzufügen. Füllen Sie für jedes Modell, das Sie hinzufügen, die folgenden Felder aus:

   1. Geben Sie unter **Anzahl der CPU-Kerne** die CPU-Kerne ein, die Sie für die Nutzung des Modells reservieren möchten.

   1. Geben Sie unter **Mindestanzahl an Kopien** die Mindestanzahl von Modellkopien ein, die zu einem bestimmten Zeitpunkt auf dem Endpunkt gehostet werden sollen.

   1. Geben Sie unter **Min. CPU-Speicher (MB)** die Mindestmenge an Arbeitsspeicher (in MB) ein, die das Modell benötigt.

   1. Geben Sie für **Max. CPU-Speicher (MB)** die maximale Speichermenge (in MB) ein, die das Modell verwenden darf.

1. (Optional) Führen Sie unter **Erweiterte Optionen** Folgendes aus:

   1. Verwenden Sie für die **IAM-Rolle** entweder die standardmäßige SageMaker AI IAM-Ausführungsrolle oder geben Sie Ihre eigene Rolle an, die über die erforderlichen Berechtigungen verfügt. Beachten Sie, dass diese IAM-Rolle mit der Rolle identisch sein muss, die Sie beim Erstellen des bereitstellbaren Modells angegeben haben.

   1. Unter **Virtual Private Cloud (VPC)** können Sie eine VPC angeben, in der Sie Ihren Endpunkt hosten möchten.

   1. Wählen Sie für **Encryption KMS Key** einen AWS KMS Schlüssel aus, um Daten auf dem Speichervolume zu verschlüsseln, das an die ML-Compute-Instanz angehängt ist, die den Endpunkt hostet.

   1. Aktivieren Sie die Option **Netzwerkisolierung aktivieren**, um den Internetzugang Ihres Containers einzuschränken.

   1. Füllen Sie unter **Timeout-Konfiguration** die Felder **Timeout beim Herunterladen von Modelldaten (Sekunden)** und **Timeout für die Zustandsprüfung beim Container-Start (Sekunden)** aus. Diese Werte bestimmen die maximale Zeit, die SageMaker KI für das Herunterladen des Modells in den Container bzw. das Starten des Containers einräumt.

   1. Geben Sie unter **Tags** beliebige Tags als Schlüssel-Wert-Paare ein.
**Anmerkung**  
SageMaker AI konfiguriert die IAM-Rollen-, VPC- und Netzwerkisolationseinstellungen mit Anfangswerten, die mit dem Modell kompatibel sind, das Sie bereitstellen. Wenn Sie die Kompatibilität durch eine Änderung dieser Einstellungen beeinträchtigen, zeigt Studio eine Warnung an und verhindert die Bereitstellung.

Nachdem Sie die Optionen konfiguriert haben, sollte die Seite wie im folgenden Screenshot aussehen.

![Screenshot der Seite Modell bereitstellen in Studio.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/inference/studio-deploy-realtime-model-2.png)


Nachdem Sie die Bereitstellung konfiguriert haben, wählen Sie **Bereitstellen** aus, um den Endpunkt zu erstellen und Ihr Modell bereitzustellen.

## Modelle mit Python bereitstellen SDKs
<a name="deploy-models-python"></a>

Mit dem SageMaker Python-SDK können Sie Ihr Modell auf zwei Arten erstellen. Die erste Möglichkeit besteht darin, ein Modellobjekt aus der Klasse `Model` oder `ModelBuilder` zu erstellen. Wenn Sie die `Model`-Klasse verwenden, um Ihr `Model`-Objekt zu erstellen, müssen Sie das Modellpaket oder den Inferenzcode (abhängig von Ihrem Modellserver), Skripte für die Serialisierung und Deserialisierung von Daten zwischen dem Client und dem Server sowie alle Abhängigkeiten angeben, die zur Nutzung auf Amazon S3 hochgeladen werden sollen. Alternativ können Sie Ihr Modell mit `ModelBuilder` erstellen, wofür Sie Modellartefakte oder Inferenzcode bereitstellen. `ModelBuilder` erfasst automatisch Ihre Abhängigkeiten, leitet die benötigten Serialisierungs- und Deserialisierungsfunktionen ab und verpackt Ihre Abhängigkeiten, um Ihr `Model`-Objekt zu erstellen. Mehr über `ModelBuilder` erfahren Sie unter [Erstellen Sie ein Modell in Amazon SageMaker AI mit ModelBuilder](how-it-works-modelbuilder-creation.md).

Im folgenden Abschnitt werden beide Methoden beschrieben, mit denen Sie Ihr Modell erstellen und Ihr Modellobjekt bereitstellen können.

### Einrichten
<a name="python-setup"></a>

Die folgenden Beispiele bereiten den Prozess der Modellbereitstellung vor. Sie importieren die erforderlichen Bibliotheken und definieren die S3-URL, die die Modellartefakte lokalisiert.

------
#### [ SageMaker Python SDK ]

**Example Importanweisungen**  
Im folgenden Beispiel werden Module aus dem SageMaker Python-SDK, dem SDK für Python (Boto3) und der Python-Standardbibliothek importiert. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und werden in den übrigen folgenden Beispielen verwendet.  

```
import boto3
from datetime import datetime
from sagemaker.compute_resource_requirements.resource_requirements import ResourceRequirements
from sagemaker.predictor import Predictor
from sagemaker.enums import EndpointType
from sagemaker.model import Model
from sagemaker.session import Session
```

------
#### [ boto3 inference components ]

**Example Importanweisungen**  
Das folgende Beispiel importiert Module aus dem SDK für Python (Boto3) und der Python Standard Library. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und werden in den übrigen folgenden Beispielen verwendet.  

```
import boto3
import botocore
import sys
import time
```

------
#### [ boto3 models (without inference components) ]

**Example Importanweisungen**  
Das folgende Beispiel importiert Module aus dem SDK für Python (Boto3) und der Python Standard Library. Diese Module bieten nützliche Methoden, die Ihnen bei der Bereitstellung von Modellen helfen, und werden in den übrigen folgenden Beispielen verwendet.  

```
import boto3
import botocore
import datetime
from time import gmtime, strftime
```

------

**Example Modellartefakt-URL**  
Der folgende Code erstellt eine beispielhafte Amazon-S3-URL. Die URL sucht nach Modellartefakten für ein vortrainiertes Modell in einem Amazon-S3-Bucket.  

```
# Create a variable w/ the model S3 URL

# The name of your S3 bucket:
s3_bucket = "amzn-s3-demo-bucket"
# The directory within your S3 bucket your model is stored in:
bucket_prefix = "{{sagemaker/model/path}}"
# The file name of your model artifact:
model_filename = "{{my-model-artifact.tar.gz}}"
# Relative S3 path:
model_s3_key = f"{bucket_prefix}/"+model_filename
# Combine bucket name, model file name, and relate S3 path to create S3 model URL:
model_url = f"s3://{s3_bucket}/{model_s3_key}"
```
Die vollständige Amazon-S3-URL wird in der Variablen `model_url` gespeichert, die in den folgenden Beispielen verwendet wird. 

### -Übersicht
<a name="python-overview"></a>

Es gibt mehrere Möglichkeiten, Modelle mit dem SageMaker Python-SDK oder dem SDK für Python (Boto3) bereitzustellen. In den folgenden Abschnitten werden die Schritte zusammengefasst, die Sie für verschiedene mögliche Ansätze ausführen. Diese Schritte werden anhand der folgenden Beispiele veranschaulicht.

------
#### [ SageMaker Python SDK ]

Mit dem SageMaker Python-SDK können Sie Ihr Modell auf eine der folgenden Arten erstellen:
+ **Erstellen eines Modellobjekts anhand der `Model`-Klasse** – Sie müssen das Modellpaket oder den Inferenzcode (abhängig von Ihrem Modellserver), Skripten für die Serialisierung und Deserialisierung von Daten zwischen dem Client und dem Server sowie alle Abhängigkeiten angeben, die zur Nutzung auf Amazon S3 hochgeladen werden sollen. 
+ **Erstellen eines Modellobjekt anhand der `ModelBuilder`-Klasse** – Sie stellen Modellartefakte oder Inferenzcode bereit und `ModelBuilder` erfasst automatisch Ihre Abhängigkeiten, leitet die benötigten Serialisierungs- und Deserialisierungsfunktionen ab und verpackt Ihre Abhängigkeiten, um Ihr `Model`-Objekt zu erstellen.

  Mehr über `ModelBuilder` erfahren Sie unter [Erstellen Sie ein Modell in Amazon SageMaker AI mit ModelBuilder](how-it-works-modelbuilder-creation.md). Weitere Informationen finden Sie auch im Blog [Klassische ML-Modelle verpacken und bereitstellen — LLMs ganz einfach mit SageMaker KI — Teil 1.](https://aws.amazon.com/blogs/machine-learning/package-and-deploy-classical-ml-and-llms-easily-with-amazon-sagemaker-part-1-pysdk-improvements/)

In den folgenden Beispielen werden beide Methoden beschrieben, mit denen Sie Ihr Modell erstellen und Ihr Modellobjekt bereitstellen können. Führen Sie die folgenden Schritte aus, um auf diese Weise ein Modell bereitzustellen:

1. Definieren Sie die Endpunktressourcen, die dem Modell mit einem `ResourceRequirements`-Objekt zugewiesen werden sollen.

1. Erstellen Sie ein Modellobjekt aus der Klasse `ModelBuilder` oder `Model`. Das `ResourceRequirements`-Objekt ist in den Modelleinstellungen angegeben.

1. Stellen Sie das Modell mithilfe der `deploy`-Methode des `Model`-Objekts auf einem Endpunkt bereit.

------
#### [ boto3 inference components ]

Die folgenden Beispiele zeigen, wie Sie ein Modell einer Inferenzkomponente zuweisen und diese dann auf einem Endpunkt bereitstellen. Führen Sie die folgenden Schritte aus, um ein Modell auf diese Weise bereitzustellen:

1. (Optional) Erstellen Sie mithilfe der [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_model.html](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_model.html)Methode ein SageMaker KI-Modellobjekt.

1. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Verwenden Sie hierfür die [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint_config.html#create-endpoint-config](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint_config.html#create-endpoint-config)-Methode.

1. Erstellen Sie Ihren Endpunkt mithilfe der [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html)-Methode und geben Sie in Ihrer Anforderung die Endpunktkonfiguration an, die Sie erstellt haben.

1. Erstellen Sie mithilfe der `create_inference_component`-Methode eine Inferenzkomponente. In den Einstellungen geben Sie ein Modell an, indem Sie entweder
   + Spezifizieren eines SageMaker AI-Modellobjekts
   + den Modell-Image-URI und die S3-URL angeben.

   Sie weisen dem Modell auch Endpunktressourcen zu. Durch die Erstellung der Inferenzkomponente stellen Sie das Modell auf dem Endpunkt bereit. Sie können mehrere Modelle auf einem Endpunkt bereitstellen, indem Sie mehrere Inferenzkomponenten erstellen – eine für jedes Modell.

------
#### [ boto3 models (without inference components) ]

Die folgenden Beispiele zeigen, wie Sie ein Modellobjekt erstellen und das Modell anschließend auf einem Endpunkt bereitstellen. Führen Sie die folgenden Schritte aus, um ein Modell auf diese Weise bereitzustellen:

1. Erstellen Sie mithilfe der [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_model.html](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_model.html)Methode ein SageMaker KI-Modell.

1. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Verwenden Sie hierfür die [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint_config.html#create-endpoint-config](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint_config.html#create-endpoint-config)-Methode. In der Endpunktkonfiguration weisen Sie das Modellobjekt einer Produktionsvariante zu.

1. Erstellen Sie Ihren Endpunkt mithilfe der [https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html)-Methode. Geben Sie in Ihrer Anforderung die Endpunktkonfiguration an, die Sie erstellt haben. 

   Wenn Sie den Endpunkt erstellen, stellt SageMaker KI die Endpunktressourcen bereit und stellt das Modell auf dem Endpunkt bereit.

------

### Konfiguration
<a name="python-configure"></a>

In den folgenden Beispielen werden die Ressourcen konfiguriert, die Sie für die Bereitstellung eines Modells auf einem Endpunkt benötigen.

------
#### [ SageMaker Python SDK ]

Im folgenden Beispiel werden einem Modell mit einem `ResourceRequirements`-Objekt Endpunktressourcen zugewiesen. Zu diesen Ressourcen gehören CPU-Kerne, Accelerators und Speicher. Anschließend erstellt das Beispiel ein Modellobjekt aus der `Model`-Klasse. Alternativ können Sie ein Modellobjekt erstellen, indem Sie die [ModelBuilder](https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-modelbuilder-creation.html)Klasse instanziieren und ausführen `build` — diese Methode wird auch im Beispiel gezeigt. `ModelBuilder`bietet eine einheitliche Schnittstelle für das Paketieren von Modellen und bereitet in diesem Fall ein Modell für eine umfangreiche Modellbereitstellung vor. Das Beispiel verwendet `ModelBuilder`, um ein Hugging-Face-Modell zu konstruieren. (Sie können auch ein JumpStart Modell übergeben). Sobald Sie das Modell erstellt haben, können Sie die Ressourcenanforderungen im Modellobjekt angeben. Im nächsten Schritt verwenden Sie dieses Objekt, um das Modell auf einem Endpunkt bereitzustellen. 

```
resources = ResourceRequirements(
    requests = {
        "num_cpus": {{2}},  # Number of CPU cores required:
        "num_accelerators": {{1}}, # Number of accelerators required
        "memory": {{8192}},  # Minimum memory required in Mb (required)
        "copies": {{1}},
    },
    limits = {},
)

now = datetime.now()
dt_string = now.strftime("%d-%m-%Y-%H-%M-%S")
model_name = "{{my-sm-model}}"+dt_string

# build your model with Model class
model = Model(
    name = "{{model-name}}",
    image_uri = "{{image-uri}}",
    model_data = model_url,
    role = "arn:aws:iam::{{111122223333}}:role/service-role/{{role-name}}",
    resources = resources,
    predictor_cls = Predictor,
)
                        
# Alternate mechanism using ModelBuilder
# uncomment the following section to use ModelBuilder
/*
model_builder = ModelBuilder(
    model="{{<HuggingFace-ID>}}", # like "meta-llama/Llama-2-7b-hf"
    schema_builder=SchemaBuilder({{sample_input}},{{sample_output}}),
    env_vars={ "HUGGING_FACE_HUB_TOKEN": "{{<HuggingFace_token>}}}" }
)

# build your Model object
model = model_builder.build()

# create a unique name from string 'mb-inference-component'
model.model_name = unique_name_from_base("mb-inference-component")

# assign resources to your model
model.resources = resources
*/
```

------
#### [ boto3 inference components ]

Im folgenden Beispiel wird ein Endpunkt mit der `create_endpoint_config`-Methode konfiguriert. Sie weisen diese Konfiguration einem Endpunkt zu, wenn Sie ihn erstellen. In der Konfiguration definieren Sie eine oder mehrere Produktionsvarianten. Für jede Variante können Sie den Instance-Typ auswählen, den Amazon SageMaker AI bereitstellen soll, und Sie können die verwaltete Instance-Skalierung aktivieren.

```
endpoint_config_name = "{{endpoint-config-name}}"
endpoint_name = "{{endpoint-name}}"
inference_component_name = "{{inference-component-name}}"
variant_name = "{{variant-name}}"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name,
    ExecutionRoleArn = "arn:aws:iam::{{111122223333}}:role/service-role/{{role-name}}",
    ProductionVariants = [
        {
            "VariantName": variant_name,
            "InstanceType": "{{ml.p4d.24xlarge}}",
            "InitialInstanceCount": {{1}},
            "ManagedInstanceScaling": {
                "Status": "{{ENABLED}}",
                "MinInstanceCount": {{1}},
                "MaxInstanceCount": {{2}},
            },
        }
    ],
)
```

------
#### [ boto3 models (without inference components) ]

**Example Modelldefinition**  
Das folgende Beispiel definiert ein SageMaker KI-Modell mit der `create_model` Methode in AWS SDK für Python (Boto3).  

```
model_name = "{{model-name}}"

create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = "arn:aws:iam::{{111122223333}}:role/service-role/{{role-name}}",
    PrimaryContainer = {
        "Image": "{{image-uri}}",
        "ModelDataUrl": model_url,
    }
)
```
In diesem Beispiel wird Folgendes festgelegt:  
+ `ModelName`: Ein Name für Ihr Modell (in diesem Beispiel wird es als String-variable namens `model_name` gespeichert).
+ `ExecutionRoleArn`: Der Amazon-Ressourcenname (ARN) der IAM-Rolle, die Amazon SageMaker AI übernehmen kann, um auf Modellartefakte und Docker-Images für die Bereitstellung auf ML-Compute-Instances oder für Batch-Transformationsjobs zuzugreifen.
+ `PrimaryContainer`: Der Speicherort des primären Docker-Image mit Inferenzcode, zugehörigen Artefakten und benutzerdefinierter Umgebungs-Map, die der Inferenz-Code verwendet, wenn das Modell für die Voraussagen bereitgestellt wird.

**Example Endpunktkonfiguration**  
Im folgenden Beispiel wird ein Endpunkt mit der `create_endpoint_config`-Methode konfiguriert. Amazon SageMaker AI verwendet diese Konfiguration, um Modelle bereitzustellen. In der Konfiguration identifizieren Sie ein oder mehrere Modelle, die mit der `create_model` Methode erstellt wurden, um die Ressourcen bereitzustellen, die Amazon SageMaker AI bereitstellen soll.  

```
endpoint_config_response = sagemaker_client.create_endpoint_config(
    EndpointConfigName = "{{endpoint-config-name}}", 
    # List of ProductionVariant objects, one for each model that you want to host at this endpoint:
    ProductionVariants = [
        {
            "VariantName": "{{variant-name}}", # The name of the production variant.
            "ModelName": model_name, 
            "InstanceType": "{{ml.p4d.24xlarge}}",
            "InitialInstanceCount": {{1}} # Number of instances to launch initially.
        }
    ]
)
```
In diesem Beispiel werden die folgenden Schlüssel für das `ProductionVariants`-Feld angegeben:  
+ `VariantName`: Der Name der Produktionsvariante
+ `ModelName`: Der Name des Modells, das Sie hosten möchten. Dies ist der Name, den Sie beim Erstellen des Modells angegeben haben.
+ `InstanceType`: DerCompute-Instances-Typ. Eine Liste der unterstützten Compute-Instance-Typen [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html) und [Preise für jeden Instance-Typ finden Sie im `InstanceType` Feld und SageMaker KI-Preise](https://aws.amazon.com/sagemaker/pricing/).

------

### Bereitstellen
<a name="python-deploy"></a>

In den folgenden Beispielen wird ein Modell für einen Endpunkt bereitgestellt.

------
#### [ SageMaker Python SDK ]

Im folgenden Beispiel wird das Modell mit der `deploy`-Methode des Modellobjekts auf einem HTTPS-Echtzeitendpunkt bereitgestellt. Wenn Sie sowohl für die Erstellung als auch für die Bereitstellung des Modells einen Wert für das `resources`-Argument angeben, haben die Ressourcen, die Sie für die Bereitstellung angeben, Vorrang.

```
predictor = model.deploy(
    initial_instance_count = {{1}},
    instance_type = "{{ml.p4d.24xlarge}}", 
    endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED,
    resources = resources,
)
```

Als `instance_type` ist im Beispiel der Name des Amazon-EC2-Instance-Typs für das Modell angegeben. Im Feld `initial_instance_count` ist die anfängliche Anzahl von Instances angegeben, auf denen der Endpunkt ausgeführt werden soll.

Das folgende Codebeispiel zeigt einen weiteren Fall, in dem Sie ein Modell auf einem Endpunkt und dann ein anderes Modell auf demselben Endpunkt bereitstellen. In diesem Fall müssen Sie denselben Endpunktnamen für die `deploy`-Methoden beider Modelle angeben.

```
# Deploy the model to inference-component-based endpoint
falcon_predictor = falcon_model.deploy(
    initial_instance_count = 1,
    instance_type = "ml.p4d.24xlarge", 
    endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED,
    endpoint_name = "{{<endpoint_name>}}"
    resources = resources,
)

# Deploy another model to the same inference-component-based endpoint
llama2_predictor = llama2_model.deploy( # resources already set inside llama2_model
    endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED,
    endpoint_name = "{{<endpoint_name>}}"  # same endpoint name as for falcon model
)
```

------
#### [ boto3 inference components ]

Sobald Sie eine Endpunktkonfiguration haben, verwenden Sie die Methode [create\_endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html), um Ihren Endpunkt zu erstellen. Der Endpunktname muss innerhalb eines AWS-Region AWS Kontos eindeutig sein. 

Im folgenden Beispiel wird ein Endpunkt unter Verwendung der in der Anfrage angegebenen Endpunktkonfiguration erstellt. Amazon SageMaker AI verwendet den Endpunkt zur Bereitstellung von Ressourcen.

```
sagemaker_client.create_endpoint(
    EndpointName = endpoint_name,
    EndpointConfigName = endpoint_config_name,
)
```

Nachdem Sie einen Endpunkt erstellt haben, können Sie einen oder mehrere Modelle darauf bereitstellen, indem Sie Inferenzkomponenten erstellen. Im folgenden Beispiel wird eine Inferenzkomponente mit der `create_inference_component`-Methode erstellt.

```
sagemaker_client.create_inference_component(
    InferenceComponentName = inference_component_name,
    EndpointName = endpoint_name,
    VariantName = variant_name,
    Specification = {
        "Container": {
            "Image": "{{image-uri}}",
            "ArtifactUrl": model_url,
        },
        "ComputeResourceRequirements": {
            "NumberOfCpuCoresRequired": {{1}}, 
            "MinMemoryRequiredInMb": {{1024}}
        }
    },
    RuntimeConfig = {"CopyCount": {{2}}}
)
```

------
#### [ boto3 models (without inference components) ]

**Example Einsatz**  

Stellen Sie SageMaker AI die Endpunktkonfiguration zur Verfügung. Der Service startet die ML-Compute-Instances und stellt die Modelle gemäß der Konfiguration bereit.

Sobald Sie Ihr Modell und Ihre Endpunktkonfiguration haben, verwenden Sie die [create\_endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_endpoint.html)-Methode, um Ihren Endpunkt zu erstellen. Der Endpunktname muss innerhalb und AWS-Region in Ihrem AWS Konto eindeutig sein. 

Im folgenden Beispiel wird ein Endpunkt unter Verwendung der in der Anfrage angegebenen Endpunktkonfiguration erstellt. Amazon SageMaker AI verwendet den Endpunkt, um Ressourcen bereitzustellen und Modelle bereitzustellen.

```
create_endpoint_response = sagemaker_client.create_endpoint(
    # The endpoint name must be unique within an AWS Region in your AWS account:
    EndpointName = "{{endpoint-name}}"
    # The name of the endpoint configuration associated with this endpoint:
    EndpointConfigName = "{{endpoint-config-name}}")
```

------

## Stellen Sie Modelle bereit mit dem AWS CLI
<a name="deploy-models-cli"></a>

Sie können ein Modell auf einem Endpunkt bereitstellen, indem Sie den verwenden AWS CLI.

### -Übersicht
<a name="deploy-models-cli-overview"></a>

Wenn Sie ein Modell mit dem bereitstellen AWS CLI, können Sie es mit oder ohne Verwendung einer Inferenzkomponente bereitstellen. In den folgenden Abschnitten werden die Befehle zusammengefasst, die Sie für beide Ansätze ausführen. Diese Befehle werden anhand der folgenden Beispiele veranschaulicht.

------
#### [ With inference components ]

Um ein Modell mit einer Inferenzkomponente bereitzustellen, führen Sie die folgenden Schritte aus:

1. (Optional) Erstellen Sie ein Modell mit dem [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-model.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-model.html)-Befehl.

1. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie eine Endpunktkonfiguration erstellen. Führen Sie hierfür den [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html)-Befehl aus.

1. Erstellen Sie Ihren Endpunkt mithilfe des [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html)-Befehls. Geben Sie im Befehlstext die Endpunktkonfiguration an, die Sie erstellt haben.

1. Erstellen Sie mit dem `create-inference-component`-Befehl eine Inferenzkomponente. In den Einstellungen geben Sie ein Modell an, indem Sie entweder
   + Spezifizieren eines SageMaker AI-Modellobjekts
   + den Modell-Image-URI und die S3-URL angeben.

   Sie weisen dem Modell auch Endpunktressourcen zu. Durch die Erstellung der Inferenzkomponente stellen Sie das Modell auf dem Endpunkt bereit. Sie können mehrere Modelle auf einem Endpunkt bereitstellen, indem Sie mehrere Inferenzkomponenten erstellen – eine für jedes Modell.

------
#### [ Without inference components ]

Um ein Modell ohne Verwendung einer Inferenzkomponente bereitzustellen, führen Sie die folgenden Schritte aus:

1. Erstellen Sie mit dem [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-model.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-model.html)Befehl ein SageMaker KI-Modell.

1. Geben Sie die Einstellungen für Ihren Endpunkt an, indem Sie ein Endpunktkonfigurationsobjekt erstellen. Verwenden Sie hierfür den Befehl [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html). In der Endpunktkonfiguration weisen Sie das Modellobjekt einer Produktionsvariante zu.

1. Erstellen Sie Ihren Endpunkt mithilfe des [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html)-Befehls. Geben Sie im Befehlstext die Endpunktkonfiguration an, die Sie erstellt haben.

   Wenn Sie den Endpunkt erstellen, stellt SageMaker KI die Endpunktressourcen bereit und stellt das Modell auf dem Endpunkt bereit.

------

### Konfiguration
<a name="cli-configure-endpoint"></a>

In den folgenden Beispielen werden die Ressourcen konfiguriert, die Sie für die Bereitstellung eines Modells auf einem Endpunkt benötigen.

------
#### [ With inference components ]

**Example create-endpoint-config Befehl**  
Im folgenden Beispiel wird mit dem [create-endpoint-config](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html)Befehl eine Endpunktkonfiguration erstellt.  

```
aws sagemaker create-endpoint-config \
--endpoint-config-name {{endpoint-config-name}} \
--execution-role-arn arn:aws:iam::{{111122223333}}:role/service-role/{{role-name}}\
--production-variants file://production-variants.json
```
In diesem Beispiel definiert die Datei `production-variants.json` eine Produktionsvariante mit dem folgenden JSON:  

```
[
    {
        "VariantName": "{{variant-name}}",
        "ModelName": "{{model-name}}",
        "InstanceType": "{{ml.p4d.24xlarge}}",
        "InitialInstanceCount": {{1}}
    }
]
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint-config/endpoint-config-name"
}
```

------
#### [ Without inference components ]

**Example create-model-Befehl**  
Im folgenden Beispiel wird ein Modell mit dem Befehl [create-model](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-model.html) erstellt.  

```
aws sagemaker create-model \
--model-name {{model-name}} \
--execution-role-arn arn:aws:iam::{{111122223333}}:role/service-role/{{role-name}} \
--primary-container "{ \"Image\": \"{{image-uri}}\", \"ModelDataUrl\": \"{{model-s3-url}}\"}"
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "ModelArn": "arn:aws:sagemaker:us-west-2:111122223333:model/model-name"
}
```

**Example create-endpoint-config Befehl**  
Im folgenden Beispiel wird mit dem [create-endpoint-config](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint-config.html)Befehl eine Endpunktkonfiguration erstellt.  

```
aws sagemaker create-endpoint-config \
--endpoint-config-name {{endpoint-config-name}} \
--production-variants file://production-variants.json
```
In diesem Beispiel definiert die Datei `production-variants.json` eine Produktionsvariante mit dem folgenden JSON:  

```
[
    {
        "VariantName": "{{variant-name}}",
        "ModelName": "{{model-name}}",
        "InstanceType": "{{ml.p4d.24xlarge}}",
        "InitialInstanceCount": {{1}}
    }
]
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint-config/endpoint-config-name"
}
```

------

### Bereitstellen
<a name="cli-deploy"></a>

In den folgenden Beispielen wird ein Modell für einen Endpunkt bereitgestellt.

------
#### [ With inference components ]

**Example create-endpoint-Befehl**  
Das folgende Beispiel erstellt einen Endpunkt mit dem Befehl [create-endpoint](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html).  

```
aws sagemaker create-endpoint \
--endpoint-name {{endpoint-name}} \
--endpoint-config-name {{endpoint-config-name}}
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/endpoint-name"
}
```

**Example create-inference-component Befehl**  
Im folgenden Beispiel wird mit dem create-inference-component Befehl eine Inferenzkomponente erstellt.  

```
aws sagemaker create-inference-component \
--inference-component-name {{inference-component-name}} \
--endpoint-name {{endpoint-name}} \
--variant-name {{variant-name}} \
--specification file://specification.json \
--runtime-config "{{{\"CopyCount\": 2}}}"
```
In diesem Beispiel definiert die Datei `specification.json` den Container und die Rechenressourcen mit dem folgenden JSON-Code:  

```
{
    "Container": {
        "Image": "{{image-uri}}",
        "ArtifactUrl": "{{model-s3-url}}"
    },
    "ComputeResourceRequirements": {
        "NumberOfCpuCoresRequired": 1,
        "MinMemoryRequiredInMb": 1024
    }
}
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "InferenceComponentArn": "arn:aws:sagemaker:us-west-2:111122223333:inference-component/inference-component-name"
}
```

------
#### [ Without inference components ]

**Example create-endpoint-Befehl**  
Das folgende Beispiel erstellt einen Endpunkt mit dem Befehl [create-endpoint](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-endpoint.html).  

```
aws sagemaker create-endpoint \
--endpoint-name {{endpoint-name}} \
--endpoint-config-name {{endpoint-config-name}}
```
Wenn der Befehl erfolgreich ist, AWS CLI antwortet der mit dem ARN für die von Ihnen erstellte Ressource.  

```
{
    "EndpointArn": "arn:aws:sagemaker:us-west-2:111122223333:endpoint/endpoint-name"
}
```

------