Netzwerkzugriff für Ihren Amazon EMR-Cluster konfigurieren - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Netzwerkzugriff für Ihren Amazon EMR-Cluster konfigurieren

Bevor Sie mit der Verwendung von Amazon EMR oder EMR Serverless für Ihre Datenvorbereitungsaufgaben in Studio beginnen, stellen Sie sicher, dass Sie oder Ihr Administrator Ihr Netzwerk so konfiguriert haben, dass die Kommunikation zwischen Studio und Amazon EMR möglich ist. Sobald diese Kommunikation aktiviert ist, können Sie Folgendes wählen:

Anmerkung

Für EMR Serverless-Benutzer besteht die einfachste Einrichtung darin, Ihre Anwendung in der Studio-Benutzeroberfläche zu erstellen, ohne die Standardeinstellungen für die Option Virtual Private Cloud (VPC) zu ändern. Mit diesem Ansatz kann die Anwendung innerhalb der VPC Ihrer SageMaker Domain erstellt werden, sodass keine zusätzliche Netzwerkkonfiguration erforderlich ist. Wenn Sie diese Option wählen, können Sie den folgenden Abschnitt zur Netzwerkkonfiguration überspringen.

Die Netzwerkanweisungen variieren je nachdem, ob Studio und Amazon EMR in einer privaten Amazon Virtual Private Cloud (VPC) bereitgestellt werden oder über das Internet kommunizieren.

Standardmäßig werden Studio oder Studio Classic in einer AWS verwalteten VPC mit Internetzugang ausgeführt. Bei Verwendung einer Internetverbindung greifen Studio und Studio Classic über das Internet auf AWS Ressourcen wie Amazon S3 S3-Buckets zu. Wenn Sie jedoch Sicherheitsanforderungen haben, um den Zugriff auf Ihre Daten- und Jobcontainer zu kontrollieren, empfehlen wir Ihnen, Studio oder Studio Classic und Amazon EMR so zu konfigurieren, dass Ihre Daten und Container nicht über das Internet zugänglich sind. Um den Zugriff auf Ihre Ressourcen zu kontrollieren oder Studio oder Studio Classic ohne öffentlichen Internetzugang auszuführen, können Sie beim Onboarding in die Amazon SageMaker AI-Domain den VPC only Netzwerkzugriffstyp angeben. In diesem Szenario stellen sowohl Studio als auch Studio Classic Verbindungen mit anderen AWS Diensten über private VPC-Endpunkte her. Informationen zur Konfiguration von Studio oder Studio Classic im VPC only Modus finden Sie unter SageMaker Studio- oder Studio Classic-Notebooks in einer VPC mit externen Ressourcen Connect. .

In den ersten beiden Abschnitten wird beschrieben, wie die Kommunikation zwischen Studio oder Studio Classic und Amazon EMR VPCs ohne öffentlichen Internetzugang sichergestellt werden kann. Im letzten Abschnitt wird beschrieben, wie Sie die Kommunikation zwischen Studio oder Studio Classic und Amazon EMR über eine Internetverbindung sicherstellen. Bevor Sie Studio oder Studio Classic und Amazon EMR ohne Internetzugang verbinden, stellen Sie sicher, dass Sie Endpunkte für Amazon Simple Storage Service (Datenspeicherung), Amazon (Protokollierung und Überwachung) und Amazon SageMaker Runtime CloudWatch (feinkörnige rollenbasierte Zugriffskontrolle (RBAC)) einrichten.

So verbinden Sie Studio oder Studio Classic mit Amazon EMR:

Studio und Amazon EMR sind getrennt VPCs

Um die Kommunikation zwischen Studio oder Studio Classic und Amazon EMR zu ermöglichen, wenn sie separat VPCs bereitgestellt werden:

  1. Stellen Sie zunächst eine VPC-Peering-Verbindung her. VPCs

  2. Aktualisieren Sie Ihre Routing-Tabellen in jeder VPC, um den Netzwerkverkehr zwischen Studio- oder Studio Classic-Subnetzen und Amazon EMR-Subnetzen in beide Richtungen weiterzuleiten.

  3. Konfigurieren Sie Ihre VPC-Sicherheitsgruppen so, dass ein- und ausgehender Datenverkehr zugelassen sind.

Die Schritte zum Verbinden von Studio oder Studio Classic und Amazon EMR sind dieselben, unabhängig davon, ob die Ressourcen in einem einzigen AWS Konto (Einzelkonto-Anwendungsfall) oder in mehreren AWS Konten (kontoübergreifender Anwendungsfall) bereitgestellt werden.

  1. VPC-Peering

    Erstellen Sie eine VPC-Peering-Verbindung, um die Vernetzung zwischen den beiden VPCs (Studio oder Studio Classic und Amazon EMR) zu erleichtern.

    1. Wählen Sie in Ihrem Studio- oder Studio Classic-Konto im VPC-Dashboard Peering-Verbindungen und dann Peering-Verbindung erstellen aus.

    2. Erstellen Sie Ihre Anfrage für ein Peering der Studio- oder Studio Classic-VPC mit der Amazon EMR-VPC. Wenn Sie Peering für ein anderes AWS Konto anfordern, wählen Sie unter Andere VPC für Peering auswählen die Option Anderes Konto aus.

      Für kontenübergreifendes Peering muss der Administrator die Anfrage vom Amazon EMR-Konto akzeptieren.

      Beim Peering privater Subnetze sollten Sie die Auflösung der privaten IP-DNS an der VPC-Peering-Verbindungsebene aktivieren.

  2. Routing-Tabellen

    Senden Sie den Netzwerkverkehr zwischen Studio- oder Studio Classic-Subnetzen und Amazon EMR-Subnetzen in beide Richtungen.

    Nachdem Sie die Peering-Verbindung hergestellt haben, kann der Administrator (für jedes Konto für kontoübergreifenden Zugriff) Routen zu den privaten Subnetz-Routentabellen hinzufügen, um den Verkehr zwischen Studio oder Studio Classic und den Amazon EMR-Subnetzen weiterzuleiten. Diese Routen können Sie festlegen, indem Sie den Abschnitt Routing-Tabellen jeder VPC im VPC-Dashboard aufrufen.

    Die folgende Abbildung der Routing-Tabelle eines Studio-VPC-Subnetzes zeigt ein Beispiel für eine ausgehende Route vom Studio-Konto zum Amazon EMR-VPC-IP-Bereich (hier2.0.1.0/24) über die Peering-Verbindung.

    Routing-Tabelle eines Studio-VPC-Subnetzes mit den ausgehenden Routen vom Studio-Konto zum IP-Bereich der Amazon EMR-VPC (hier 2.0.1.0/24) über die Peering-Verbindung

    Die folgende Abbildung einer Routing-Tabelle eines Amazon EMR-VPC-Subnetzes zeigt ein Beispiel für Routen von der Amazon EMR-VPC zurück zum IP-Bereich der Studio-VPC (hier 10.0.20.0/24) über die Peering-Verbindung.

    Routentabelle eines Amazon EMR-VPC-Subnetzes, in der die Rückwege vom Amazon EMR-Konto zum Studio-VPC-IP-Bereich (hier10.0.20.0/24) über die Peering-Verbindung angezeigt werden
  3. Sicherheitsgruppen

    Schließlich muss die Sicherheitsgruppe Ihrer Studio- oder Studio Classic-Domain ausgehenden Datenverkehr zulassen, und die Sicherheitsgruppe des primären Amazon EMR-Knotens muss eingehenden Datenverkehr an den Apache Livy -, Hive - oder Presto-TCP-Ports (bzw. 899810000, und8889) von der Studio- oder Studio Classic-Instance-Sicherheitsgruppe zulassen. Apache Livy ist ein Service, der die Interaktion mit Amazon EMR über eine REST-Schnittstelle ermöglicht.

Das folgende Diagramm zeigt ein Beispiel für ein Amazon VPC-Setup, das es unseren Studio Classic-Notebooks ermöglicht JupyterLab, Amazon EMR-Cluster anhand von AWS CloudFormation Vorlagen im Service Catalog bereitzustellen und dann eine Verbindung zu einem Amazon EMR-Cluster innerhalb desselben Kontos herzustellen. AWS Das Diagramm bietet eine zusätzliche Veranschaulichung der erforderlichen Endpunkte für eine direkte Verbindung zu verschiedenen AWS Diensten wie Amazon S3 oder Amazon CloudWatch, wenn diese keinen Internetzugang VPCs haben. Alternativ muss ein NAT-Gateway verwendet werden, um Instances in privaten Subnetzen mit mehreren Subnetzen die gemeinsame Nutzung einer einzigen öffentlichen IP-Adresse VPCs zu ermöglichen, die vom Internet-Gateway beim Zugriff auf das Internet bereitgestellt wird.

Architekturdiagramm, das ein Beispiel für ein einfaches Amazon VPC-Setup veranschaulicht, mit dem Studio- oder Studio Classic-Notebooks Amazon EMR-Cluster anhand von AWS CloudFormation Vorlagen im Service Catalog bereitstellen und dann eine Verbindung zu einem Amazon EMR-Cluster innerhalb desselben Kontos herstellen können. AWS Das Diagramm bietet eine zusätzliche Veranschaulichung der erforderlichen Endpunkte für eine direkte Verbindung zu verschiedenen AWS Diensten wie Amazon S3 oder Amazon CloudWatch, wenn diese keinen Internetzugang VPCs haben. Alternativ muss ein NAT-Gateway verwendet werden, um Instances in privaten Subnetzen mit mehreren Subnetzen die gemeinsame Nutzung einer einzigen öffentlichen IP-Adresse VPCs zu ermöglichen, die vom Internet-Gateway beim Zugriff auf das Internet bereitgestellt wird.

Studio und Amazon EMR befinden sich in derselben VPC

Wenn sich Studio oder Studio Classic und Amazon EMR in unterschiedlichen Subnetzen befinden, fügen Sie Routen zu jeder privaten Subnetz-Routentabelle hinzu, um den Verkehr zwischen Studio oder Studio Classic und den Amazon EMR-Subnetzen weiterzuleiten. Diese Routen können Sie festlegen, indem Sie den Abschnitt Routing-Tabellen jeder VPC im VPC-Dashboard aufrufen. Wenn Sie Studio oder Studio Classic und Amazon EMR in derselben VPC und demselben Subnetz bereitgestellt haben, müssen Sie den Datenverkehr zwischen Studio und Amazon EMR nicht weiterleiten.

Unabhängig davon, ob Sie Ihre Routing-Tabellen aktualisieren mussten oder nicht, muss die Sicherheitsgruppe Ihrer Studio- oder Studio Classic-Domain ausgehenden Datenverkehr zulassen, und die Sicherheitsgruppe des primären Amazon EMR-Knotens muss eingehenden Datenverkehr an den Apache Livy -, Hive - oder Presto-TCP-Ports (bzw. 899810000, und8889) aus der Studio- oder Studio Classic-Instance-Sicherheitsgruppe zulassen. Apache Livy ist ein Service, der die Interaktion mit einem Amazon EMR über eine REST-Schnittstelle ermöglicht.

Studio und Amazon EMR kommunizieren über das öffentliche Internet

Standardmäßig bieten Studio und Studio Classic eine Netzwerkschnittstelle, die die Kommunikation mit dem Internet über ein Internet-Gateway in der VPC ermöglicht, die der SageMaker Domain zugeordnet ist. Wenn Sie sich dafür entscheiden, über das öffentliche Internet eine Verbindung zu Amazon EMR herzustellen, muss Amazon EMR eingehenden Datenverkehr an den Apache Livy -, Hive - oder Presto-TCP-Ports (bzw. 899810000, und8889) von seinem Internet-Gateway akzeptieren. Apache Livy ist ein Service, der die Interaktion mit Amazon EMR über eine REST-Schnittstelle ermöglicht.

Beachten Sie, dass jeder Port, an dem Sie eingehenden Datenverkehr zulassen, eine potenzielle Sicherheitslücke darstellt. Überprüfen Sie sorgfältig die benutzerdefinierten Sicherheitsgruppen, um Schwachstellen zu minimieren. Weitere Informationen finden Sie unter Netzwerkverkehr mit Hilfe von Sicherheitsgruppen steuern.

Alternativ finden Sie unter Blogs und Whitepapers eine detaillierte Anleitung dazu, wie Sie Kerberos auf Amazon EMR aktivieren, den Cluster in einem privaten Subnetz einrichten und mit einem Network Load Balancer (NLB) auf den Cluster zugreifen, um nur bestimmte Ports verfügbar zu machen, deren Zugriff über Sicherheitsgruppen gesteuert wird.

Anmerkung

Wenn Sie über das öffentliche Internet eine Verbindung zu Ihrem Apache Livy-Endpunkt herstellen, empfehlen wir, die Kommunikation zwischen Studio oder Studio Classic und Ihrem Amazon EMR-Cluster mithilfe von TLS zu sichern.

Informationen zur Einrichtung von HTTPS mit Apache Livy finden Sie unter HTTPS mit Apache Livy aktivieren. Informationen zur Einrichtung eines Amazon EMR-Clusters mit aktivierter Übertragungsverschlüsselung finden Sie unter Bereitstellen von Zertifikaten für die Verschlüsselung von Daten während der Übertragung mit Amazon EMR-Verschlüsselung. Darüber hinaus müssen Sie Studio oder Studio Classic für den Zugriff auf Ihren Zertifikatsschlüssel konfigurieren, wie unter beschrieben. Eine Verbindung zu einem Amazon-EMR-Cluster über HTTPS herstellen