Speicheroptionen und Verhalten von Instances in Amazon EMR - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Speicheroptionen und Verhalten von Instances in Amazon EMR

Übersicht

Der Instance-Speicher und der Amazon-EBS-Volume-Speicher werden für HDFS-Daten sowie für Puffer, Caches, Arbeitsdaten und andere temporäre Inhalte verwendet, die einige Anwendungen möglicherweise in das lokale Dateisystem „verschütten“.

Amazon EBS funktioniert innerhalb von Amazon EMR anders als bei regulären EC2 Amazon-Instances. An Amazon-EMR-Cluster angefügte Amazon-EMR-Volumes sind beispielsweise flüchtig: Die Volumes werden beim Beenden des Clusters und der Instance gelöscht (z. B. beim Verkleinern von Instance-Gruppen). Daher sollten Sie nicht davon ausgehen, dass Daten dauerhaft gespeichert werden. Obwohl die Daten flüchtig sind, ist es möglich, dass Daten in HDFS abhängig von der Anzahl und der Spezialisierung der Knoten im Cluster repliziert werden. Wenn Sie Amazon-EBS-Speichervolumes hinzufügen, werden diese als zusätzliche Volumes bereitgestellt. Sie sind nicht Teil des Startvolumes. YARN ist so konfiguriert, dass alle zusätzlichen Volumes verwendet werden. Sie sind jedoch dafür verantwortlich, die zusätzlichen Volumes als lokalen Speicher (z. B. für lokale Protokolldateien) zuzuweisen.

Überlegungen

Die folgenden zusätzlichen Überlegungen sollten Sie berücksichtigen, wenn Sie Amazon EBS mit EMR-Clustern verwenden:

Amazon-EBS-Standardspeicher für Instances

Für EC2 Instances, die nur über EBS-Speicher verfügen, weist Amazon EMR Amazon EBS-gp2- oder gp3-Speicher-Volumes den Instances zu. Wenn Sie einen Cluster mit der Amazon-EMR-Version 5.22.0 und höher erstellen, erhöht sich die Standardmenge des Amazon-EBS-Speichers basierend auf der Größe der Instance.

Wir teilen jeden erhöhten Speicherplatz auf mehrere Volumes auf. Dies führt zu einer erhöhten IOPS-Leistung und damit bei einigen standardisierten Workloads zu einer höheren Leistung. Wenn Sie eine andere Instance-Speicherkonfiguration von Amazon EBS verwenden möchten, können Sie diese beim Erstellen eines EMR-Clusters bzw. beim Hinzufügen von Knoten zu einem Cluster angeben. Sie können gp2- oder gp3-Volumes von Amazon EBS als Root-Volumes verwenden und gp2- oder gp3-Volumes als zusätzliche Volumes hinzufügen. Weitere Informationen finden Sie unter Angeben zusätzlicher EBS-Speicher-Volumes.

In der folgenden Tabelle sind die Standardanzahl von Amazon-EBS-GP2-Speicher-Volumes, Größen und Gesamtgrößen pro Instance-Typ aufgeführt. Hinweise zu gp2-Volumes im Vergleich zu gp3-Volumes finden Sie unter Vergleichen der Amazon-EBS-Volumetypen gp2 und gp3.

Standardmäßige gp2-Speichervolumes von Amazon EBS und Speichergröße nach Instance-Typ für Amazon EMR 5.22.0 und höher
Instance-Größe Anzahl der Volumes Volume-Größe (GiB) Gesamtgröße (GB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

18xlarge

4

288

1 152

24xlarge

4

384

1536

Standard-Root-Volume von Amazon EBS für Instances

Mit Amazon EMR-Versionen 6.15 und höher hängt Amazon EMR automatisch eine Amazon EBS General Purpose SSD (gp3) als Root-Gerät an, um die Leistung zu verbessern. AMIs In früheren Versionen fügt Amazon EMR EBS-Allzweck-SSD (gp2) als Root-Gerät zu.

6.15 und höher 6.14 und niedriger
Root-Volume-Standardtyp
  • gp3

  • gp2

Standardgröße
  • 15 GiB

  • (konfigurierbar)

  • 6.10 und höher = 15 GiB

  • 6.9 und weniger = 10 GiB

  • (konfigurierbar)

Standard-IOPS
  • 3000

  • (konfigurierbar)

Standarddurchsatz
  • 125 MiB/s

  • (konfigurierbar)

Informationen zum Anpassen des Root-Geräte-Volumes von Amazon EBS finden Sie unter Angeben zusätzlicher EBS-Speicher-Volumes.

Angeben zusätzlicher EBS-Speicher-Volumes

Wenn Sie Instance-Typen in Amazon EMR konfigurieren, können Sie zusätzliche EBS-Volumes angeben, um Kapazität über den Instance-Speicher (falls vorhanden) und das Standard-EBS-Volume hinaus hinzuzufügen. Amazon EBS bietet die folgenden Volume-Typen: Allzweck (SSD), Bereitgestellte IOPS (SSD), durchsatzoptimiert (HDD), Cold (HDD) und Magnetfestplatte. Diese unterscheiden sich bei den Leistungsmerkmalen und im Preis, sodass Sie Ihren Speicher den Analyse- und Business-Anforderungen Ihrer Anwendungen entsprechend anpassen können. Beispielsweise benötigen einige Anwendungen den Überlauf auf Datenträger, während andere im Speicher oder unter Verwendung Amazon S3 sicher arbeiten können.

Sie können Amazon-EBS-Volumes nur beim Cluster-Startup und beim Hinzufügen einer zusätzlichen Aufgabenknoten-Instance-Gruppe an Instances anhängen. Wenn eine Instance in einem Amazon-EMR-Cluster ausfällt, werden sowohl die Instance als auch die angeschlossenen Amazon-EBS-Volumes durch neue Volumes ersetzt. Wenn Sie ein Amazon-EBS-Volume manuell trennen, behandelt Amazon EMR dies als Fehler und ersetzt sowohl den Instance-Speicher (falls zutreffend) als auch die Volume-Speicher.

Amazon EMR erlaubt Ihnen nicht, Ihren Volumetyp für einen vorhandenen EMR-Cluster von gp2 auf gp3 zu ändern. Um gp3 für Ihre Workloads zu verwenden, starten Sie einen neuen EMR-Cluster. Darüber hinaus raten wir davon ab, den Durchsatz und die IOPS auf einem Cluster, der verwendet wird oder bereitgestellt wird, zu aktualisieren, da Amazon EMR für jede neue Instance, die bei der Hochskalierung des Clusters hinzugefügt wird, den Durchsatz und die IOPS-Werte verwendet, die Sie beim Clusterstart angegeben haben. Weitere Informationen erhalten Sie unter Vergleichen der Amazon-EBS-Volumetypen gp2 und gp3 und Auswahl von IOPS und Durchsatz bei der Migration zu gp3 Amazon EBS-Volumetypen.

Wichtig

Um ein gp3-Volume mit Ihrem EMR-Cluster zu verwenden, müssen Sie einen neuen EMR-Cluster starten.