Überlegungen und Einschränkungen bei der Verwendung des Spark-Connectors

Wir empfehlen, dass Sie SSL für die JDBC-Verbindung von Spark auf Amazon EMR zu Amazon Redshift aktivieren.
AWS Secrets Manager Als bewährte Methode empfehlen wir Ihnen, die Anmeldeinformationen für den Amazon Redshift Redshift-Cluster zu verwalten. Ein Beispiel finden Sie unter Verwenden AWS Secrets Manager zum Abrufen von Anmeldeinformationen für die Verbindung mit Amazon Redshift.
Wir empfehlen, dass Sie eine IAM-Rolle mit dem Parameter aws_iam_role für den Amazon Redshift Redshift-Authentifizierungsparameter übergeben.
Derzeit wird das Parquet-Format vom Parameter tempformat nicht unterstützt.
Die tempdir-URI verweist auf einen Amazon-S3-Speicherort. Dieses temporäre Verzeichnis wird nicht automatisch bereinigt und kann zusätzliche Kosten verursachen.
Beachten Sie die folgenden Empfehlungen für Amazon Redshift:
- Wir empfehlen Ihnen, den öffentlichen Zugriff auf den Amazon Redshift Redshift-Cluster zu blockieren.
- Wir empfehlen Ihnen, die Amazon Redshift Redshift-Auditprotokollierung zu aktivieren.
- Wir empfehlen Ihnen, die Amazon Redshift Redshift-Verschlüsselung im Ruhezustand zu aktivieren.
Beachten Sie die folgenden Empfehlungen für Amazon S3:
- Wir empfehlen Ihnen, den öffentlichen Zugriff auf Amazon S3 S3-Buckets zu blockieren.
- Wir empfehlen Ihnen, die serverseitige Amazon S3 S3-Verschlüsselung zu verwenden, um die verwendeten Amazon S3 S3-Buckets zu verschlüsseln.
- Wir empfehlen Ihnen, Amazon S3 S3-Lebenszyklusrichtlinien zu verwenden, um die Aufbewahrungsregeln für den Amazon S3 S3-Bucket zu definieren.
- Amazon EMR überprüft immer Code, der aus Open Source in das Image importiert wurde. Aus Sicherheitsgründen unterstützen wir die folgenden Authentifizierungsmethoden von Spark für Amazon S3 nicht:
  - Festlegung von AWS Zugriffsschlüsseln in der hadoop-env Konfigurationsklassifizierung
  - Kodierung der AWS Zugriffsschlüssel in der tempdir URI

Weitere Informationen zum Verwenden des Konnektors und seiner unterstützten Parameter finden Sie in den folgenden Ressourcen:

Amazon-Redshift-Integration für Apache Spark im Amazon-Redshift-Verwaltungshandbuch
Das spark-redshift-Community-Repository auf Github

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

In Amazon Redshift schreiben und lesen

Verbindung zu DynamoDB herstellen