Spark コネクタを使用する際の考慮事項と制限事項

Amazon EMR 上の Spark から Amazon Redshift への JDBC 接続に対して SSL を有効にすることを提案します。
ベストプラクティスとして、 AWS Secrets Manager で Amazon Redshift クラスターの認証情報を管理することを提案します。例についてはAWS Secrets Manager 、「を使用して Amazon Redshift に接続するための認証情報を取得する」を参照してください。
Amazon Redshift 認証パラメータのパラメータ aws_iam_role を使用して IAM ロールを渡すことを提案します。
現在、パラメータ tempformat は Parquet 形式をサポートしていません。
tempdir URI は Amazon S3 の場所を指します。この一時ディレクトリは、自動的にはクリーンアップされないため、追加コストが発生する可能性があります。
Amazon Redshift については、次の推奨事項を検討してください。
- Amazon Redshift クラスターにパブリックにアクセスできないようにすることを提案します。
- Amazon Redshift 監査ログ作成を有効にすることを提案します。
- Amazon Redshift 保管時の暗号化を有効にすることを提案します。
Amazon S3 については、次の推奨事項を検討してください。
- Amazon S3 バケットへのパブリックアクセスをブロックすることを提案します。
- Amazon S3 サーバー側の暗号化を使用して、使用する Amazon S3 バケットを暗号化することを提案します。
- Amazon S3 ライフサイクルポリシーを使用して、Amazon S3 バケットの保持ルールを定義することを提案します。
- Amazon EMR は、常にオープンソースからイメージにインポートされるコードを検証します。セキュリティのため、Spark から Amazon S3 への次の認証方法はサポートされていません。
  - hadoop-env 設定分類での AWS アクセスキーの設定
  - URI tempdir での AWS アクセスキーのエンコード

コネクタとそのサポートされているパラメータの使用方法の詳細については、次のリソースを参照してください。

「Amazon Redshift 管理ガイド」の「Amazon Redshift integration for Apache Spark」
Github の spark-redshift コミュニティリポジトリ

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Redshift に対する読み書き

DynamoDB への接続