Spark コネクタを使用する際の考慮事項と制限事項 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Spark コネクタを使用する際の考慮事項と制限事項

  • Amazon EMR の Spark から Amazon Redshift への JDBC 接続で SSL を有効にすることをお勧めします。

  • ベストプラクティス AWS Secrets Manager として、 で Amazon Redshift クラスターの認証情報を管理することをお勧めします。例についてはAWS Secrets Manager 、「 を使用して Amazon Redshift に接続するための認証情報を取得する」を参照してください。

  • Amazon Redshift 認証パラメータの パラメータを使用して IAM ロールaws_iam_roleを渡すことをお勧めします。

  • 現在、パラメータ tempformat は Parquet 形式をサポートしていません。

  • tempdir URI は Amazon S3 の場所を指します。この一時ディレクトリは、自動的にはクリーンアップされないため、追加コストが発生する可能性があります。

  • Amazon Redshift については、次の推奨事項を検討してください。

  • Amazon S3 については、次の推奨事項を検討してください。

    • Amazon S3 バケットへのパブリックアクセスをブロックすることをお勧めします。

    • Amazon S3 サーバー側の暗号化を使用して、使用される Amazon S3 バケットを暗号化することをお勧めします。

    • Amazon S3 ライフサイクルポリシーを使用して、Amazon S3 バケットの保持ルールを定義することをお勧めします。

    • Amazon EMR は、常にオープンソースからイメージにインポートされるコードを検証します。セキュリティのため、Spark から Amazon S3 への次の認証方法はサポートされていません。

      • hadoop-env 設定分類での AWS アクセスキーの設定

      • URI tempdir での AWS アクセスキーのエンコード

コネクタとそのサポートされているパラメータの使用方法の詳細については、次のリソースを参照してください。