AWS Glue の既知の問題
AWS Glue には以下の既知の問題があります。
トピック
クロスジョブデータアクセスの防止
単一の AWS アカウントに 2 つの AWS Glue Spark ジョブがあり、それぞれが別の AWS Glue Spark クラスターで実行されている状況を考慮します。ジョブは、AWS Glue 接続を使用して、同じ Virtual Private Cloud (VPC) 内のリソースにアクセスしています。この状況では、一方のクラスターで実行されているジョブが、もう一方のクラスターで実行されているジョブのデータにアクセスできる可能性があります。
次の図は、この状況の例を示しています。
この図では、AWS Glue Job-1 は Cluster-1 で実行され 、Job-2 は Cluster-2 で実行されています。どちらのジョブも、VPC の Subnet-1 に存在する Amazon Redshift の同じインスタンスを使用しています。Subnet-1 は、パブリックサブネットであることもプライベートサブネットであることもあります。
Job-1 は、Amazon Simple Storage Service (Amazon S3) Bucket-1 からデータを変換し、データを Amazon Redshift に書き込んでいます。Job-2 は Bucket-2 のデータで同じ処理を行っています。Job-1 は、Bucket-1 へのアクセスを許可する AWS Identity and Access Management (IAM) ロール Role-1 (非表示) を使用しています。Job-2 は、Bucket-2 へのアクセスを許可する Role-2 (非表示) を使用しています。
この 2 つのジョブにはネットワークパスがあり、相互のクラスターと通信し、相互のデータにアクセスできるようになっています。たとえば、Job-2 は Bucket-1 のデータにアクセスできます。この図では、これは赤色のパスとして示されています。
このような状況を回避するため、Job-1 および Job-2 に異なるセキュリティ設定をアタッチすることをお勧めします。セキュリティ設定をアタッチすることで、データへのクロスジョブアクセスは AWS Glue が作成する証明書によってブロックされます。セキュリティ設定は、ダミー設定にすることができます。つまり、Amazon S3 データ、Amazon CloudWatch データ、ジョブのブックマークの暗号化を有効にすることなく、セキュリティ設定を作成できます。3 つの暗号化オプションはすべて無効にできます。
セキュリティ設定の詳細については、「AWS Glue によって書き込まれたデータの暗号化」を参照してください。
セキュリティ設定をジョブにアタッチするには
https://console.aws.amazon.com/glue/
で AWS Glue コンソール を開きます。 -
ジョブの [Configure the job properties (ジョブプロパティの設定)] ページで、[セキュリティ設定、スクリプトライブラリおよびジョブパラメータ] セクションを展開します。
-
リストでセキュリティ設定を選択します。