翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
アカウント間で Amazon Redshift クラスターから Amazon S3 にデータをアンロードする
Andrew Kamel、Amazon Web Services
概要
アプリケーションをテストするときは、テスト環境に本番データを使用すると便利です。本番データを使用することで、開発中のアプリケーションをより正確に評価できます。
このパターンは、本番環境の Amazon Redshift クラスターから、Amazon Web Services (AWS) の開発環境の Amazon Simple Storage Service (Amazon S3) バケットにデータを抽出します。
このパターンは、以下を含む開発用アカウントと本番稼働用アカウントの両方のセットアップを段階的に行います。
必要なリソース
AWS Identity and Access Management (IAM) ロール
Amazon Redshift 接続をサポートするためのサブネット、セキュリティグループ、仮想プライベートクラウド (VPC) のネットワーク調整
アーキテクチャをテストするための Python ランタイムを使用する AWS Lambda 関数の例
Amazon Redshift クラスターへのアクセスを許可するために、このパターンは AWS Secrets Manager を使用して関連する認証情報を保存します。Amazon Redshift クラスターの場所がわからなくても、Amazon Redshift クラスターに直接接続するために必要なすべての情報を取得できます。さらに、シークレットの使用をモニタリングできます。
Secrets Manager に保存されるシークレットには、Amazon Redshift クラスターのホスト、データベース名、ポート、および関連する認証情報が含まれます。
このパターンを使用する際のセキュリティ上の考慮事項については、「ベストプラクティス」セクションを参照してください。
前提条件と制限事項
前提条件
本番稼働用アカウントで実行している Amazon Redshift クラスター
開発用アカウントで作成した S3 バケット
開発用アカウントと本番稼働用アカウント間の VPC ピアリングと、それに応じて調整されたルートテーブル
両方のピア接続された VPC の有効な DNS ホスト名および DNS 解決
制限事項
クエリするデータの量によっては、Lambda 関数がタイムアウトする場合があります。
実行に Lambda の最長タイムアウト (15 分) よりも時間がかかる場合は、Lambda コードに非同期アプローチを使用します。このパターンのコード例では、Python 用の psycopg2
ライブラリを使用していますが、psycopg2 は現在非同期処理をサポートしていません。 一部の AWS のサービス は では使用できません AWS リージョン。利用可能なリージョンについては、「AWS のサービス (リージョン別)
」を参照してください。特定のエンドポイントについては、「サービスエンドポイントとクォータ」ページを参照して、サービスのリンクを選択します。
アーキテクチャ
次の図は、開発用アカウントと本番稼働用アカウントが含まれるターゲットアーキテクチャを示しています。

この図表は、次のワークフローを示しています:
開発用アカウントの Lambda 関数は、本番稼働用アカウントの Secrets Manager の Amazon Redshift 認証情報にアクセスするために必要な IAM ロールを引き受けます。
次に、Lambda 関数は Amazon Redshift クラスターのシークレットを取得します。
開発用アカウントの Lambda 関数は、この情報を使用して、ピア接続された VPC を介して本番稼働用アカウントの Amazon Redshift クラスターに接続します。
次に、Lambda 関数はアンロードコマンドを送信して、本番稼働用アカウントの Amazon Redshift クラスターでクエリを実行します。
本番稼働用アカウントの Amazon Redshift クラスターは、開発用アカウントの S3 バケットにアクセスするための関連する IAM ロールを引き受けます。
Amazon Redshift クラスターは、クエリされたデータを開発用アカウントの S3 バケットにアンロードします。
Amazon Redshift からのデータのクエリ
次の図は、Amazon Redshift 認証情報を取得して Amazon Redshift クラスターに接続するために使用するロールを示しています。ワークフローは Lambda 関数が開始します。

この図表は、次のワークフローを示しています:
開発用アカウントの
CrossAccount-SM-Read-Roleは、本番稼働用アカウントのSM-Read-Roleを引き受けます。SM-Read-Roleロールは、アタッチされているポリシーを使用して Secrets Manager からシークレットを取得します。認証情報は、Amazon Redshift クラスターにアクセスにする際に使用されます。
Simple Storage Service (Amazon S3) へのデータのアップロード
次の図表は、データを抽出して Amazon S3 にアップロードするためのクロスアカウント読み取り/書き込みプロセスを示しています。ワークフローは Lambda 関数が開始します。パターンは Amazon Redshift の IAM ロールを連鎖します。Amazon Redshift クラスターから送信されるアンロードコマンドは、CrossAccount-S3-Write-Role を引き受け、次に S3-Write-Role を引き受けます。このロールの連鎖により、Amazon Redshift は Amazon S3 にアクセスできるようになります。

このワークフローには、次の手順が含まれます。
開発用アカウントの
CrossAccount-SM-Read-Roleは、本番稼働用アカウントのSM-Read-Roleを引き受けます。SM-Read-Roleは、Secrets Manager から Amazon Redshift 認証情報を取得します。Lambda 関数は、Amazon Redshift クラスターに接続し、クエリを送信します。
Amazon Redshift クラスターは
CrossAccount-S3-Write-Roleを引き受けます。CrossAccount-S3-Write-Roleは、開発用アカウントのS3-Write-Roleを引き受けます。クエリ結果は、開発用アカウントの S3 バケットにアンロードされます。
ツール
AWS のサービス
AWS Key Management Service (AWS KMS) は、データの保護に役立つ暗号化キーの作成と制御に役立ちます。
AWS Lambda は、サーバーのプロビジョニングや管理を行うことなくコードを実行できるコンピューティングサービスです。必要に応じてコードを実行し、自動的にスケーリングするため、課金は実際に使用したコンピューティング時間に対してのみ発生します。
Amazon Redshift は、AWS クラウド内でのフルマネージド型、ペタバイト規模のデータウェアハウスサービスです。
AWS Secrets Manager を使用すると、コード内のハードコードされた認証情報 (パスワードを含む) を Secrets Manager への API コールで置き換えて、プログラムでシークレットを取得することができます。
Amazon Simple Storage Service (Amazon S3) は、あらゆる量のデータを保存、保護、取得できるクラウドベースのオブジェクトストレージサービスです。
コードリポジトリ
このパターンのコードは、GitHub 内の「unload-redshift-to-s3-python
ベストプラクティス
セキュリティについての免責事項
このソリューションを実装する前に、以下の重要なセキュリティ上の推奨事項を検討してください。
開発用アカウントと本番稼働用アカウントを接続すると、スコープが拡大し、全体的なセキュリティ体制が低下する可能性があることに注意してください。このソリューションは一時的にのみデプロイし、必要なデータを抽出してから、すぐにデプロイされたリソースを破棄することを推奨します。リソースを破棄するには、Lambda 関数を削除し、このソリューション用に作成された IAM ロールとポリシーを削除し、アカウント間で付与されたネットワークアクセス権を取り消す必要があります。
データを本番環境から開発環境にコピーする前に、セキュリティチームとコンプライアンスチームに相談してください。個人を特定できる情報 (PII)、保護対象医療情報 (PHI)、その他の機密データや規制対象データは、通常、この方法でコピーしてはいけません。公開されている非機密情報 (ショップのフロントエンドからの公開株式データなど) のみをコピーしてください。本番データの使用ではなく、可能な限り、データのトークン化や匿名化、または合成テストデータの生成を検討してください。AWS セキュリティ原則の 1 つは、データからユーザーを遠ざけることです。つまり、デベロッパーは本番稼働用アカウントでオペレーションを実行してはいけません。
開発アカウントの Lambda 関数は本番環境の Amazon Redshift クラスターからデータを読み取ることができるため、Lambda 関数へのアクセスを制限してください。
本番環境の中断を避けるには、次の推奨事項を実装します。
テストと開発アクティビティには、別の専用開発アカウントを使用します。
厳格なネットワークアクセス制御を実装し、アカウント間の必要なトラフィックのみに制限します。
本番環境とデータソースへのアクセスをモニタリングし、監査します。
関連するすべてのリソースとサービスに対して、最小特権のアクセス制御を実装します。
AWS Secrets Manager シークレットや IAM ロールのアクセスキーなどの認証情報を定期的に確認して更新します。
この記事で使用されているサービスについては、次のセキュリティドキュメントを参照してください。
セキュリティは、本番データとリソースにアクセスする際の最優先事項です。常にベストプラクティスに従い、最小特権のアクセス制御を実装し、セキュリティ対策を定期的に見直して更新してください。
エピック
| タスク | 説明 | 必要なスキル |
|---|---|---|
Amazon Redshift クラスター用のシークレットを作成します。 | Amazon Redshift クラスター用のシークレットを作成するには、次の手順を実行します。
| DevOps エンジニア |
Secrets Manager にアクセスするロールを作成します。 | ロールを作成するには、次の操作を行います。
| DevOps エンジニア |
| タスク | 説明 | 必要なスキル |
|---|---|---|
S3 バケットにアクセスするためのロールを作成します。 | S3 バケットにアクセスするためのロールを作成するには、次の手順を実行します。
| DevOps エンジニア |
Amazon Redshift ロールを作成します。 | Amazon Redshift ロールを作成するには、次の操作を行います。
| DevOps エンジニア |
| タスク | 説明 | 必要なスキル |
|---|---|---|
Lambda 関数をデプロイします。 | ピア接続された VPC に Lambda 関数をデプロイするには、次の手順を実行します。
| DevOps エンジニア |
| タスク | 説明 | 必要なスキル |
|---|---|---|
必要なリソースをインポートします。 | 必要なリソースをインポートするには、次のコマンドを実行します。
| アプリ開発者 |
Lambda ハンドラー関数を実行します。 | Lambda 関数は、クロスアカウントアクセスと一時的な認証情報管理に AWS Security Token Service (AWS STS) を使用します。関数は AssumeRole API オペレーションを使用して、 Lambda 関数を実行するには、次のコード例を使用します。
| アプリ開発者 |
シークレットを取得します。 | Amazon Redshift シークレットを取得するには、次のコード例を使用します。
| アプリ開発者 |
アンロードコマンドを実行します。 | S3 バケットにデータをアンロードするには、次のコード例を使用します。
| アプリ開発者 |
| タスク | 説明 | 必要なスキル |
|---|---|---|
Lambda 関数の削除 | 予期しないコストが発生しないようにするには、リソースと、開発用アカウントと本番稼働用アカウント間の接続を削除します。 Lambda 関数を削除するには、次の手順を実行します。
| DevOps エンジニア |
IAM ロールとポリシーを削除します。 | 開発用アカウントと本番稼働用アカウントから IAM ロールとポリシーを削除します。 開発用アカウントで、次の操作を行います。
本番稼働用アカウントで、次の操作を行います。
| DevOps エンジニア |
Secrets Manager でシークレットを削除します。 | シークレットを削除するには、次の手順を実行します。
| DevOps エンジニア |
VPC ピアリングとセキュリティグループに関するルールを削除します。 | VPC ピアリングとセキュリティグループに関するルールを削除するには、次の手順を実行します。
| DevOps エンジニア |
データを S3 バケットから削除します。 | データを Amazon S3 から削除するには、次の手順を実行します。
| DevOps エンジニア |
AWS KMS キーをクリーンアップします。 | 暗号化用のカスタム AWS KMS キーを作成した場合は、次の操作を行います。
| DevOps エンジニア |
Amazon CloudWatch Logs を確認して削除します。 | CloudWatch Logs を削除するには、次の手順を実行します。
| DevOps エンジニア |
関連リソース
追加情報
Amazon Redshift から Amazon S3 にデータをアンロードした後、Amazon Athena を使用してデータを分析できます。
Amazon Athena はビッグデータを分析できるクエリサービスであり、大量のデータにアクセスする必要がある場合に便利です。Athena は、サーバーやデータベースをプロビジョニングしなくても使用できます。Athena は複雑なクエリをサポートしており、さまざまなオブジェクトでクエリを実行できます。
ほとんどの と同様に AWS のサービス、Athena を使用する主な利点は、複雑さを増すことなくクエリを実行する方法に大きな柔軟性があることです。Athena を使用すると、データ型を変更することなく、CSV や JSON などのさまざまなデータ型を Amazon S3 でクエリできます。外部を含むさまざまなソースからデータをクエリできます AWS。Athena を使用すると、サーバーを管理する必要がないため、複雑さを軽減できます。Athena は、クエリを実行する前にデータをロードしたり変更したりすることなく、Amazon S3 から直接データを読み取ります。