移行の要件の収集 - AWS DataSync

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

移行の要件の収集

大規模なデータ移行の最初のステップでは、組織全体でさまざまな情報を収集する必要があります。

この情報は、移行プロセスを作成するのに役立ちます。大規模な移行の場合、この移行プロセスには送信元から送信先のストレージへオペレーション (ウェーブで実行) をカットオーバーする複数の転送と手順を含めることができます。

移行する理由を把握する

AWS への移行を開始する前に、データを移行する理由を明確に理解する必要があります。これにより、期限の遵守、リソースの管理、チーム間の調整など、移行に関する一般的な課題に対処できます。

移行の動機を判断するためにサポートが必要な場合は、次の質問に答えてください。

  • オンプレミスのストレージスペースを解放しますか?

  • ハードウェアサポートの契約期限を迎えていますか?

  • これはデータセンターを廃止するためのものですか?

  • 移行のタイムラインはどのようなものですか?

  • 他のクラウドストレージからデータを転送しますか?

  • データセットの一部またはすべてを移行しますか?

  • これはデータアーカイブ用ですか?

  • アプリケーションまたはユーザーは、定期的にこのデータにアクセスする必要がありますか?

ロジスティクスの把握

ストレージ環境、移行、組織に関する基本的なロジスティクスを扱います。

  1. 現在のデータストレージインフラストラクチャの基本を理解します。

  2. DataSync エージェントが必要かどうかを確認します。例えば、オンプレミスストレージから転送する場合はエージェントが必要です。

  3. エージェントが必要な場合は、エージェントの要件を理解するようにしてください。

    • エージェントは、VMware ESXi、Linux カーネルベース仮想マシン (KVM)、Microsoft Hyper-V ハイパーバイザー上で仮想マシン (VM) として実行できます。また、エージェントを AWS 内で Amazon EC2 インスタンスとしてデプロイすることもできます。

    • 大規模な移行は通常、メモリを大量に消費します。エージェントに十分な RAM があることを確認してください。

  4. 移行に関与する必要があるリーダー、ネットワーク、ストレージ、IT 部門の主要なステークホルダーを特定します。これには次が含まれる場合があります。

    • プロジェクトとその結果に専念するシングルスレッドのリーダーを見つけます。

    • 移行するデータの所有権と分類の責任者を決定します。

    • 誰がソースを管理するか、誰が最終的に移行先の AWS ストレージサービスを管理するかを特定します。

    • データを AWS に移行した後、そのデータの他のプロセスを作成および管理するユーザーを確認します。

  5. 部門間のコミュニケーションチャネルを確立します。

  6. 不測の事態に備えてロールバックプランを作成します。

  7. ウェーブ、検証、カットオーバーの手順など、移行プロセス全体を文書化します。これを移行全体のランブックとして使用します。移行を計画および実装する際に、このプロセスを更新します。

移行するデータの確認

ストレージチームやアプリケーションチームと協力して、移行するデータの特性を分析します。この情報は、DataSync で実行できる移行戦略を決定するのに役立ちます。

データ使用パターンの決定

  • アクティブに使用されており、頻繁に変更されるデータについては、事業活動の中断を避けるために、複数のウェーブの増分転送を計画してください。

  • アーカイブと見なされる可能性のある読み取り専用データの場合、ウェーブを計画する必要はありません。

  • データ使用パターンが混在している場合は、これらの異なるデータセットを個別に移行するウェーブを計画します。例えば、1 つのウェーブをアーカイブデータ用に、残りのウェーブをアクティブなデータの移行専用にすることができます。

データ構造とレイアウトの特定

  • データが期間 (年、月、日) またはその他のパターン別に整理されているかどうかを確認します。

  • この組織構造を使用して移行ウェーブを計画します。例えば、1 つのウェーブ中に 1 年分のアーカイブデータを移行できます。

共有とフォルダのドキュメント化

  • 共有とフォルダのインベントリを作成します (それぞれのファイルまたはオブジェクト数を含む)。

  • アクティブなデータセットを持つ共有とフォルダを特定します。これには、移行中に増分転送が必要になる場合があります。

  • DataSync のクォータを確認します。こうすることで、DataSync を設定するときにデータセットをどのようにパーティショニングするかを計画するのに役立ちます。

ファイルサイズの分析

  • 小さいファイル (KB) と比べ、大きいファイル (MB または GB) の転送ではより高いデータスループットが求められます。

  • 多数の小さなファイルを扱う場合は、ストレージシステムでのメタデータの操作が増え、データスループットが低下することが予想されます。DataSync は、送信元と送信先の場所を比較および検証するときに、これらのオペレーションを実行します。

ストレージ要件の特定

互換性のある AWS ストレージサービスを選択してデータを移行するには、送信元のストレージシステムの特性とパフォーマンスを評価する必要があります。

この情報は、移行中の事業活動への影響を最小限に抑えるために転送をスケジュールするのに役立ちます。

送信元のストレージのサポートの確認

DataSync は、NFS、SMB、HDFS、S3 互換オブジェクトストレージクライアントを介したアクセスを許可するさまざまなストレージシステムと連携できます。

その他のクラウドストレージから移行する場合は、DataSync がそのプロバイダーと連携できることを確認します。サポートされている送信元の場所のリストについては、「AWS DataSyncのデータはどこに転送できますか?」を参照してください。

メタデータ保持要件の確認

DataSync はデータ転送中にファイルまたはオブジェクトのメタデータを保持できます。メタデータがどのように保持されるかは、転送場所と、それらの場所で同様の種類のメタデータが使用されているかどうかによって異なります。

DataSync では、NTFS 任意アクセスリスト (DACL) などのファイルメタデータを保持するための追加のアクセス許可が必要になる場合があります。

詳細については、「DataSync のファイルとオブジェクトのメタデータの処理方法を理解する」を参照してください。

送信元のストレージからのパフォーマンスメトリクスの収集

送信元のストレージの平均ワークロードとピークワークロード中のベースライン IOPS とディスクスループットを測定します。データを転送すると、送信元と送信先のストレージシステムの両方に I/O オーバーヘッドが追加されます。

このパフォーマンスデータをストレージシステムの仕様と比較して、使用可能なパフォーマンスリソースを決定します。

送信先の AWS ストレージサービスの選択

ここまでで、どの AWS ストレージサービスがお使いのデータに適しているかが確認できたかもしれません。まだの場合、決定にあたって考慮すべきはデータの使用パターンとストレージパフォーマンスの 2 点です。例えば、アーカイブデータがある場合は Amazon S3 を、アクティブなデータの場合は Amazon FSx または Amazon EFS を検討します。

お使いのデータに適したオブジェクトまたはファイルベースのストレージを決定する方法については、「Choosing an AWS storage service」を参照してください。

ネットワーク要件の特定

DataSync を使用してデータを移行するには、送信元のストレージ、エージェント、AWS 間のネットワーク接続を確立する必要があります。また、十分なネットワーク帯域幅とインフラストラクチャを計画する必要もあります。

ネットワークエンジニアやストレージ管理者と協力して、次のネットワーク要件を収集します。

使用可能なネットワーク帯域幅の評価

利用可能なネットワーク帯域幅は、転送速度と全体的な移行時間に影響します。オンプレミスのストレージシステムから転送する場合は、以下を行います。

  • ネットワークチームと協力して、帯域幅の平均使用率とピーク使用率を確認します。

  • データ転送が可能な時間帯を特定し、日常業務の中断を回避します。これにより、移行のウェーブとカットオーバーのタイミングを把握できます。

DataSync がどれだけの帯域幅を使用するかを制御できます。詳細については、「AWS DataSync タスクへの帯域幅制限の設定」を参照してください。

通常、他のクラウドストレージからの転送はパブリックインターネット経由で行われるため、これらの転送では帯域幅の制限や考慮事項が少なくなります。

ネットワークを AWS に接続するためのオプションの検討

DataSync の転送のためのネットワーク接続を確立するには、次のオプションを検討してください。

  • Direct Connect - DataSync で Direct Connect を使用するためのアーキテクチャとルーティングの例を確認します。Amazon CloudWatch を使用して Direct Connect のアクティビティをモニタリングできます。

  • VPN - AWS Site-to-Site VPN はトンネルあたり最大 1.25 Gbps のスループットを提供します。

  • パブリックインターネット - ネットワーク使用状況データについては、インターネットサービスプロバイダーにお問い合わせください。

エージェントの通信用のサービスエンドポイントの選択

DataSync エージェントは DataSync サービスとの通信にサービスエンドポイントを使用します。使用するエンドポイントのタイプは、ネットワークを AWS に接続する方法によって異なります。

十分なネットワークインフラストラクチャの計画

作成する転送タスクごとに、DataSync はデータ転送用のネットワークインフラストラクチャを自動的に生成して管理します。このインフラストラクチャは、ネットワークインターフェイスまたは Elastic Network Interface と呼ばれ、仮想ネットワークカードを表す Amazon Virtual Private Cloud (VPC) の論理ネットワークコンポーネントです。詳細については、「Amazon EC2 ユーザーガイド」を参照してください。

各ネットワークインターフェイスは、送信先 VPC サブネットで 1 つの IP アドレスを使用します。移行に十分なネットワークインフラストラクチャがあることを確認するには、以下を実行します。

  • DataSync が DataSync 送信先の場所用に作成するネットワークインターフェイスの数をメモします。

  • DataSync タスクに対して十分な IP アドレスがサブネットにあることを確認します。例えば、エージェントを使用するタスクには 4 つの IP アドレスが必要です。移行用に 4 つのタスクを作成する場合、サブネットには 16 個の使用可能な IP アドレスが必要になります。