データ収集 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ収集

データは AWS 内のさまざまなソースから収集できますが、ユースケースに適したデータ収集ツールを選択することが重要です。次の図は、データ収集ステージがデータエンジニアリングの自動化とアクセスコントロールのライフサイクルにどのように適合するかを示しています。

データ収集の図

AWS には、次のデータ収集ツールが用意されています。

  • Amazon Kinesis は、ストリーミングデータの収集に役立ちます。Kinesis は、シームレスな統合と処理機能も備えています。

  • AWS Database Migration Service (AWS DMS) は、リレーショナルデータベースからデータを取り込むのに役立ちます。AWS DMS には、AWS でホストされている Amazon Simple Storage Service (Amazon S3) などのオンプレミスサービスとデータベースサービス間の設定オプションと直接接続があります。

  • AWS Glue は、非構造化データの取り込みに役立つ抽出、変換、ロード (ETL) ツールです。

ストレージに Amazon S3 を使用して非構造化データまたは半構造化データを収集するためのユースケースはいくつかあります。例えば、製造サイトのデータ収集のユースケースでは、マシン履歴データのために履歴データを XML ファイルとして取り込んだり、イベントデータを JSON ファイルとして取り込んだり、リレーショナルデータベースから購入データを取り込んだりする必要がある場合があります。このユースケースでは、3 つのデータソースすべてを結合する必要がある場合もあります。

データインジェストプロセスを開始する前に、どのデータを取り込む必要があるかを理解した上で、そのデータを収集するために適したツールを選択することをお勧めします。