翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データ収集
データは AWS 内のさまざまなソースから収集できますが、ユースケースに適したデータ収集ツールを選択することが重要です。次の図は、データ収集ステージがデータエンジニアリングの自動化とアクセスコントロールのライフサイクルにどのように適合するかを示しています。
AWS には、次のデータ収集ツールが用意されています。
-
Amazon Kinesis
は、ストリーミングデータの収集に役立ちます。Kinesis は、シームレスな統合と処理機能も備えています。 -
AWS Database Migration Service (AWS DMS)
は、リレーショナルデータベースからデータを取り込むのに役立ちます。AWS DMS には、AWS でホストされている Amazon Simple Storage Service (Amazon S3) などのオンプレミスサービスとデータベースサービス間の設定オプションと直接接続があります。 -
AWS Glue
は、非構造化データの取り込みに役立つ抽出、変換、ロード (ETL) ツールです。
ストレージに Amazon S3 を使用して非構造化データまたは半構造化データを収集するためのユースケースはいくつかあります。例えば、製造サイトのデータ収集のユースケースでは、マシン履歴データのために履歴データを XML ファイルとして取り込んだり、イベントデータを JSON ファイルとして取り込んだり、リレーショナルデータベースから購入データを取り込んだりする必要がある場合があります。このユースケースでは、3 つのデータソースすべてを結合する必要がある場合もあります。
データインジェストプロセスを開始する前に、どのデータを取り込む必要があるかを理解した上で、そのデータを収集するために適したツールを選択することをお勧めします。