Hadoop 스트리밍과 함께 Amazon EMR을 사용하여 데이터 처리

AWS Data Pipeline 를 사용하여 Amazon EMR 클러스터를 관리할 수 있습니다. 를 AWS Data Pipeline 사용하여 클러스터가 시작되기 전에 충족해야 하는 사전 조건(예: 오늘의 데이터가 Amazon S3에 업로드되었는지 확인), 클러스터를 반복적으로 실행하기 위한 일정 및 사용할 클러스터 구성을 지정할 수 있습니다. 다음 자습서는 단순한 클러스터를 시작하는 방법을 설명합니다.

이 자습서에서 단순한 Amazon EMR 클러스터용 파이프라인을 생성하여 Amazon EMR이 제공한 기존 Hadoop Streaming 작업을 실행하고, 작업이 성공적으로 완료된 후에 Amazon SNS 알림을 전송합니다. 이 작업에 AWS Data Pipeline 에서 제공하는 Amazon EMR 클러스터 리소스를 사용합니다. 샘플 애플리케이션은 이름이 WordCount이며, 콘솔에서 수동으로 실행할 수도 있습니다. 사용자를 대신하여 AWS Data Pipeline 에서 생성된 클러스터는 Amazon EMR 콘솔에 표시되며 AWS 계정으로 청구됩니다.