AWS Data Pipeline신규 고객은 더 이상 를 사용할 수 없습니다. AWS Data Pipeline의 기존 고객은 정상적으로 서비스를 계속 이용할 수 있습니다. 자세히 알아보기
Hadoop 스트리밍과 함께 Amazon EMR을 사용하여 데이터 처리
AWS Data Pipeline를 사용하여 Amazon EMR 클러스터를 관리할 수 있습니다. 클러스터 시작 전에 충족해야 하는 사전 조건(예: 오늘 데이터를 Amazon S3로 업로드), 클러스터 반복 실행 일정 및 사용할 클러스터 구성을 AWS Data Pipeline를 사용하여 지정할 수 있습니다. 다음 자습서는 단순한 클러스터를 시작하는 방법을 설명합니다.
이 자습서에서 단순한 Amazon EMR 클러스터용 파이프라인을 생성하여 Amazon EMR이 제공한 기존 Hadoop Streaming 작업을 실행하고, 작업이 성공적으로 완료된 후에 Amazon SNS 알림을 전송합니다. AWS Data Pipeline가 제공한 Amazon EMR 클러스터 리소스를 이 작업에 사용합니다. 샘플 애플리케이션은 이름이 WordCount이며, 콘솔에서 수동으로 실행할 수도 있습니다. 사용자 대신 AWS Data Pipeline가 생성한 클러스터는 Amazon EMR 콘솔에 표시되며, 요금은 사용자의 AWS 계정으로 청구됩니다.
파이프라인 객체
파이프라인은 다음 객체를 사용합니다.
- EmrActivity
-
파이프라인에서 수행할 작업을 정의합니다(Amazon EMR이 제공한 기존 Hadoop Streaming 작업 실행).
- EmrCluster
-
이 작업을 수행할 때 AWS Data Pipeline이 사용하는 리소스입니다.
클러스터는 Amazon EC2 인스턴스의 집합입니다. AWS Data Pipeline는 클러스터를 시작한 후 작업이 끝나면 종료합니다.
- 일정
-
이 활동의 시작 날짜, 시간 및 기간입니다. 종료 날짜와 시간을 지정할 수도 있습니다.
- SnsAlarm
-
작업이 성공적으로 끝나면 사용자가 지정한 항목으로 Amazon SNS 알림을 전송합니다.