AWS Data PipelineO não está mais disponível para novos clientes. Os clientes atuais do AWS Data Pipeline podem continuar usando o serviço normalmente. Saiba mais
Processar dados usando Amazon EMR com Hadoop Streaming
Também é possível usar o AWS Data Pipeline para gerenciar seus clusters do Amazon EMR. Com o AWS Data Pipeline você pode especificar precondições que devem ser atendidas antes de o cluster ser iniciado (por exemplo, garantindo que os dados de hoje sejam carregados para o Amazon S3), um agendamento para executar repetidamente o cluster e a configuração do cluster a ser usado. O tutorial a seguir fornece o passo a passo para que você inicie um cluster simples.
Neste tutorial, você cria um pipeline para um cluster do Amazon EMR simples para executar um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR e enviar uma notificação do Amazon SNS depois que a tarefa for concluída com êxito. Você pode usar o recurso de cluster do Amazon EMR fornecido pelo AWS Data Pipeline para esta tarefa. O aplicativo de exemplo é chamado WordCount e também pode ser executado manualmente a partir do console do Amazon EMR. Observe que os clusters gerados pelo AWS Data Pipeline em seu nome são exibidos no console do Amazon EMR e cobrados na sua conta da AWS.
Objetos de pipeline
O pipeline usa os seguintes objetos:
- EmrActivity
-
Define o trabalho a ser executado no pipeline (executa um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR).
- EmrCluster
-
O recurso que o AWS Data Pipeline usa para executar essa atividade.
Um cluster é um conjunto de instâncias do Amazon EC2. O AWS Data Pipeline inicia o cluster e, em seguida, é encerrado após a tarefa ser finalizada.
- Schedule
-
Data e hora de início, e a duração dessa atividade. Se preferir, você pode especificar a data e a hora de término.
- SnsAlarm
-
Envia uma notificação do Amazon SNS para o tópico que você especifica depois que a tarefa é concluída com êxito.