Processar dados usando Amazon EMR com Hadoop Streaming

Você pode usar AWS Data Pipeline para gerenciar seus clusters do Amazon EMR. Com isso, AWS Data Pipeline você pode especificar condições prévias que devem ser atendidas antes do lançamento do cluster (por exemplo, garantir que os dados atuais sejam enviados para o Amazon S3), um cronograma para executar repetidamente o cluster e a configuração do cluster a ser usada. O tutorial a seguir fornece o passo a passo para que você inicie um cluster simples.

Neste tutorial, você cria um pipeline para um cluster do Amazon EMR simples para executar um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR e enviar uma notificação do Amazon SNS depois que a tarefa for concluída com êxito. Você usa o recurso de cluster do Amazon EMR fornecido por AWS Data Pipeline para essa tarefa. O aplicativo de amostra é chamado WordCount e também pode ser executado manualmente no console do Amazon EMR. Observe que os clusters gerados AWS Data Pipeline em seu nome são exibidos no console do Amazon EMR e são cobrados na sua conta da AWS.

Objetos de pipeline

O pipeline usa os seguintes objetos:

EmrActivity

Define o trabalho a ser executado no pipeline (executa um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR).

EmrCluster

Recursos AWS Data Pipeline usados para realizar essa atividade.

Um cluster é um conjunto de instâncias do Amazon EC2. AWS Data Pipeline inicia o cluster e o encerra após a conclusão da tarefa.

Agendamento

Data e hora de início, e a duração dessa atividade. Se preferir, você pode especificar a data e a hora de término.

SnsAlarm

Envia uma notificação do Amazon SNS para o tópico que você especifica depois que a tarefa é concluída com êxito.

Conteúdo

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tutoriais

Antes de começar