As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O S3-optimized committer do EMRFS e os carregamentos em várias partes
Para usar o S3-optimized committer do EMRFS, você deve habilitar uploads de várias partes para o Amazon EMR. Multipart uploads são habilitados por padrão. Você pode habilitá-los novamente, se necessário. Para obter mais informações, consulte Configure multipart upload for Amazon S3 (Configurar o carregamento fracionado no Amazon S3) no Guia de gerenciamento do Amazon EMR.
O S3-optimized committer do EMRFS usa as características de transação de uploads de várias partes para garantir que os arquivos gravados por tentativas de tarefa só apareçam no local de saída do trabalho após a confirmação da tarefa. Ao usar uploads de várias partes dessa forma, o committer melhora o desempenho da confirmação da tarefa em relação à versão 2 do FileOutputCommitter algoritmo padrão. Ao usar o S3-optimized committer do EMRFS, há algumas diferenças importantes em relação ao comportamento tradicional de upload em várias partes a serem consideradas:
-
Os multipart uploads são sempre executados, independentemente do tamanho do arquivo. Isso é diferente do comportamento padrão do EMRFS, em que a propriedade
fs.s3n.multipart.uploads.split.sizecontrola o tamanho do arquivo no qual multipart uploads são acionados. -
Os multipart uploads são deixados incompletos por um período mais longo até que a tarefa seja confirmada ou cancelada. Isso é diferente do comportamento padrão do EMRFS no qual um multipart upload é concluído quando uma tarefa é concluída ao gravar um determinado arquivo.
Devido a essas diferenças, se uma JVM do executor do Spark apresenta falha ou é eliminada enquanto as tarefas estão executando e gravando dados no Amazon S3, é mais provável que os carregamentos multipart partes sejam abandonados. Por esse motivo, ao usar o S3-optimized committer do EMRFS, certifique-se de seguir as melhores práticas para gerenciar uploads de várias partes com falha. Para obter mais informações, consulte Práticas recomendadas para trabalhar com buckets do Amazon S3 no Guia de gerenciamento do Amazon EMR.