Detecção e processamento de arquivos compactados com o Amazon EMR
O Hadoop verifica a extensão do arquivo para detectar arquivos compactados. Os tipos de compactação com suporte pelo Hadoop são: gzip, bzip2 e LZO. Você não precisa tomar medidas adicionais para extrair arquivos usando esses tipos de compactação; o Hadoop manipula o processo para você.
Para indexar arquivos LZO, você pode usar a biblioteca hadoop-lzo, que pode ser baixada em https://github.com/kevinweil/hadoop-lzo