Detección y procesamiento de archivos comprimidos con Amazon EMR
Hadoop comprueba la extensión de archivo para detectar archivos comprimidos. Los tipos de compresión compatibles con Hadoop son: gzip, bzip2 y LZO. No tiene que tomar ninguna medida adicional para extraer archivos utilizando estos tipos de compresión; Hadoop se encarga por usted.
Para indexar los archivos LZO, puede utilizar la biblioteca hadoop-lzo que se puede descargar desde https://github.com/kevinweil/hadoop-lzo