Detección y procesamiento de archivos comprimidos con Amazon EMR - Amazon EMR

Detección y procesamiento de archivos comprimidos con Amazon EMR

Hadoop comprueba la extensión de archivo para detectar archivos comprimidos. Los tipos de compresión compatibles con Hadoop son: gzip, bzip2 y LZO. No tiene que tomar ninguna medida adicional para extraer archivos utilizando estos tipos de compresión; Hadoop se encarga por usted.

Para indexar los archivos LZO, puede utilizar la biblioteca hadoop-lzo que se puede descargar desde https://github.com/kevinweil/hadoop-lzo. Tenga en cuenta que, dado que se trata de una biblioteca de terceros, Amazon EMR no ofrece soporte al desarrollador sobre cómo utilizar esta herramienta. Para obtener información sobre su uso, consulte el archivo readme de hadoop-lzo.