Amazon EMR을 사용하여 압축 파일 탐지 및 처리
Hadoop은 파일 확장명을 확인하여 압축 파일을 감지합니다. Hadoop에서 지원되는 압축 형식은 gzip, bzip2 및 LZO입니다. 이러한 압축 형식을 사용하는 파일을 압축 해제하기 위해 추가 작업을 수행할 필요는 없으며 Hadoop에서 자동으로 처리됩니다.
LZO 파일을 인덱스하려면 https://github.com/kevinweil/hadoop-lzo
Hadoop은 파일 확장명을 확인하여 압축 파일을 감지합니다. Hadoop에서 지원되는 압축 형식은 gzip, bzip2 및 LZO입니다. 이러한 압축 형식을 사용하는 파일을 압축 해제하기 위해 추가 작업을 수행할 필요는 없으며 Hadoop에서 자동으로 처리됩니다.
LZO 파일을 인덱스하려면 https://github.com/kevinweil/hadoop-lzo