¿Qué formatos puede devolver Amazon EMR? - Amazon EMR

¿Qué formatos puede devolver Amazon EMR?

El formato de salida predeterminado para un clúster es texto con parejas de clave, valor escritas en líneas individuales de los archivos de texto. Este es el formato de salida usado con más frecuencia.

Si los datos de salida se tienen que escribir en un formato que no sean los archivos de texto predeterminados, puede utilizar la interfaz de Hadoop OutputFormat para especificar otros tipos de salida. Puede incluso crear una subclase de la clase FileOutputFormat para gestionar tipos de datos personalizados. Para obtener más información, consulte http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/OutputFormat.html.

Si está lanzando un clúster de Hive, puede utilizar un serializador/deserializador (SerDe) para generar datos desde HDFS en un formato dado. Para obtener más información, consulte https://cwiki.apache.org/confluence/display/Hive/SerDe.