Usar la CLI de Hudi
Puede usar la CLI de Hudi para administrar conjuntos de datos de Hudi y ver información sobre confirmaciones, el sistema de archivos, estadísticas y otros datos. También puede utilizar la CLI para realizar compactaciones manualmente, programarlas o cancelarlas otras programadas. Para obtener más información, consulte Interacción mediante la CLI
Para iniciar la CLI de Hudi y conectarse a un conjunto de datos
-
Conéctese al nodo principal utilizando SSH. Para obtener más información, consulte Conexión al nodo maestro mediante SSH en la Guía de administración de Amazon EMR.
-
En la línea de comandos, escriba
/usr/lib/hudi/cli/bin/hudi-cli.sh.El símbolo del sistema cambia a
hudi->. -
Para conectarse al conjunto de datos, utilice el siguiente comando. Reemplace
s3://amzn-s3-demo-bucket/myhudidatasetpor la ruta del conjunto de datos con el que desea trabajar. El valor que usamos es el mismo que el valor establecido en ejemplos anteriores.connect --paths3://amzn-s3-demo-bucket/myhudidatasetEl símbolo del sistema cambia para incluir el dataset al que está conectado, como se muestra en el siguiente ejemplo.
hudi:myhudidataset->
De forma predeterminada, el script hudi-cli.sh de las versiones de 7.3.0 a 7.8.0 de Amazon EMR utiliza hudi-cli-bundle.jar. Si tiene dificultades, puede volver a la CLI Hudi clásica con el siguiente comando:
/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false
Este comando ejecuta el script hudi-cli.sh, establece el indicador --cliBundle e indica a la CLI que utilice los archivos JAR individuales en lugar del JAR agrupado. De forma predeterminada, --cliBundle se establece en true, lo que significa que la CLI utiliza el JAR agrupado en su lugar.
Cómo usar la versión 7.9.0 y posteriores de Amazon EMR
nota
El script hudi-cli.sh quedó obsoleto en la versión 7.9.0 y posteriores de EMR. La versión 7.9.0 y posteriores de Amazon EMR usa hudi-cli-bundle.jar.
Para iniciar la CLI de Hudi y conectarse a un conjunto de datos:
-
Conéctese al nodo principal utilizando SSH. Para obtener más información, consulte Conexión al nodo maestro mediante SSH en la Guía de administración de Amazon EMR.
-
En la línea de comandos, escriba /usr/lib/hudi/cli-bundle/bin/hudi-cli-with-bundle.sh o simplemente escriba hudi-cli-with-bundle o >hudi-cli.
La petición del sistema cambia a hudi- >.
-
Para conectarse al conjunto de datos, utilice el siguiente comando. Reemplace s3://amzn-s3-demo-bucket/myhudidataset por la ruta del conjunto de datos con el que desea trabajar. El valor que usamos es el mismo que el valor establecido en ejemplos anteriores.
connect --path s3://amzn-s3-demo-bucket/myhudidataset -
El símbolo del sistema cambia para incluir el dataset al que está conectado, como se muestra en el siguiente ejemplo.
hudi:myhudidataset->