Die Hudi-CLI verwenden - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die Hudi-CLI verwenden

Sie können mit der Hudi-CLI Hudi-Datensätze verwalten, um Informationen zu Commits, zum Dateisystem, zu Statistiken und mehr anzuzeigen. Sie können mit der CLI auch Komprimierungen manuell durchführen, Komprimierungen planen oder geplante Komprimierungen abbrechen. Weitere Informationen finden Sie unter Dateimanagement in der Apache-Hudi-Dokumentation.

So starten Sie die Hudi-CLI und stellen Sie eine Verbindung mit einem Datensatz her
  1. Verbinden mit dem Master-Knoten über SSH. Weitere Informationen finden Sie unter Mit SSH eine Verbindung zum Hauptknoten herstellen im Verwaltungshandbuch für Amazon EMR.

  2. Geben Sie in die Befehlszeile /usr/lib/hudi/cli/bin/hudi-cli.sh ein.

    Die Eingabeaufforderung ändert sich in hudi->.

  3. Stellen Sie mit dem folgenden Befehl eine Verbindung mit einem Datensatz her. s3://amzn-s3-demo-bucket/myhudidatasetErsetzen Sie durch den Pfad zum Datensatz, mit dem Sie arbeiten möchten. Der von uns verwendete Wert entspricht dem Wert, der in früheren Beispielen festgelegt wurde.

    connect --path s3://amzn-s3-demo-bucket/myhudidataset

    Die Eingabeaufforderung ändert sich, um das Dataset einzuschließen, mit dem Sie verbunden sind, wie im folgenden Beispiel gezeigt.

    hudi:myhudidataset->

Standardmäßig verwendet das hudi-cli.sh Skript in den Amazon EMR-Versionen 7.3.0 bis 7.8.0. hudi-cli-bundle.jar Wenn Sie auf Probleme stoßen, können Sie mit dem folgenden Befehl zurück zur klassischen Hudi-CLI wechseln:

/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false

Dieser Befehl führt das hudi-cli.sh Skript aus, setzt das --cliBundle Flag und weist die CLI an, die einzelnen JAR-Dateien anstelle der gebündelten JAR zu verwenden. Standardmäßig --cliBundle ist der auf true gesetzt, was bedeutet, dass die CLI stattdessen das gebündelte JAR verwendet.

Verwenden von Amazon EMR 7.9.0 und höheren Versionen

Anmerkung

Das Skript hudi-cli.sh ist in EMR Version 7.9.0 und höher veraltet. Amazon EMR Version 7.9.0 und höher verwendet hudi-cli-bundle .jar.

So starten Sie die Hudi-CLI und stellen Sie eine Verbindung mit einem Datensatz her:

  1. Verbinden mit dem Master-Knoten über SSH. Weitere Informationen finden Sie unter Mit SSH eine Verbindung zum Hauptknoten herstellen im Verwaltungshandbuch für Amazon EMR.

  2. Geben Sie in der Befehlszeile/usr/lib/hudi/cli-bundle/bin/hudi- cli-with-bundle .sh ein oder geben Sie einfach oder >hudi-cli ein hudi-cli-with-bundle.

    Die Befehlszeile ändert sich zu hudi- >.

  3. Stellen Sie mit dem folgenden Befehl eine Verbindung mit einem Datensatz her. Ersetzen Sie s3://amzn-s3-demo-bucket/myhudidataset durch den Pfad zum Datensatz, mit dem Sie arbeiten möchten. Der von uns verwendete Wert entspricht dem Wert, der in früheren Beispielen festgelegt wurde.

    connect --path s3://amzn-s3-demo-bucket/myhudidataset
  4. Die Eingabeaufforderung ändert sich, um das Dataset einzuschließen, mit dem Sie verbunden sind, wie im folgenden Beispiel gezeigt.

    hudi:myhudidataset->