翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Hudi CLI を使用する
Hudi CLI を使用して Hudi データセットを管理し、コミット、ファイルシステム、統計などに関する情報を表示できます。CLI を使用して、手動で圧縮を実行したり、圧縮をスケジュールしたり、スケジュールされた圧縮をキャンセルしたりすることもできます。詳細については、Apache Hudi ドキュメントの「Interacting via CLI
Hudi CLI を起動してデータセットに接続するには
-
SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。
-
コマンドラインで「
/usr/lib/hudi/cli/bin/hudi-cli.sh
」と入力します。コマンドプロンプトが
hudi->
に変わります。 -
データセットに接続するには、以下のコマンドを使用します。
s3://amzn-s3-demo-bucket/myhudidataset
は、処理するデータセットへのパスに置き換えます。使用する値は、前の例で設定した値と同じです。connect --path
s3://amzn-s3-demo-bucket/myhudidataset
以下の例に示すように、コマンドプロンプトが変わって、接続されているデータセットが表示されます。
hudi:
myhudidataset
->
デフォルトでは、Amazon EMR リリース 7.3.0 から 7.8.0 のhudi-cli.sh
スクリプトは を使用しますhudi-cli-bundle.jar
。問題が発生した場合は、次のコマンドを使用して、従来の Hudi CLI に切り替えることができます。
/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false
このコマンドは hudi-cli.sh
スクリプトを実行し、--cliBundle
フラグを設定し、バンドルされた JAR の代わりに個々の JAR ファイルを使用するように CLI に指示します。デフォルトでは、--cliBundle
は true に設定されています。つまり、CLI は代わりにバンドルされた JAR を使用します。
Amazon EMR 7.9.0 以降のリリースの使用
注記
hudi-cli.sh スクリプトは、EMR リリース 7.9.0 以降で廃止されました。Amazon EMR リリース 7.9.0 以降では、hudi-cli-bundle.jar を使用しています。
Hudi CLI を起動してデータセットに接続するには:
-
SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。
-
コマンドラインで、/usr/lib/hudi/cli-bundle/bin/hudi-cli-with-bundle.sh と入力するか、hudi-cli-with-bundle または >hudi-cli と入力します。
コマンドプロンプトが hudi- > に変わります。
-
データセットに接続するには、以下のコマンドを使用します。s3://amzn-s3-demo-bucket/myhudidataset は、処理するデータセットへのパスに置き換えます。使用する値は、前の例で設定した値と同じです。
connect --path s3://amzn-s3-demo-bucket/myhudidataset
-
以下の例に示すように、コマンドプロンプトが変わって、接続されているデータセットが表示されます。
hudi:myhudidataset->