Usar a CLI do Hudi - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar a CLI do Hudi

É possível usar a CLI do Hudi para administrar conjuntos de dados do Hudi para visuaalizar informações sobre confirmações, o sistema de arquivos, estatísticas e muito mais. Você também pode usar a CLI para executar manualmente compactações, programá-las ou cancelar as compactações programadas. Para obter mais informações, consulte Interacting via CLI na documentação do Apache Hudi.

Iniciar a CLI do Hudi e conectar-se a um conjunto de dados
  1. Conecte-se ao nó principal usando SSH. Para obter mais informações, consulte Conectar-se ao nó principal usando SSH no Guia de gerenciamento do Amazon EMR.

  2. Na linha de comando, digite /usr/lib/hudi/cli/bin/hudi-cli.sh.

    O prompt de comando muda para hudi->.

  3. Use o comando a seguir para se conectar a um conjunto de dados. s3://amzn-s3-demo-bucket/myhudidatasetSubstitua pelo caminho para o conjunto de dados com o qual você deseja trabalhar. O valor que usamos é o mesmo estabelecido em exemplos anteriores.

    connect --path s3://amzn-s3-demo-bucket/myhudidataset

    O prompt de comando é alterado para incluir o conjunto de dados ao qual você está conectado, conforme mostrado no exemplo a seguir.

    hudi:myhudidataset->

Por padrão, o hudi-cli.sh script na versão 7.3.0 a 7.8.0 do Amazon EMR usa. hudi-cli-bundle.jar Caso tenha problemas, é possível voltar para a CLI clássica do Hudi com o seguinte comando:

/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false

Esse comando executa o script hudi-cli.sh, define o sinalizador --cliBundle e instrui a CLI a usar os arquivos JAR individuais em vez do JAR empacotado. Por padrão, o --cliBundle é definido como verdadeiro, o que significa que a CLI usa o JAR empacotado.

Usando o Amazon EMR 7.9.0 e versões posteriores

nota

O script hudi-cli.sh foi descontinuado na versão 7.9.0 e superior do EMR. A versão 7.9.0 e superior do Amazon EMR usa .jar. hudi-cli-bundle

Iniciar a CLI do Hudi e conectar-se a um conjunto de dados:

  1. Conecte-se ao nó principal usando SSH. Para obter mais informações, consulte Conectar-se ao nó principal usando SSH no Guia de gerenciamento do Amazon EMR.

  2. Na linha de comando, digite/usr/lib/hudi/cli-bundle/bin/hudi- cli-with-bundle .sh ou simplesmente digite hudi-cli-with-bundleou >hudi-cli.

    O prompt de comando muda para hudi- >.

  3. Use o comando a seguir para se conectar a um conjunto de dados. Substitua s3://amzn-s3-demo-bucket/myhudidataset pelo caminho para o conjunto de dados com o qual você deseja trabalhar. O valor que usamos é o mesmo estabelecido em exemplos anteriores.

    connect --path s3://amzn-s3-demo-bucket/myhudidataset
  4. O prompt de comando é alterado para incluir o conjunto de dados ao qual você está conectado, conforme mostrado no exemplo a seguir.

    hudi:myhudidataset->