Specificare la posizione della tabella e il livello di partizionamento - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Specificare la posizione della tabella e il livello di partizionamento

Per impostazione predefinita, quando un crawler definisce tabelle per i dati archiviati in Amazon S3, il crawler tenta di unire gli schemi e creare tabelle di primo livello (year=2019). In alcuni casi, è possibile che, invece di creare una tabella per la cartella month=Jan come previsto, il crawler crei una partizione poiché una cartella di pari livello (month=Mar) è stata unita alla stessa tabella.

L'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come si desidera creare le partizioni. Quando si specifica un Table level (Livello della tabella), la tabella viene creata a quel livello assoluto dal bucket Amazon S3.

Raggruppamento crawler con livello di tabella specificato come livello 2.

Quando si configura il crawler nella console, è possibile specificare un valore per l'opzione crawler Table level (Livello della tabella). Il valore deve essere un numero intero positivo che indica la posizione della tabella (il livello assoluto nel set di dati). Il livello per la cartella di livello superiore è 1. Ad esempio, per il percorso mydataset/year/month/day/hour, se il livello è impostato su 3, la tabella viene creata nella posizione mydataset/year/month.

Console di gestione AWS
  1. Accedi alla Console di gestione AWS, quindi apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/.

  2. Seleziona Crawler nel Catalogo dati.

  3. Quando configuri un crawler, in Output e pianificazione, vai su Opzioni avanzate e seleziona Livello di tabella.

Specifica di un livello di tabella nella configurazione del crawler.
AWS CLI

Quando configuri il crawler usando AWS CLI, imposta il parametro configuration come mostrato nel codice di esempio:

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "Grouping": { "TableLevelConfiguration": 2 }}'
API

Quando configuri il crawler usando l'API, imposta il campo Configuration con una rappresentazione stringa del seguente oggetto JSON; per esempio:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

In questo esempio, è possibile impostare l'opzione Table level (Livello di tabella) disponibile nella console all'interno del modello CloudFormation:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"