FileUniqueness - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

FileUniqueness

FileUniqueness consente di garantire che non vi siano file duplicati nei dati ricevuti dai produttori di dati.

Raccoglie le seguenti statistiche sui dati:

  1. Numero di file sottoposti a scansione dalla regola

  2. Il livello di unicità dei file

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Trovare file duplicati in una cartella:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Inferire i nomi delle cartelle direttamente dai data frame per rilevare i duplicati:

Non è sempre necessario fornire un percorso del file. Ad esempio, quando si crea una regola in AWS Glue Data Catalog, potrebbe essere difficile individuare le cartelle usate dalle tabelle del catalogo. AWS Qualità dei dati di Glue può trovare le cartelle o i file specifici usati per popolare il frame di dati.

Nota

Quando si usa l'inferenza, le regole basate sui file possono rilevare solo i file letti correttamente nel DynamicFrame o nel DataFrame.

FileUniqueness > 0.5

Tag delle regole opzionali basati su file:

I tag permettono di controllare il comportamento delle regole.

recentFiles

Questo tag limita il numero di file elaborati mantenendo il file più recente per primo.

FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1

matchFileName

Questo tag garantisce che i file non abbiano nomi duplicati. Il comportamento predefinito è false.

FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"

Occorre tenere presente alcuni aspetti:

  1. In AWS Glue ETL, è necessario che la trasformazione EvaluateDataQuality sia immediatamente successiva a una trasformazione Amazon S3 o AWS Glue Data Catalog.

  2. Questa regola non funziona nelle sessioni interattive di AWS Glue.