FileSize - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

FileSize

Il tipo di regola FileSize permette di garantire che i file soddisfino determinati criteri relativi alle dimensioni. Ciò è utile nei seguenti casi d'uso:

  1. Assicurarsi che i produttori non inviino file vuoti o di dimensioni notevolmente inferiori per l'elaborazione.

  2. Assicurarsi che i bucket di destinazione non contengano file di dimensioni ridotte che potrebbero causare problemi di prestazioni.

FileSize raccoglie le seguenti metriche:

  1. Conformità: restituisce la percentuale di file che soddisfano la soglia della regola stabilita

  2. Numero di file: numero dei file sottoposti a scansione dalla regola

  3. Dimensione minima dei file in byte

  4. Dimensione massima dei file in byte

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

Il rilevamento delle anomalie non è supportato per queste metriche.

Convalidare la dimensione dei file

Questa regola viene applicata quando file.dat è superiore a 2 MB.

FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB

Le unità supportate includono B (byte), MB (megabyte), GB (giga byte) e TB (terra byte).

Convalidare la dimensione dei file nelle cartelle

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

Questa regola viene applicata se il 70% dei file in s3://amzn-s3-demo-bucket ha dimensioni comprese tra 2 GB e 1 TB.

FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7

Dedurre i nomi dei file direttamente dai data frame

Non è sempre necessario fornire un percorso del file. Ad esempio, quando si crea una regola in Data Catalog, potrebbe essere difficile individuare le cartelle usate dalle tabelle del catalogo. AWS Qualità dei dati di Glue può trovare le cartelle o i file specifici usati per popolare il frame di dati.

Nota

Questa funzionalità funziona solo quando i file vengono letti correttamente nel DynamicFrame o nel DataFrame.

FileSize < 10 MB with threshold > 0.7

Tag delle regole opzionali basati su file:

I tag permettono di controllare il comportamento delle regole.

recentFiles

Questo tag limita il numero di file elaborati mantenendo il file più recente per primo.

FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1

matchFileName

Questo tag garantisce che i file non abbiano nomi duplicati. Il comportamento predefinito è false.

FileSize "s3://amzn-s3-demo-bucket/" > 5 B with matchFileName = "true"

Occorre tenere presente alcuni aspetti:

  1. In AWS Glue ETL, è necessario che la trasformazione Evaluate DataQuality sia immediatamente successiva alla trasformazione Amazon S3 o Data Catalog.

  2. Questa regola non funziona nelle sessioni interattive di AWS Glue.