FileSize - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

FileSize

Le FileSize type de règle vous permet de vous assurer que les fichiers répondent à certains critères de taille de fichier. Cela s’avère utile dans les cas d’utilisation suivants :

  1. Assurez-vous que les producteurs n’envoient pas de fichiers vides ou nettement plus petits en traitement.

  2. Assurez-vous que vos compartiments cible ne contiennent pas de fichiers plus petits, ce qui pourrait entraîner des problèmes de performances.

FileSize rassemble les métriques suivantes :

  1. Compliance : renvoie le pourcentage de fichiers qui atteignent le seuil de règle que vous avez établi

  2. File Count : nombre de fichiers analysés par la règle

  3. Taille minimale du fichier en octets

  4. Taille maximale du fichier en octets

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

La détection des anomalies n’est pas prise en charge pour ces métriques.

Valider la taille des fichiers

Cette règle est acceptée lorsque l’élément file.dat est supérieur à 2 Mo.

FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB

Les unités prises en charge sont les suivantes : o (octets), Mo (mégaoctets), Go (gigaoctets) et To (téraoctets).

Valider la taille des fichiers dans les dossiers

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

Cette règle sera acceptée si 70 % des fichiers dans s3://amzn-s3-demo-bucket ont une taille comprise entre 2 Go et 1 To.

FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7

Déduction des noms de fichiers directement à partir de trames de données

Il n’est pas toujours nécessaire de fournir un chemin d’accès au fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données, il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre bloc de données.

Note

Cette fonctionnalité ne fonctionne que lorsque les fichiers sont correctement lus dans le DynamicFrame ou DataFrame.

FileSize < 10 MB with threshold > 0.7

Balises de règles facultatives basées sur des fichiers :

Les balises vous permettent de contrôler le comportement des règles.

recentFiles

Cette balise limite le nombre de fichiers traités en conservant le fichier le plus récent en premier.

FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1

URI Regex

Note

Le uriRegex tag est disponible dans AWS Glue 5.0 et versions ultérieures.

Cette balise filtre les fichiers en appliquant un modèle regex au chemin du fichier. Seuls les fichiers dont le chemin correspond au modèle sont traités. Vous pouvez également utiliser une prévision négative pour exclure les fichiers qui correspondent à un modèle.

# Match only files with a .dat extension FileSize "s3://bucket/" > 5 B with uriRegex = "\.dat$" # Exclude files ending in .tmp using a negative lookahead FileSize "s3://bucket/" > 5 B with uriRegex = "(?!.*\.tmp$).*"

Ordre du filtre

Note

Le filterOrder tag est disponible dans AWS Glue 5.0 et versions ultérieures.

Lorsque vous utilisez plusieurs balises de filtre telles que recentFiles et uriRegex ensemble, la filterOrder balise contrôle l'ordre dans lequel elles sont appliquées. L'ordre par défaut est recentFiles le premier, puisuriRegex.

FileSize "s3://bucket/" > 5 B with recentFiles = 5 with uriRegex = "\.dat$" with filterOrder = ["uriRegex","recentFiles"]

FailFast

Lorsqu'elle est définie sur"true", la règle renvoie l'échec immédiatement au premier fichier qui ne répond pas à la condition de taille, au lieu d'évaluer tous les fichiers et de calculer un ratio de conformité.

FileSize "s3://bucket/" > 2 MB with failFast = "true"

Voici quelques considérations à prendre en compte :

  1. Dans AWS Glue ETL, vous devez disposer d' DataQuality Evaluate Transform immédiatement après la transformation d'Amazon S3 ou de Data Catalog.

  2. Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.