Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FileUniqueness
L’unicité des fichiers vous permet de vous assurer qu’il n’y a pas de doublons dans les données que vous avez reçues de vos producteurs de données.
Elle rassemble les statistiques de données suivantes :
-
Nombre de fichiers analysés par la règle.
-
Le taux d’unicité des fichiers
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00
Rechercher des fichiers en double dans un dossier :
FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1
Déduire les noms de dossiers directement à partir des trames de données pour détecter les doublons :
Il n’est pas toujours nécessaire de fournir un chemin d’accès au fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données AWS Glue, il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre bloc de données.
Note
Lors de l'utilisation de l'inférence, les règles basées sur les fichiers peuvent uniquement détecter les fichiers lus avec succès dans le DynamicFrame ou. DataFrame
FileUniqueness > 0.5
Balises de règles facultatives basées sur des fichiers :
Les balises vous permettent de contrôler le comportement des règles.
recentFiles
Cette balise limite le nombre de fichiers traités en conservant le fichier le plus récent en premier.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1
URI Regex
Note
Le uriRegex tag est disponible dans AWS Glue 5.0 et versions ultérieures.
Cette balise filtre les fichiers en appliquant un modèle regex au chemin du fichier. Seuls les fichiers dont le chemin correspond au modèle sont traités. Vous pouvez également utiliser une prévision négative pour exclure les fichiers qui correspondent à un modèle.
# Match only files with a .csv extension FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "\.csv$" # Exclude files ending in .tmp using a negative lookahead FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "(?!.*\.tmp$).*"
Ordre du filtre
Note
Le filterOrder tag est disponible dans AWS Glue 5.0 et versions ultérieures.
Lorsque vous utilisez plusieurs balises de filtre, telles que recentFiles et uriRegex ensemble, la filterOrder balise contrôle l'ordre dans lequel elles sont appliquées. L'ordre par défaut est recentFiles le premier, puisuriRegex.
FileUniqueness "s3://bucket/" > 0.5 with recentFiles = 5 with uriRegex = "\.csv$" with filterOrder = ["uriRegex","recentFiles"]
matchFileName
Cette balise garantit que les fichiers ne comportent pas de noms en double. Le comportement par défaut est false.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"
Voici quelques considérations à prendre en compte :
-
Dans AWS Glue ETL, vous devez disposer de la EvaluateDataQualitytransformation immédiatement après une transformation d'Amazon S3 ou de AWS Glue Data Catalog.
-
Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.