Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
FileUniqueness
Mit FileUniqueness können Sie sicherstellen, dass die Daten, die Sie von Ihren Datenproduzenten erhalten haben, keine doppelten Dateien enthalten.
Folgende Datenstatistiken werden erfasst:
-
Die Anzahl der Dateien, die von der Regel gescannt wurden
-
Das Eindeutigkeitsverhältnis der Dateien
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00
Doppelte Dateien in einem Ordner finden:
FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1
Ordnernamen direkt von Datenrahmen ableiten, um Duplikate zu erkennen:
Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im AWS-Datenkatalog erstellen, ist es möglicherweise schwierig, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen des Datenrahmens verwendet werden.
Anmerkung
Bei Verwendung von Inferenz können dateibasierte Regeln nur Dateien erkennen, die erfolgreich in den DynamicFrame oder DataFrame gelesen wurden.
FileUniqueness > 0.5
Optionale dateibasierte Regel-Tags:
Mithilfe von Tags können Sie das Verhalten der Regel steuern.
recentFiles
Dieses Tag begrenzt die Anzahl der verarbeiteten Dateien, indem es die neueste Datei an erster Stelle behält.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1
matchFileName
Dieses Tag stellt sicher, dass Dateien keine doppelten Namen aufweisen. Das Standardverhalten lautet „false“.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"
Es gibt ein paar Überlegungen:
-
In AWS Glue ETL muss die EvaluateDataQuality-Transformation unmittelbar nach einer Amazon-S3- oder AWS-Glue-Datenkatalog-Transformation kommen.
-
Diese Regel funktioniert nicht in interaktiven AWS-Glue-Sitzungen.