Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
FileSize
Mit dem FileSize-Regeltyp können Sie sicherstellen, dass Dateien bestimmte Dateigrößenkriterien erfüllen. Dies ist für folgende Anwendungsfälle nützlich:
-
Stellen Sie sicher, dass Produzenten keine leeren oder wesentlich kleineren Dateien zur Verarbeitung senden.
-
Stellen Sie sicher, dass Ihre Ziel-Buckets keine kleineren Dateien enthalten, was zu Leistungseinbußen führen kann.
FileSize erfasst folgende Metriken:
-
Compliance: Gibt den Prozentsatz der Dateien zurück, die den von Ihnen festgelegten Regelschwellenwert erfüllen
-
Dateianzahl: Die Anzahl der Dateien, die von der Regel gescannt wurden
-
Minimale Dateigröße in Bytes
-
Maximale Datengröße in Bytes
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
Die Erkennung von Anomalien wird für diese Metriken nicht unterstützt.
Überprüfen der Größe von Dateien
Diese Regel wird erfüllt, wenn file.dat größer als 2 MB ist.
FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB
Zu den unterstützten Einheiten gehören B (Byte), MB (Megabytes), GB (Gigabytes) und TB (Terabyte).
Überprüfen der Größe von Dateien in Ordnern
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
Diese Regel wird erfüllt, wenn 70 % der Dateien in s3://amzn-s3-demo-bucket zwischen 2 GB und 1 TB groß sind.
FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7
Direktes Ableiten von Dateinamen aus Datenrahmen
Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im Datenkatalog erstellen, ist es möglicherweise schwierig, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen des Datenrahmens verwendet werden.
Anmerkung
Dieses Feature funktioniert nur, wenn Dateien erfolgreich in den DynamicFrame oder DataFrame eingelesen wurden.
FileSize < 10 MB with threshold > 0.7
Optionale dateibasierte Regel-Tags:
Mithilfe von Tags können Sie das Verhalten der Regel steuern.
recentFiles
Dieses Tag begrenzt die Anzahl der verarbeiteten Dateien, indem die neueste Datei zuerst angezeigt wird.
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1
matchFileName
Dieses Tag stellt sicher, dass Dateien keine doppelten Namen aufweisen. Das Standardverhalten lautet „false“.
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with matchFileName = "true"
Es gibt ein paar Überlegungen:
-
In AWS Glue ETL muss die EvaluateDataQuality-Transformation unmittelbar nach der Amazon-S3- oder Data-Catalog-Transformation kommen.
-
Diese Regel funktioniert nicht in interaktiven AWS-Glue-Sitzungen.