

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# FileSize
<a name="dqdl-rule-types-FileSize"></a>

 Mit dem FileSize Regeltyp können Sie sicherstellen, dass Dateien bestimmte Dateigrößenkriterien erfüllen. Dies ist für folgende Anwendungsfälle nützlich: 

1.  Stellen Sie sicher, dass Produzenten keine leeren oder wesentlich kleineren Dateien zur Verarbeitung senden. 

1.  Stellen Sie sicher, dass Ihre Ziel-Buckets keine kleineren Dateien enthalten, was zu Leistungseinbußen führen kann. 

 FileSize sammelt die folgenden Messwerte: 

1.  Compliance: Gibt den Prozentsatz der Dateien zurück, die den von Ihnen festgelegten Regelschwellenwert erfüllen 

1.  Dateianzahl: Die Anzahl der Dateien, die von der Regel gescannt wurden 

1.  Minimale Dateigröße in Bytes 

1.  Maximale Datengröße in Bytes 

```
Dataset.*.FileSize.Compliance: 1, Dataset.*.FileCount: 8, Dataset.*.MaximumFileSize: 327413121, Dataset.*.MinimumFileSize: 204558920
```

 Die Erkennung von Anomalien wird für diese Metriken nicht unterstützt. 

 **Überprüfen der Größe von Dateien** 

 Diese Regel wird erfüllt, wenn file.dat größer als 2 MB ist. 

```
FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB
```

 Zu den unterstützten Einheiten gehören B (Byte), KB (Kilobyte), MB (Megabyte), GB (Gigabyte) und TB (Terabyte). 

 **Überprüfen der Größe von Dateien in Ordnern** 

```
FileSize "s3://bucket/" > 5 B
FileSize "s3://bucket/" < 2 GB
```

 Diese Regel wird erfüllt, wenn 70 % der Dateien in s3://amzn-s3-demo-bucket zwischen 2 GB und 1 TB groß sind. 

```
FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7
```

 **Ableiten von Dateinamen direkt aus Datenrahmen** 

 Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im Datenkatalog erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen Ihres Datenrahmens verwendet werden. 

**Anmerkung**  
 Diese Funktion funktioniert nur, wenn Dateien erfolgreich in das DynamicFrame oder DataFrame eingelesen wurden. 

```
FileSize < 10 MB with threshold > 0.7
```

 **Optionale dateibasierte Regel-Tags:** 

 Mithilfe von Tags können Sie das Verhalten der Regel steuern. 

 **recentFiles** 

 Dieses Tag begrenzt die Anzahl der verarbeiteten Dateien, indem die neueste Datei zuerst angezeigt wird. 

```
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1
```

 **uriRegex** 

**Anmerkung**  
 Das `uriRegex` Tag ist in AWS Glue 5.0 und höher verfügbar. 

 Dieses Tag filtert Dateien, indem es ein Regex-Muster auf den Dateipfad anwendet. Es werden nur Dateien verarbeitet, deren Pfade dem Muster entsprechen. Sie können auch einen negativen Lookahead verwenden, um Dateien auszuschließen, die einem Muster entsprechen. 

```
# Match only files with a .dat extension
FileSize "s3://bucket/" > 5 B with uriRegex = "\.dat$"
# Exclude files ending in .tmp using a negative lookahead
FileSize "s3://bucket/" > 5 B with uriRegex = "(?!.*\.tmp$).*"
```

 **Reihenfolge filtern** 

**Anmerkung**  
 Das `filterOrder` Tag ist in AWS Glue 5.0 und höher verfügbar. 

 Wenn Sie mehrere Filter-Tags wie `recentFiles` und `uriRegex` zusammen verwenden, steuert das `filterOrder` Tag die Reihenfolge, in der sie angewendet werden. Die Standardreihenfolge ist `recentFiles` zuerst, dann`uriRegex`. 

```
FileSize "s3://bucket/" > 5 B with recentFiles = 5 with uriRegex = "\.dat$" with filterOrder = ["uriRegex","recentFiles"]
```

 **FailFast** 

 Wenn diese Option auf gesetzt ist`"true"`, gibt die Regel sofort bei der ersten Datei, die die Größenbedingung nicht erfüllt, einen Fehler zurück, anstatt alle Dateien auszuwerten und ein Kompatibilitätsverhältnis zu berechnen. 

```
FileSize "s3://bucket/" > 2 MB with failFast = "true"
```

 Es gibt ein paar Überlegungen: 

1.  In AWS Glue ETL muss Evaluate DataQuality Transform unmittelbar nach der Amazon S3- oder Data Catalog-Transformation installiert sein. 

1.  Diese Regel funktioniert nicht in AWS Glue Interactive Sessions. 