

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# FileUniqueness
<a name="dqdl-rule-types-FileUniqueness"></a>

 Keunikan File memungkinkan Anda untuk memastikan bahwa tidak ada file duplikat dalam data yang Anda terima dari produsen data Anda. 

 Ini mengumpulkan statistik data berikut: 

1.  Jumlah file yang dipindai oleh aturan 

1.  Rasio Keunikan file 

```
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8
```

 **Temukan file duplikat dalam folder:** 

```
FileUniqueness "s3://bucket/" > 0.5
FileUniqueness "s3://bucket/folder/" = 1
```

 **Menyimpulkan nama folder langsung dari bingkai data untuk mendeteksi duplikat:** 

 Anda tidak selalu harus menyediakan jalur file. Misalnya, ketika Anda menulis aturan di Katalog Data AWS Glue, mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi bingkai data Anda. 

**catatan**  
 Saat menggunakan inferensi, aturan berbasis file hanya dapat mendeteksi file yang berhasil dibaca ke dalam atau. DynamicFrame DataFrame 

```
FileUniqueness > 0.5
```

 **Tag Aturan Berbasis File Opsional:** 

 Tag memungkinkan Anda untuk mengontrol perilaku aturan. 

 **RecentFiles** 

 Tag ini membatasi jumlah file yang diproses dengan menyimpan file terbaru terlebih dahulu. 

```
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1
```

 **UriRegex** 

**catatan**  
 `uriRegex`Tag tersedia di AWS Glue 5.0 dan yang lebih baru. 

 Tag ini memfilter file dengan menerapkan pola regex ke jalur file. Hanya file yang jalurnya cocok dengan pola yang diproses. Anda juga dapat menggunakan lookahead negatif untuk mengecualikan file yang cocok dengan pola. 

```
# Match only files with a .csv extension
FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "\.csv$"
# Exclude files ending in .tmp using a negative lookahead
FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "(?!.*\.tmp$).*"
```

 **FilterOrder** 

**catatan**  
 `filterOrder`Tag tersedia di AWS Glue 5.0 dan yang lebih baru. 

 Bila Anda menggunakan beberapa tag filter seperti `recentFiles` dan `uriRegex` bersama-sama, `filterOrder` tag mengontrol urutan penerapannya. Urutan default adalah yang `recentFiles` pertama, lalu`uriRegex`. 

```
FileUniqueness "s3://bucket/" > 0.5 with recentFiles = 5 with uriRegex = "\.csv$" with filterOrder = ["uriRegex","recentFiles"]
```

 **matchFileName** 

 Tag ini memastikan bahwa file tidak memiliki nama duplikat. Perilaku default adalah false. 

```
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"
```

 Ada beberapa pertimbangan: 

1.  Di AWS Glue ETL, Anda harus memiliki **EvaluateDataQuality**Transform segera setelah transformasi Amazon S3 atau AWS Glue Data Catalog. 

1.  Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions. 