Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
FileSize
FileSize RuleType memungkinkan Anda untuk memastikan bahwa file memenuhi kriteria ukuran file tertentu. Ini berguna untuk kasus penggunaan berikut:
-
Pastikan produsen tidak mengirim file kosong atau jauh lebih kecil untuk diproses.
-
Pastikan bucket target Anda tidak memiliki file yang lebih kecil yang dapat menyebabkan masalah kinerja.
FileSize mengumpulkan metrik berikut:
-
Kepatuhan: mengembalikan% file yang memenuhi ambang batas aturan yang telah Anda buat
-
Jumlah File: jumlah file yang dipindai oleh aturan
-
Ukuran file minimum dalam byte
-
Ukuran file maksimum dalam byte
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
Deteksi anomali tidak didukung untuk metrik ini.
Validasi ukuran file
Aturan ini akan berlalu ketika file.dat lebih besar dari 2 MB.
FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB
Unites yang didukung termasuk B (byte), MB (mega byte), GB (giga byte) dan TB (terra byte).
Validasi ukuran file dalam folder
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
Aturan ini akan berlalu jika 70% file di s3://amzn-s3-demo-bucket adalah antara 2 GB dan 1 TB.
FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7
Menyimpulkan nama file langsung dari bingkai data
Anda tidak selalu harus menyediakan jalur file. Misalnya, ketika Anda menulis aturan di Katalog Data, mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi bingkai data Anda.
catatan
Fitur ini hanya akan berfungsi ketika file berhasil dibaca ke dalam DynamicFrame atau DataFrame.
FileSize < 10 MB with threshold > 0.7
Tag Aturan Berbasis File Opsional:
Tag memungkinkan Anda mengontrol perilaku aturan.
RecentFiles
Tag ini membatasi jumlah file yang diproses dengan menyimpan file terbaru terlebih dahulu.
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1
UriRegex
catatan
uriRegexTag tersedia di AWS Glue 5.0 dan yang lebih baru.
Tag ini memfilter file dengan menerapkan pola regex ke jalur file. Hanya file yang jalurnya cocok dengan pola yang diproses. Anda juga dapat menggunakan lookahead negatif untuk mengecualikan file yang cocok dengan pola.
# Match only files with a .dat extension FileSize "s3://bucket/" > 5 B with uriRegex = "\.dat$" # Exclude files ending in .tmp using a negative lookahead FileSize "s3://bucket/" > 5 B with uriRegex = "(?!.*\.tmp$).*"
FilterOrder
catatan
filterOrderTag tersedia di AWS Glue 5.0 dan yang lebih baru.
Bila Anda menggunakan beberapa tag filter seperti recentFiles dan uriRegex bersama-sama, filterOrder tag mengontrol urutan penerapannya. Urutan default adalah yang recentFiles pertama, laluuriRegex.
FileSize "s3://bucket/" > 5 B with recentFiles = 5 with uriRegex = "\.dat$" with filterOrder = ["uriRegex","recentFiles"]
FailFast
Saat disetel ke"true", aturan segera mengembalikan kegagalan pada file pertama yang gagal dalam kondisi ukuran, alih-alih mengevaluasi semua file dan menghitung rasio kepatuhan.
FileSize "s3://bucket/" > 2 MB with failFast = "true"
Ada beberapa pertimbangan:
-
Di AWS Glue ETL, Anda harus memiliki DataQuality Evaluate Transform segera setelah Amazon S3 atau Data Catalog berubah.
-
Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions.