Menemukan daftar inventaris - Amazon Simple Storage Service

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menemukan daftar inventaris

Saat daftar inventaris diterbitkan, file manifes akan diterbitkan ke lokasi berikut di dalam bucket tujuan.

destination-prefix/amzn-s3-demo-source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.json destination-prefix/amzn-s3-demo-source-bucket/config-ID/YYYY-MM-DDTHH-MMZ/manifest.checksum destination-prefix/amzn-s3-demo-source-bucket/config-ID/hive/dt=YYYY-MM-DD-HH-MM/symlink.txt
  • destination-prefix adalah awalan nama kunci objek yang ditentukan secara opsional didalam konfigurasi inventaris. Gunakan awalan ini untuk mengelompokkan semua file daftar inventaris di lokasi yang sama di dalam bucket tujuan.

  • amzn-s3-demo-source-bucket adalah bucket sumber yang digunakan untuk daftar inventaris. Nama bucket sumber ditambahkan untuk mencegah benturan saat beberapa laporan inventaris dari bucket sumber yang berbeda dikirimkan ke bucket tujuan yang sama.

  • config-ID ditambahkan untuk mencegah benturan dengan beberapa laporan inventaris dari bucket sumber yang sama yang dikirim ke bucket tujuan yang sama. config-ID berasal dari konfigurasi laporan inventaris, dan merupakan nama untuk laporan yang ditentukan selama pengaturan.

  • YYYY-MM-DDTHH-MMZ adalah stempel waktu yang berisi waktu mulai dan tanggal saat proses pembuatan laporan inventaris memulai pemindaian bucket; misalnya, 2016-11-06T21-32Z.

  • manifest.json adalah file manifes.

  • manifest.checksumadalah MD5 hash dari isi manifest.json file.

  • symlink.txt adalah file manifes yang kompatibel dengan Apache Hive.

Daftar inventaris diterbitkan setiap hari atau setiap minggu ke lokasi berikut di dalam bucket tujuan.

destination-prefix/amzn-s3-demo-source-bucket/config-ID/data/example-file-name.csv.gz ... destination-prefix/amzn-s3-demo-source-bucket/config-ID/data/example-file-name-1.csv.gz
  • destination-prefix adalah awalan nama kunci objek yang ditentukan secara opsional di dalam konfigurasi inventaris. Gunakan awalan ini untuk mengelompokkan semua file daftar inventaris di lokasi yang sama di dalam bucket tujuan.

  • amzn-s3-demo-source-bucket adalah bucket sumber yang digunakan untuk daftar inventaris. Nama bucket sumber ditambahkan untuk mencegah benturan saat beberapa laporan inventaris dari bucket sumber yang berbeda dikirimkan ke bucket tujuan yang sama.

  • example-file-name.csv.gz adalah salah satu file inventaris CSV. Nama inventaris ORC diakhiri dengan ekstensi nama file .orc, dan nama inventaris Parquet diakhiri dengan ekstensi nama file .parquet.

Manifes inventaris

File manifes manifest.json dan symlink.txt menjelaskan lokasi tempat file inventaris berada. Setiap kali ada daftar inventaris baru yang dikirimkan, daftar tersebut akan disertai dengan serangkaian file manifes baru. File-file ini mungkin akan saling menimpa. Di bucket dengan Penentuan Versi yang diaktifkan, Amazon S3 akan membuat versi baru dari file manifes tersebut.

Setiap manifes yang terdapat di dalam file manifest.json menyediakan metadata dan informasi dasar lainnya tentang inventaris. Informasi ini mencakup hal-hal berikut:

  • Nama bucket sumber

  • Nama bucket tujuan

  • Versi inventaris

  • Pembuatan stempel waktu dengan format tanggal epoch yang terdiri dari waktu mulai dan tanggal saat proses pembuatan laporan inventaris memulai pemindaian bucket

  • Format dan skema file inventaris

  • Daftar file inventaris yang berada di dalam bucket tujuan

Setiap kali manifest.json file ditulis, itu disertai dengan manifest.checksum file yang merupakan MD5 hash dari konten manifest.json file.

contoh Manifes inventaris di dalam file manifest.json

Contoh berikut menunjukkan manifes inventaris di dalam file manifest.json untuk CSV, ORC, dan inventaris yang diformat Parquet.

CSV

Berikut ini adalah contoh manifes di dalam file manifest.json untuk inventaris yang diformat CSV.

{ "sourceBucket": "amzn-s3-demo-source-bucket", "destinationBucket": "arn:aws:s3:::example-inventory-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "CSV", "fileSchema": "Bucket, Key, VersionId, IsLatest, IsDeleteMarker, Size, LastModifiedDate, ETag, StorageClass, IsMultipartUploaded, ReplicationStatus, EncryptionStatus, ObjectLockRetainUntilDate, ObjectLockMode, ObjectLockLegalHoldStatus, IntelligentTieringAccessTier, BucketKeyStatus, ChecksumAlgorithm, ObjectAccessControlList, ObjectOwner", "files": [ { "key": "Inventory/amzn-s3-demo-source-bucket/2016-11-06T21-32Z/files/939c6d46-85a9-4ba8-87bd-9db705a579ce.csv.gz", "size": 2147483647, "MD5checksum": "f11166069f1990abeb9c97ace9cdfabc" } ] }
ORC

Berikut ini adalah contoh manifes di dalam file manifest.json untuk inventaris yang diformat ORC.

{ "sourceBucket": "amzn-s3-demo-source-bucket", "destinationBucket": "arn:aws:s3:::example-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "ORC", "fileSchema": "struct<bucket:string,key:string,version_id:string,is_latest:boolean,is_delete_marker:boolean,size:bigint,last_modified_date:timestamp,e_tag:string,storage_class:string,is_multipart_uploaded:boolean,replication_status:string,encryption_status:string,object_lock_retain_until_date:timestamp,object_lock_mode:string,object_lock_legal_hold_status:string,intelligent_tiering_access_tier:string,bucket_key_status:string,checksum_algorithm:string,object_access_control_list:string,object_owner:string>", "files": [ { "key": "inventory/amzn-s3-demo-source-bucket/data/d794c570-95bb-4271-9128-26023c8b4900.orc", "size": 56291, "MD5checksum": "5925f4e78e1695c2d020b9f6eexample" } ] }
Parquet

Berikut ini adalah contoh manifes di dalam file manifest.json untuk inventaris yang diformat Parquet.

{ "sourceBucket": "amzn-s3-demo-source-bucket", "destinationBucket": "arn:aws:s3:::example-destination-bucket", "version": "2016-11-30", "creationTimestamp" : "1514944800000", "fileFormat": "Parquet", "fileSchema": "message s3.inventory { required binary bucket (UTF8); required binary key (UTF8); optional binary version_id (UTF8); optional boolean is_latest; optional boolean is_delete_marker; optional int64 size; optional int64 last_modified_date (TIMESTAMP_MILLIS); optional binary e_tag (UTF8); optional binary storage_class (UTF8); optional boolean is_multipart_uploaded; optional binary replication_status (UTF8); optional binary encryption_status (UTF8); optional int64 object_lock_retain_until_date (TIMESTAMP_MILLIS); optional binary object_lock_mode (UTF8); optional binary object_lock_legal_hold_status (UTF8); optional binary intelligent_tiering_access_tier (UTF8); optional binary bucket_key_status (UTF8); optional binary checksum_algorithm (UTF8); optional binary object_access_control_list (UTF8); optional binary object_owner (UTF8);}", "files": [ { "key": "inventory/amzn-s3-demo-source-bucket/data/d754c470-85bb-4255-9218-47023c8b4910.parquet", "size": 56291, "MD5checksum": "5825f2e18e1695c2d030b9f6eexample" } ] }

File symlink.txt adalah file manifes yang kompatibel dengan Apache Hive dan memungkinkan Hive untuk menemukan file inventaris dan file data terkait secara otomatis. Manifes yang kompatibel dengan Hive dapat berfungsi untuk layanan yang kompatibel dengan Hive Athena dan Amazon Redshift Spectrum. File ini juga berfungsi di aplikasi yang kompatibel dengan Hive, termasuk Presto, Apache Hive, Apache Spark, dan banyak lainnya.

penting

Saat ini, file manifes symlink.txt yang kompatibel dengan Apache Hive tidak berfungsi dengan AWS Glue.

Pembacaan file symlink.txt dengan Apache Hive dan Apache Spark tidak didukung untuk ORC dan file inventaris yang diformat dengan Parquet.