Localização de lista de inventário
Quando uma lista de inventários é publicada, os arquivos manifestos são publicados no seguinte local no bucket de destino.
destination-prefix//amzn-s3-demo-source-bucketconfig-ID/YYYY-MM-DDTHH-MMZ/manifest.jsondestination-prefix//amzn-s3-demo-source-bucketconfig-ID/YYYY-MM-DDTHH-MMZ/manifest.checksumdestination-prefix//amzn-s3-demo-source-bucketconfig-ID/hive/dt=YYYY-MM-DD-HH-MM/symlink.txt
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix -
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.amzn-s3-demo-source-bucket -
O
é adicionado para evitar colisões com vários relatórios do inventário do mesmo bucket de origem que são enviados ao mesmo bucket de destino. Oconfig-IDvem da configuração do relatório de inventário e é o nome do relatório definido durante a configuração.config-ID -
é o carimbo de data/hora que consiste na data e hora de início em que o processo de geração do relatório de inventário começa a verificar o bucket. Por exemplo,YYYY-MM-DDTHH-MMZ2016-11-06T21-32Z. -
manifest.jsoné o arquivo manifesto. -
manifest.checksumé o hash MD5 do conteúdo do arquivomanifest.json. -
symlink.txté o arquivo de manifesto compatível com o Apache Hive.
As listas de inventários são publicadas diária ou semanalmente no seguinte local do bucket de destino.
destination-prefix//amzn-s3-demo-source-bucketconfig-ID/data/example-file-name.csv.gz...destination-prefix//amzn-s3-demo-source-bucketconfig-ID/data/example-file-name-1.csv.gz
-
é o prefixo do nome da chave do objeto que é especificado opcionalmente na configuração do inventário. É possível usar esse prefixo para agrupar todos os arquivos da lista de inventários em um local comum no bucket de destino.destination-prefix -
é o bucket de origem ao qual a lista de inventário se refere. O nome do bucket de origem é adicionado para evitar colisões quando vários relatórios do inventário de diferentes buckets de origem são enviados ao mesmo bucket de destino.amzn-s3-demo-source-bucket -
example-file-name.csv.gzé um dos arquivos de inventário em formato CSV. Os nomes de inventário ORC terminam com a extensão do nome do arquivo.orc, e os nomes de inventário do Parquet terminam com a extensão de nome de arquivo.parquet.
Manifesto de inventário
Os arquivos manifestos manifest.json e symlink.txt descrevem onde os arquivos de inventário estão localizados. Sempre que uma nova lista de inventários é entregue, um novo conjunto de arquivos manifestos a acompanha. Esses arquivos podem se sobrepor. Em buckets habilitados para versionamento, o Amazon S3 cria versões dos arquivos de manifesto.
Cada manifesto contido no arquivo manifest.json fornece metadados e outras informações básicas sobre um inventário. Essas informações incluem:
-
O nome do bucket de origem
-
O nome do bucket de destino
-
A versão do inventário
-
O carimbo de data/hora de criação no formato de data de referência (epoch) que consiste na hora de início e na data em que o processo de geração do relatório de inventário começa a verificar o bucket
-
O formato e o esquema de arquivos de inventário
-
Uma lista dos arquivos de inventário que estão no bucket de destino
Sempre que um arquivo manifest.json é gravado, ele é acompanhado por um arquivo manifest.checksum, que representa o hash MD5 do conteúdo do arquivo manifest.json.
exemplo Manifesto de inventário em um arquivo manifest.json
Os exemplos a seguir mostram um manifesto de inventário em um arquivo manifest.json para inventários nos formatos CSV, ORC e Parquet.
O symlink.txt é um arquivo manifesto compatível com o Apache Hive permitindo que o Hive detecte automaticamente arquivos de inventário e os arquivos de dados associados. O manifesto compatível com o Hive funciona com os serviços compatíveis com o Hive, o Athena e o Amazon Redshift Spectrum. Ele também funciona com aplicações compatíveis com o Hive, incluindo Presto
Importante
O arquivo de manifesto symlink.txt compatível com o Apache Hive atualmente não funciona com o AWS Glue.
Não é possível ler o arquivo symlink.txt com o Apache Hive