Metadados do documento de Amazon S3
Você pode adicionar metadados, informações adicionais sobre um documento, aos documentos em um bucket do Amazon S3 usando um arquivo de metadados. Cada arquivo de metadados está associado a um documento indexado.
Os arquivos de metadados devem ser armazenados no mesmo bucket dos arquivos indexados. Você pode especificar um local dentro do bucket para os arquivos de metadados usando o console ou o campo S3Prefix do parâmetro DocumentsMetadataConfiguration ao criar uma fonte de dados do Amazon S3. Se você não especificar um prefixo do Amazon S3, os arquivos de metadados deverão ser armazenados no mesmo local dos documentos indexados.
Se você especificar um prefixo do Amazon S3 para os arquivos de metadados, eles estarão em uma estrutura de diretórios paralela aos seus documentos indexados. O Amazon Kendra procura metadados somente no diretório especificado. Se os metadados não forem lidos, verifique se a localização do diretório corresponde à localização dos metadados.
Os seguintes exemplos mostram como a localização do documento indexado é mapeada para a localização do arquivo de metadados: A chave do documento do Amazon S3 é anexada ao prefixo dos metadados do Amazon S3 e depois sufixada com .metadata.json para formar o caminho do arquivo de metadados do Amazon S3. A Amazon S3 chave combinada do , com o prefixo Amazon S3 e o sufixo .metadata.json dos metadados não deve ter mais do que um total de 1024 caracteres. É recomendável que você mantenha a chave do Amazon S3 abaixo de 1000 caracteres para considerar caracteres adicionais ao combinar sua chave com o prefixo e o sufixo.
Bucket name:
s3://bucketName
Document path:
documents
Metadata path:
none
File mapping
s3://bucketName/documents/file.txt ->
s3://bucketName/documents/file.txt.metadata.jsonBucket name:
s3://bucketName
Document path:
documents/legal
Metadata path:
metadata
File mapping
s3://bucketName/documents/legal/file.txt ->
s3://bucketName/metadata/documents/legal/file.txt.metadata.jsonOs metadados do documento são definidos em um arquivo JSON. O arquivo deve ser um arquivo de texto UTF-8 sem um marcador BOM. O nome do arquivo JSON deve ser <document>.<extension>.metadata.json. Neste exemplo, o “documento” é o nome do documento ao qual os metadados se aplicam e a “extensão” é a extensão do arquivo do documento. O ID do documento deve ser exclusivo na <document>.<extension>.metadata.json.
O conteúdo do arquivo JSON segue esse modelo. Todos os atributos/campos são opcionais, portanto, não é necessário incluir todos os atributos. Você deve fornecer um valor para cada atributo que deseja incluir; o valor não pode estar vazio. Se você não especificar o _source_uri, os links retornados pelo Amazon Kendra nos resultados da pesquisa apontarão para o bucket do Amazon S3 que contém o documento. O DocumentId é mapeado para o campo s3_document_id e é o caminho absoluto para o documento no S3.
{ "DocumentId": "S3 document ID, the S3 path to doc", "Attributes": { "_category": "document category", "_created_at": "ISO 8601 encoded string", "_last_updated_at": "ISO 8601 encoded string", "_source_uri": "document URI", "_version": "file version", "_view_count":number of times document has been viewed, "custom attribute key": "custom attribute value",additional custom attributes}, "AccessControlList": [ { "Name": "user name", "Type": "GROUP|USER", "Access": "ALLOW|DENY" } ], "Title": "document title", "ContentType": "For example HTML|
Os campos de metadados _created_at e _last_updated_at são datas codificadas no ISO 8601. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora do ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.
Você pode adicionar informações adicionais ao campo Attributes sobre um documento que você usa para filtrar consultas ou agrupar respostas de consultas. Para obter mais informações, consulte Criação de campos de documentos personalizados.
Você pode usar o campo AccessControlList para filtrar a resposta de uma consulta. Dessa forma, somente determinados usuários e grupos têm acesso aos documentos. Para obter mais informações, consulte Filtragem no contexto do usuário.