Metadatos de documentos de Amazon S3
Puede añadir metadatos (información adicional sobre un documento) a los documentos de un bucket de Amazon S3 mediante un archivo de metadatos. Cada archivo de metadatos está asociado a un documento indexado.
Los archivos de metadatos deben almacenarse en el mismo bucket que los archivos indexados. Puede especificar una ubicación dentro del bucket para sus archivos de metadatos mediante la consola o el campo S3Prefix del parámetro DocumentsMetadataConfiguration al crear un origen de datos de Amazon S3. Si no especifica un prefijo de Amazon S3, los archivos de metadatos deben almacenarse en la misma ubicación que los documentos indexados.
Si especifica un prefijo de Amazon S3 para los archivos de metadatos, estarán en una estructura de directorios paralela a los documentos indexados. Amazon Kendra busca únicamente en el directorio especificado para los metadatos. Si no se leen los metadatos, compruebe que la ubicación del directorio coincide con la ubicación de los metadatos.
En los siguientes ejemplos se muestra cómo la ubicación del documento indexado se asigna a la ubicación del archivo de metadatos. Tenga en cuenta que la clave de Amazon S3 del documento se adjunta al prefijo de Amazon S3 de los metadatos y, a continuación, se le añade el sufijo .metadata.json para formar la ruta de Amazon S3 del archivo de metadatos. La clave de Amazon S3 combinada, con el prefijo de Amazon S3 y el sufijo .metadata.json de los metadatos, no debe tener más de 1024 caracteres en total. Se recomienda mantener la clave de Amazon S3 por debajo de los 1000 caracteres para tener en cuenta los caracteres adicionales al combinar la clave con el prefijo y el sufijo.
Bucket name:
s3://bucketName
Document path:
documents
Metadata path:
none
File mapping
s3://bucketName/documents/file.txt ->
s3://bucketName/documents/file.txt.metadata.jsonBucket name:
s3://bucketName
Document path:
documents/legal
Metadata path:
metadata
File mapping
s3://bucketName/documents/legal/file.txt ->
s3://bucketName/metadata/documents/legal/file.txt.metadata.jsonLos metadatos del documento se definen en un archivo JSON. El archivo debe ser un archivo de texto UTF-8 sin un marcador BOM. El nombre del archivo JSON debe ser <document>.<extension>.metadata.json. En este ejemplo, “document” es el nombre del documento al que se aplican los metadatos y “extension” es la extensión de archivo del documento. El ID del documento debe ser único en <document>.<extension>.metadata.json.
El contenido del archivo JSON sigue esta plantilla. Todos los atributos/campos son opcionales, por lo que no es necesario incluir todos los atributos. Debe proporcionar un valor para cada atributo que desee incluir; el valor no puede estar vacío. Si no especifica el _source_uri, los enlaces devueltos por Amazon Kendra en los resultados de la búsqueda apuntan al bucket de Amazon S3 que contiene el documento. DocumentId se asigna al campo s3_document_id y es la ruta absoluta al documento en S3.
{ "DocumentId": "S3 document ID, the S3 path to doc", "Attributes": { "_category": "document category", "_created_at": "ISO 8601 encoded string", "_last_updated_at": "ISO 8601 encoded string", "_source_uri": "document URI", "_version": "file version", "_view_count":number of times document has been viewed, "custom attribute key": "custom attribute value",additional custom attributes}, "AccessControlList": [ { "Name": "user name", "Type": "GROUP|USER", "Access": "ALLOW|DENY" } ], "Title": "document title", "ContentType": "For example HTML|
Los campos de metadatos _created_at y _last_updated_at son fechas codificadas según la norma ISO 8601. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.
Puede añadir información adicional al campo Attributes sobre un documento que utilice para filtrar consultas o agrupar las respuestas a las consultas. Para obtener más información, consulte Creación de campos de documento personalizados.
Puede utilizar el campo AccessControlList para filtrar la respuesta de una consulta. De esta forma, solo determinados usuarios y grupos tienen acceso a los documentos. Para obtener más información, consulte Filtrar por contexto de usuario.