Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Añadir fuentes de datos e iniciar la ingesta
Tras crear la base de conocimientos, añada fuentes de datos que contengan su contenido multimodal e inicie los trabajos de ingesta para procesar e indexar el contenido.
Comportamiento de eliminación de fuentes de datos
Al eliminar una fuente de datos con la política de eliminación establecida en RETAIN, el contenido ingerido permanece en la base de datos vectorial y se seguirá utilizando para su recuperación. El contenido solo se elimina si sincroniza explícitamente la base de conocimientos después de eliminar la fuente de datos. Las fuentes de datos con la política DELETE predeterminada eliminarán automáticamente el contenido de la base de datos vectorial y del almacenamiento suplementario durante la eliminación. Esto garantiza que su base de conocimientos siga funcionando incluso si se modifican o eliminan los archivos fuente, pero debe tener en cuenta que las fuentes de datos eliminadas con la política de retención pueden seguir contribuyendo a los resultados de la búsqueda.
Agregue fuentes de datos
Agregue fuentes de datos que contengan su contenido multimodal a su base de conocimientos.
Para las fuentes de datos BDA: solo las fuentes de datos creadas después del lanzamiento del audio/video soporte procesarán archivos de audio y vídeo. Las fuentes de datos BDA existentes creadas antes del lanzamiento de esta función seguirán omitiendo los archivos de audio y vídeo. Para permitir el audio/video procesamiento de las bases de conocimiento existentes, cree nuevas fuentes de datos.
- Console
-
Para añadir una fuente de datos desde la consola
-
En la página de detalles de la base de conocimientos, seleccione Añadir fuente de datos.
-
Elija Amazon S3 como tipo de fuente de datos.
-
Proporcione un nombre y una descripción para su fuente de datos.
-
Configure la ubicación de Amazon S3 que contiene sus archivos multimodales proporcionando el URI del bucket y cualquier prefijo de inclusión.
-
En Análisis y fragmentación del contenido, configure sus métodos de análisis y fragmentación:
Los modelos de incrustación de texto limitan la recuperación a contenido de solo texto, pero puede habilitar la recuperación multimodal mediante texto seleccionando Amazon Bedrock Data Automation (para audio, vídeo e imágenes) o Foundation Model como analizadores (para imágenes).
Elija entre tres estrategias de análisis:
-
Analizador predeterminado de Bedrock: se recomienda para el análisis de solo texto. Este analizador ignora el contenido multimodal y se usa comúnmente con modelos de incrustación multimodales.
-
Bedrock Data Automation como analizador: permite analizar y almacenar contenido multimodal como archivos de texto, soporte PDFs, imágenes, audio y vídeo.
-
Modelo básico como analizador: proporciona un análisis avanzado de imágenes y documentos estructurados, documentos auxiliares, imágenes PDFs, tablas y documentos con gran riqueza visual.
-
Seleccione Añadir fuente de datos para crear la fuente de datos.
- CLI
-
Para añadir una fuente de datos mediante el AWS CLI
-
Cree una fuente de datos para su contenido multimodal. Envía una CreateDataSourcesolicitud:
aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json
Para las incrustaciones multimodales de Nova (no se necesita una configuración de análisis especial), utilice este contenido: ds-multimodal.json
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source",
"description": "Data source with multimodal content",
"dataDeletionPolicy": "RETAIN"
}
Para el enfoque de análisis BDA, utilice esta configuración:
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source_bda",
"description": "Data source with BDA multimodal parsing",
"dataDeletionPolicy": "RETAIN",
"vectorIngestionConfiguration": {
"parsingConfiguration": {
"bedrockDataAutomationConfiguration": {
"parsingModality": "MULTIMODAL"
}
}
}
}
Inicio de un trabajo de ingesta
Tras añadir las fuentes de datos, inicie un trabajo de ingesta para procesar e indexar el contenido multimodal.
- Console
-
Para iniciar la ingesta desde la consola
-
En la página de detalles de la fuente de datos, selecciona Sincronizar.
-
Supervisa el estado de la sincronización en la página de la fuente de datos. La ingestión puede tardar varios minutos en función del tamaño y la cantidad de los archivos multimodales.
-
Una vez que la sincronización se complete correctamente, el contenido multimodal estará listo para ser consultado.
- CLI
-
Para iniciar la ingestión mediante el AWS CLI
-
Inicie un trabajo de ingestión. Enviar una StartIngestionJobsolicitud:
aws bedrock-agent start-ingestion-job \
--knowledge-base-id <knowledge-base-id> \
--data-source-id <data-source-id>
Sustituya los marcadores de posición por:
-
Supervise el estado del trabajo de ingestión mediante GetIngestionJob.
Resincronización después de eliminar la fuente de datos
Si elimina una fuente de datos y desea eliminar su contenido de la base de conocimientos, debe volver a sincronizarla de forma explícita:
Para eliminar el contenido de una fuente de datos eliminada
-
Elimine la fuente de datos mediante la consola o la DeleteDataSourceAPI.
-
Inicie un nuevo trabajo de ingesta en las fuentes de datos restantes para actualizar la base de datos vectorial y eliminar el contenido de la fuente de datos eliminada.
-
Compruebe que las consultas ya no devuelvan resultados de la fuente de datos eliminada.
Si no se vuelve a sincronizar, el contenido de las fuentes de datos eliminadas seguirá apareciendo en los resultados de búsqueda aunque la fuente de datos ya no exista.