Agregue fuentes de datos Inicio de un trabajo de ingesta Resincronización después de eliminar la fuente de datos

Añadir fuentes de datos e iniciar la ingesta

Tras crear la base de conocimientos, añada fuentes de datos que contengan su contenido multimodal e inicie los trabajos de ingesta para procesar e indexar el contenido.

Comportamiento de eliminación de fuentes de datos

Al eliminar una fuente de datos con la política de eliminación establecida en RETAIN, el contenido ingerido permanece en la base de datos vectorial y se seguirá utilizando para su recuperación. El contenido solo se elimina si sincroniza explícitamente la base de conocimientos después de eliminar la fuente de datos. Las fuentes de datos con la política DELETE predeterminada eliminarán automáticamente el contenido de la base de datos vectorial y del almacenamiento suplementario durante la eliminación. Esto garantiza que su base de conocimientos siga funcionando incluso si se modifican o eliminan los archivos fuente, pero debe tener en cuenta que las fuentes de datos eliminadas con la política de retención pueden seguir contribuyendo a los resultados de la búsqueda.

Agregue fuentes de datos

Agregue fuentes de datos que contengan su contenido multimodal a su base de conocimientos.

importante

Para las fuentes de datos BDA: solo las fuentes de datos creadas después del lanzamiento del audio/video soporte procesarán archivos de audio y vídeo. Las fuentes de datos BDA existentes creadas antes del lanzamiento de esta función seguirán omitiendo los archivos de audio y vídeo. Para permitir el audio/video procesamiento de las bases de conocimiento existentes, cree nuevas fuentes de datos.

Console

Para añadir una fuente de datos desde la consola

En la página de detalles de la base de conocimientos, seleccione Añadir fuente de datos.
Elija Amazon S3 como tipo de fuente de datos.
Proporcione un nombre y una descripción para su fuente de datos.
Configure la ubicación de Amazon S3 que contiene sus archivos multimodales proporcionando el URI del bucket y cualquier prefijo de inclusión.
En Análisis y fragmentación del contenido, configure sus métodos de análisis y fragmentación:

nota
Los modelos de incrustación de texto limitan la recuperación a contenido de solo texto, pero puede habilitar la recuperación multimodal mediante texto seleccionando Amazon Bedrock Data Automation (para audio, vídeo e imágenes) o Foundation Model como analizadores (para imágenes).

Elija entre tres estrategias de análisis:
- Analizador predeterminado de Bedrock: se recomienda para el análisis de solo texto. Este analizador ignora el contenido multimodal y se usa comúnmente con modelos de incrustación multimodales.
- Bedrock Data Automation como analizador: permite analizar y almacenar contenido multimodal como archivos de texto, soporte PDFs, imágenes, audio y vídeo.
- Modelo básico como analizador: proporciona un análisis avanzado de imágenes y documentos estructurados, documentos auxiliares, imágenes PDFs, tablas y documentos con gran riqueza visual.
Seleccione Añadir fuente de datos para crear la fuente de datos.

CLI

Para añadir una fuente de datos mediante el AWS CLI

Cree una fuente de datos para su contenido multimodal. Envía una CreateDataSourcesolicitud:


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Para las incrustaciones multimodales de Nova (no se necesita una configuración de análisis especial), utilice este contenido: ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

Para el enfoque de análisis BDA, utilice esta configuración:


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

Inicio de un trabajo de ingesta

Tras añadir las fuentes de datos, inicie un trabajo de ingesta para procesar e indexar el contenido multimodal.

Resincronización después de eliminar la fuente de datos

Si elimina una fuente de datos y desea eliminar su contenido de la base de conocimientos, debe volver a sincronizarla de forma explícita:

Para eliminar el contenido de una fuente de datos eliminada

Elimine la fuente de datos mediante la consola o la DeleteDataSourceAPI.
Inicie un nuevo trabajo de ingesta en las fuentes de datos restantes para actualizar la base de datos vectorial y eliminar el contenido de la fuente de datos eliminada.
Compruebe que las consultas ya no devuelvan resultados de la fuente de datos eliminada.

nota

Si no se vuelve a sincronizar, el contenido de las fuentes de datos eliminadas seguirá apareciendo en los resultados de búsqueda aunque la fuente de datos ya no exista.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de una base de conocimientos

Pruebe y consulte la base de conocimientos

Añadir fuentes de datos e iniciar la ingesta

Comportamiento de eliminación de fuentes de datos

Agregue fuentes de datos

importante

Para añadir una fuente de datos desde la consola

nota

Para añadir una fuente de datos mediante el AWS CLI

Inicio de un trabajo de ingesta

Para iniciar la ingesta desde la consola

Para iniciar la ingestión mediante el AWS CLI

Resincronización después de eliminar la fuente de datos

Para eliminar el contenido de una fuente de datos eliminada

nota