

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Personalización de la ingesta de un origen de datos
<a name="kb-data-source-customize-ingestion"></a>

Puede personalizar la ingesta de vectores al conectar una fuente de datos Consola de administración de AWS o al modificar el valor del `vectorIngestionConfiguration` campo al enviar una [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud.

Seleccione un tema para obtener información acerca de cómo incluir configuraciones para personalizar la ingesta al conectarse a un origen de datos:

**Topics**
+ [Selección de la herramienta que se utilizará para el análisis](#kb-data-source-customize-parsing)
+ [Selección de una estrategia de fragmentación](#kb-data-source-customize-chunking)
+ [Uso de una función de Lambda durante la ingesta](#kb-data-source-customize-lambda)

## Selección de la herramienta que se utilizará para el análisis
<a name="kb-data-source-customize-parsing"></a>

Puede personalizar la forma en que se analizan los documentos en sus datos. Para obtener más información sobre las opciones de análisis de datos en Bases de conocimiento de Amazon Bedrock, consulte [Opciones de análisis del origen de datos](kb-advanced-parsing.md).

**aviso**  
No puede cambiar la configuración de análisis después de conectarse al origen de datos. Para usar una estrategia de análisis diferente, puede añadir un nuevo origen de datos.  
No puede añadir una ubicación de S3 para almacenar datos multimodales (incluidas imágenes, figuras, gráficos y tablas) después de haber creado una base de conocimiento. Si desea incluir datos multimodales y usar un analizador que los admita, debe crear una base de conocimiento nueva.

Los pasos necesarios para elegir una estrategia de análisis dependen de si utiliza la API Consola de administración de AWS o la de Amazon Bedrock y del método de análisis que elija. Si elige un método de análisis que admite datos multimodales, debe especificar un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos. Estos datos se pueden devolver en una consulta a la base de conocimiento.
+ En el Consola de administración de AWS, haga lo siguiente:

  1. Seleccione la estrategia de análisis cuando se conecte a un origen de datos mientras configura una base de conocimiento o cuando añada un nuevo origen de datos a su base de conocimiento existente.

  1. (Si elige Automatización de Datos de Amazon Bedrock o un modelo fundacional como estrategia de análisis) Especifique un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos en la sección **Destino de almacenamiento multimodal** cuando seleccione un modelo de incrustaciones y configure su almacén de vectores. Si lo desea, también puede utilizar una clave administrada por el cliente para cifrar sus datos de S3 en este paso.
+ En la API de Amazon Bedrock, haga lo siguiente:

  1. (Si planea utilizar Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Incluya un [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)en [VectorKnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html)la solicitud. [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html)

  1. Incluya una [ParsingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ParsingConfiguration.html)en el `parsingConfiguration` campo de [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)la [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)solicitud.
**nota**  
Si omite esta configuración, Bases de conocimiento de Amazon Bedrock utilizará el analizador predeterminado de Amazon Bedrock.

Para obtener más información sobre cómo especificar una estrategia de análisis en la API, amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:

### Analizador predeterminado de Amazon Bedrock
<a name="w2aac32c10c23c15c17c11c13b1"></a>

Para usar el analizador predeterminado, no incluya ningún campo `parsingConfiguration` dentro de `VectorIngestionConfiguration`.

### Analizador de Automatización de Datos de Amazon Bedrock (versión preliminar)
<a name="w2aac32c10c23c15c17c11c13b3"></a>

Para utilizar el analizador de Amazon Bedrock Data Automation, especifique `BEDROCK_DATA_AUTOMATION` en el `parsingStrategy` campo `ParsingConfiguration` e incluya una [BedrockDataAutomationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockDataAutomationConfiguration.html)en el `bedrockDataAutomationConfiguration` campo, con el siguiente formato:

```
{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}
```

### Modelo fundacional
<a name="w2aac32c10c23c15c17c11c13b5"></a>

Para utilizar un modelo base como analizador, especifique el `BEDROCK_FOUNDATION_MODEL` en el `parsingStrategy` campo del `ParsingConfiguration` e incluya un [BedrockFoundationModelConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockFoundationModelConfiguration.html)en el `bedrockFoundationModelConfiguration` campo, como en el siguiente formato:

```
{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}
```

## Selección de una estrategia de fragmentación
<a name="kb-data-source-customize-chunking"></a>

Puede personalizar la forma en que se fragmentan los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en Bases de conocimiento de Amazon Bedrock, consulte [Funcionamiento de la fragmentación de contenido para las bases de conocimiento](kb-chunking.md).

**aviso**  
No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.

En el Consola de administración de AWS , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un [ChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ChunkingConfiguration.html)en el `chunkingConfiguration` campo de. [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)

**nota**  
Si omite esta configuración, Amazon Bedrock divide el contenido en fragmentos de aproximadamente 300 tokens, preservando los límites de las oraciones.

Amplíe la sección correspondiente a la estrategia de análisis que desea utilizar:

### Sin fragmentación
<a name="w2aac32c10c23c15c17c13c13b1"></a>

Para tratar cada documento del origen de datos como un fragmento de origen único, especifique `NONE` en el campo `chunkingStrategy` de `ChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "NONE"
}
```

### Fragmentación de tamaño fijo
<a name="w2aac32c10c23c15c17c13c13b3"></a>

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique `FIXED_SIZE` en el `chunkingStrategy` campo `ChunkingConfiguration` e incluya una [FixedSizeChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_FixedSizeChunkingConfiguration.html)en el `fixedSizeChunkingConfiguration` campo, con el siguiente formato:

```
{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}
```

### Fragmentación jerárquica
<a name="w2aac32c10c23c15c17c13c13b5"></a>

Para dividir cada documento del origen de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños obtenidos de la primera capa, especifique `HIERARCHICAL` en el campo `chunkingStrategy` de `ChunkingConfiguration` e incluya el campo `hierarchicalChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}
```

### Fragmentación semántica
<a name="w2aac32c10c23c15c17c13c13b7"></a>

Para dividir cada documento del origen de datos en fragmentos que prioricen el significado semántico sobre la estructura sintáctica, especifique `SEMANTIC` en el campo `chunkingStrategy` de `ChunkingConfiguration` e incluya el campo `semanticChunkingConfiguration`, como en el siguiente formato:

```
{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}
```

## Uso de una función de Lambda durante la ingesta
<a name="kb-data-source-customize-lambda"></a>

Puede posprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función de Lambda de las siguientes maneras:
+ Incluya una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.
+ Incluya la lógica para especificar los metadatos de nivel de fragmento.

Para obtener información acerca de cómo escribir una función de Lambda personalizada para ingesta, consulte [Uso de una función de Lambda de transformación personalizada para definir cómo se ingieren los datos](kb-custom-transformation.md). En el Consola de administración de AWS , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un [CustomTransformationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CustomTransformationConfiguration.html)en el `CustomTransformationConfiguration` campo [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)y especificar el ARN de la Lambda, con el siguiente formato:

```
{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}
```

También debe especificar la ubicación de S3 en la que se almacenará la salida después de aplicar la función de Lambda.

Puede incluir el campo `chunkingConfiguration` para aplicar la función de Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.