Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Opciones de análisis del origen de datos
El análisis se refiere a la comprensión y extracción del contenido de los datos sin procesar. Bases de conocimiento de Amazon Bedrock ofrece las siguientes opciones para analizar el origen de datos durante la ingesta:
-
Analizador predeterminado de Amazon Bedrock: solo analiza el texto de los archivos de texto, incluidos los archivos.txt, .md, .html, .doc/.docx, .xls/.xlsx y.pdf. Este analizador no conlleva ningún cargo por uso.
nota
Como el analizador predeterminado solo genera texto, recomendamos utilizar Automatización de Datos de Amazon Bedrock o un modelo fundacional como analizador en lugar del analizador predeterminado si sus documentos incluyen figuras, gráficos, tablas o imágenes. Automatización de Datos de Amazon Bedrock y los modelos fundacionales pueden extraer estos elementos de sus documentos y devolverlos como salida.
-
Bases de conocimiento de Amazon Bedrock ofrece los siguientes analizadores para analizar datos multimodales, incluidas figuras, gráficos y tablas en archivos.pdf, además de archivos de imagen .jpeg y.png. Estos analizadores también pueden extraer estas figuras, gráficos, tablas e imágenes y almacenarlas como archivos en un destino de S3 que especifique durante la creación de la base de conocimiento. Durante la recuperación de la base de conocimiento, estos archivos se pueden devolver en la respuesta o en la atribución del origen.
-
Automatización de Datos de Amazon Bedrock: un servicio totalmente administrado que procesa datos multimodales de forma eficaz, sin necesidad de crear ninguna petición adicional. El costo de este analizador depende del número de páginas del documento o del número de imágenes que se vayan a procesar. Para obtener más información sobre este servicio, consulte Automatización de Datos de Amazon Bedrock.
-
Modelos fundacionales: procesa datos multimodales mediante un modelo fundacional. Este analizador ofrece la opción de personalizar la petición predeterminada de extracción de datos. El costo de este analizador depende del número de tokens de entrada y salida procesados por el modelo fundacional. Para obtener una lista de los modelos que admiten el análisis de los datos de Bases de conocimiento de Amazon Bedrock, consulte Regiones y modelos compatibles para el análisis.
-
importante
Si elige Automatización de Datos de Amazon Bedrock o modelos fundacionales como analizador, el método que elija se utilizará para analizar todos los archivos .pdf del origen de datos, incluso si los archivos .pdf contienen solo texto. El analizador predeterminado no se utilizará para analizar estos archivos .pdf. Su cuenta incurre en cargos por el uso de Automatización de Datos de Amazon Bedrock o el modelo fundacional al analizar estos archivos.
Cuando seleccione cómo analizar los datos, tenga en cuenta lo siguiente:
-
Si sus datos son exclusivamente textuales o si contienen datos multimodales, como imágenes, gráficos y tablas, que desee que la base de conocimiento pueda consultar.
-
Si desea tener la opción de personalizar la petición que se utiliza para indicar al modelo cómo analizar los datos.
-
El costo del analizador. Automatización de Datos de Amazon Bedrock utiliza precios por página, mientras que los analizadores de modelos fundacionales cobran en función de los tokens de entrada y salida. Para obtener más información, consulte Precios de Amazon Bedrock
. -
El límite de tamaño total del archivo. Cuando utilice modelos básicos como analizador, el tamaño total de todos los archivos no debe ser superior a 100 GB.
Para obtener información sobre cómo configurar el modo en que se analiza su base de conocimiento, consulte la configuración de conexión del origen de datos en Conexión de un origen de datos a la base de conocimiento.