Notas antes de habilitar esquemas de incrustación vectorial en tiempo real - Transmisión administrada de Amazon para Apache Kafka

Notas antes de habilitar esquemas de incrustación vectorial en tiempo real

La aplicación de Managed Service para Apache Flink solo admite texto no estructurado o datos en formato JSON en el flujo de entrada.

Se admiten dos modos de procesamiento de entrada:

  • Cuando los datos de entrada son texto no estructurado, se incrusta el mensaje de texto completo. La base de datos vectorial contiene el texto original y la incrustación generada.

  • Cuando los datos de entrada están en formato JSON, la aplicación permite configurar y especificar una o varias claves dentro del valor del objeto JSON para utilizarlas en el proceso de incrustación. Si hay más de una clave, todas las claves se vectorizan conjuntamente y se indexan en la base de datos vectorial. La base de datos vectorial contendrá el mensaje original y la incrustación generada.

Generación de incrustaciones: la aplicación admite exclusivamente todos los modelos de incrustación de texto proporcionados por Bedrock.

Persistencia en la base de datos vectorial: la aplicación utiliza un clúster de OpenSearch existente (aprovisionado o sin servidor) en la cuenta del cliente como destino para almacenar los datos incrustados. Cuando use OpenSearch sin servidor para crear un índice vectorial, utilice siempre el nombre del campo vectorial embedded_data.

Al igual que con los esquemas de MSF, se espera que administre la infraestructura necesaria para ejecutar el código asociado con el esquema de incrustación vectorial en tiempo real.

De forma similar a los esquemas de MSF, una vez que se crea una aplicación de MSF, esta debe iniciarse exclusivamente en la cuenta de AWS mediante la consola o la CLI. AWS no inicia la aplicación de MSF en su nombre. Debe llamar a la API StartApplication (mediante la CLI o la consola) para que la aplicación se ejecute.

Movimiento de datos entre cuentas. la aplicación no permite mover datos entre el flujo de entrada y los destinos vectoriales que se encuentren en cuentas de AWS diferentes.