Consejos para gestionar los límites de los tokens de los modelos

Nota: La solución no intenta gestionar directamente los límites de token impuestos por varios LLMs. Pruebe y asegúrese de que su solicitud se mantenga dentro de los límites disponibles impuestos por el proveedor del modelo.

Para ayudar a controlar el tamaño de las indicaciones, intente lo siguiente:

Familiarícese con los límites impuestos por el modelo que desee utilizar. Estos valores pueden diferir considerablemente de un modelo a otro, por lo que es importante saber cuál es el presupuesto disponible antes de empezar.
Elabore su solicitud inicial teniendo en cuenta ese presupuesto y considere cuánto desea ahorrar para cualquier elemento dinámico de la solicitud. Por ejemplo, las entradas del usuario, el historial de chat, los extractos de documentos, etc.
En la página de configuración del mensaje, establece un límite en el tamaño del historial final para limitar el número de turnos de conversación incluidos en el mensaje.
Establezca los límites de devolución de documentos en el asistente de configuración de Knowledge Base. Debe intentar encontrar el equilibrio adecuado entre proporcionar al LLM el contexto suficiente para realizar la tarea, pero no tanto como para superar los límites simbólicos o afectar negativamente a la latencia.
Deja un poco de margen. No haga un presupuesto para el caso típico, piense en los casos extremos y experimente con ellos, como las consultas de entrada largas, los extractos de documentos de gran tamaño o las conversaciones largas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configuración de Workflow Builder

Pasos para construir el servidor MCP (Docker Image)