View a markdown version of this page

Niveles de servicio para optimizar el rendimiento y los costes - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Niveles de servicio para optimizar el rendimiento y los costes

Amazon Bedrock ofrece cuatro niveles de servicio para la inferencia de modelos: Reserved, Priority, Standard y Flex. Con los niveles de servicio, puede optimizar la disponibilidad, el costo y el rendimiento.

Nivel reservado

El nivel reservado ofrece la posibilidad de reservar la capacidad informática priorizada para las aplicaciones de misión crítica que no pueden tolerar ningún tiempo de inactividad. Tiene la flexibilidad de asignar diferentes tokens-per-minute capacidades de entrada y salida para adaptarse a los requisitos exactos de su carga de trabajo y controlar los costes. Cuando su aplicación necesita más tokens-per-minute capacidad de la que ha reservado, el servicio pasa automáticamente al nivel estándar, lo que garantiza un funcionamiento ininterrumpido. El nivel reservado prevé un tiempo de actividad del 99,5% para la respuesta del modelo. Los clientes pueden reservar capacidad durante 1 o 3 meses. Los clientes pagan un precio fijo por cada 1000€ tokens-per-minute y se les factura mensualmente.

El nivel reservado tiene los siguientes requisitos de capacidad mínima:

  • Entrada mínima tokens-per-minute (TPM): 100 000

  • Salida mínima tokens-per-minute (TPM): 10.000

Para obtener acceso a la capa reservada, póngase en contacto con el equipo de su cuenta de AWS.

nota

La facturación continúa hasta que elimine la reserva del nivel reservado con la ayuda de su Cuenta de AWS gerente.

Nivel de prioridad

El nivel de prioridad ofrece los tiempos de respuesta más rápidos a un precio superior al precio estándar bajo demanda. Es ideal para aplicaciones de misión crítica con flujos de trabajo empresariales orientados al cliente que no garantizan una reserva de capacidad las 24 horas del día, los 7 días de la semana. El nivel de prioridad no requiere reserva previa. Simplemente puede establecer el parámetro opcional «service_tier» en «priority» para aprovechar la priorización a nivel de solicitud. Las solicitudes de nivel prioritario tienen prioridad sobre las solicitudes de nivel estándar y flexible.

Nivel estándar

El nivel estándar proporciona un rendimiento uniforme para las tareas diarias de IA, como la generación de contenido, el análisis de texto y el procesamiento rutinario de documentos. De forma predeterminada, todas las solicitudes de inferencia se envían al nivel estándar cuando falta el parámetro «service_tier». También puede configurar el parámetro opcional «service_tier» como «predeterminado» para que su solicitud de inferencia se atienda con el nivel estándar.

Nivel flexible

Para las cargas de trabajo que pueden gestionar tiempos de procesamiento más prolongados, el nivel Flex ofrece un procesamiento rentable con un descuento en el precio. Esto le ayuda a optimizar los costes de las cargas de trabajo, como las evaluaciones de modelos, el resumen de contenido y los flujos de trabajo de los agentes. Puede configurar el parámetro opcional «service_tier» en «flex» para que su solicitud de inferencia se atienda con el nivel Flex y aprovechar el descuento en el precio.

Uso de la capacidad del nivel de servicio

Para acceder a la capacidad del nivel de servicio, puede configurar el parámetro opcional «service_tier» en «reservado», «prioritario», «predeterminado» o «flexible» mientras llama a la API de tiempo de ejecución de Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

La cuota bajo demanda de un modelo se comparte entre los niveles de servicio «prioritario», «predeterminado» y «flexible». La reserva de capacidad del nivel «reservado» es independiente de la cuota bajo demanda. La configuración del nivel de servicio de una solicitud atendida está visible en la respuesta de la API y en CloudTrail los eventos de AWS. También puedes ver las métricas del nivel de servicio en Amazon CloudWatch Metrics en ModelId ServiceTier, y ResolvedServiceTier, donde se ResolvedServiceTier muestra el nivel real que atendió tus solicitudes.

Para obtener más información sobre los precios, consulte la página de precios.

Ve a la sección Modelos de un vistazo y elige el modelo que te interesa para ver qué nivel de servicio admite ese modelo.

Para controlar el acceso a los niveles de servicio, consulte Controle el acceso a los niveles de servicio