Nivel reservado Nivel de prioridad Nivel estándar Nivel flexible Uso de la capacidad del nivel de servicio

Niveles de servicio para optimizar el rendimiento y los costes

Amazon Bedrock ofrece cuatro niveles de servicio para la inferencia de modelos: Reserved, Priority, Standard y Flex. Con los niveles de servicio, puede optimizar la disponibilidad, el costo y el rendimiento.

Nivel reservado

El nivel reservado ofrece la posibilidad de reservar la capacidad informática priorizada para las aplicaciones de misión crítica que no pueden tolerar ningún tiempo de inactividad. Tiene la flexibilidad de asignar distintas capacidades de entrada y salida de fichas por minuto para adaptarse exactamente a los requisitos de su carga de trabajo y controlar los costes. Cuando su aplicación necesita más capacidad de fichas por minuto de la que ha reservado, el servicio pasa automáticamente al nivel estándar, lo que garantiza un funcionamiento ininterrumpido. El nivel reservado prevé un tiempo de actividad del 99,5% para la respuesta del modelo. Los clientes pueden reservar capacidad durante 1 o 3 meses. Los clientes pagan un precio fijo por cada 1000 fichas por minuto y se les factura mensualmente.

El nivel reservado tiene los siguientes requisitos de capacidad mínima:

Entrada mínima de tokens por minuto (TPM): 100 000
Número mínimo de tokens de salida por minuto (TPM): 10 000

Para obtener acceso a la capa reservada, póngase en contacto con el equipo de su cuenta de AWS.

importante

Al evaluar la capacidad de su nivel reservado, tenga en cuenta que su consumo de fichas por minuto incluye tanto como. InputTokenCount CacheWriteInputTokens Si utilizas el almacenamiento rápido en caché, debes sumar ambas métricas en Amazon CloudWatch para estimar con precisión la reserva requerida. Para obtener más información sobre cómo se tienen en cuenta los tokens para tu cuota, consultaAdministración de las cuotas de tokens.

nota

La facturación continúa hasta que elimines la reserva del nivel reservado con la ayuda de tu Cuenta de AWS gerente.

Nivel de prioridad

El nivel de prioridad ofrece los tiempos de respuesta más rápidos a un precio superior al precio estándar bajo demanda. Es ideal para aplicaciones de misión crítica con flujos de trabajo empresariales orientados al cliente que no garantizan una reserva de capacidad las 24 horas del día, los 7 días de la semana. El nivel de prioridad no requiere reserva previa. Simplemente puede establecer el parámetro opcional «service_tier» en «priority» para aprovechar la priorización a nivel de solicitud. Las solicitudes de nivel prioritario tienen prioridad sobre las solicitudes de nivel estándar y flexible.

Nivel estándar

El nivel estándar proporciona un rendimiento uniforme para las tareas diarias de IA, como la generación de contenido, el análisis de texto y el procesamiento rutinario de documentos. De forma predeterminada, todas las solicitudes de inferencia se envían al nivel estándar cuando falta el parámetro «service_tier». También puede configurar el parámetro opcional «service_tier» como «predeterminado» para que su solicitud de inferencia se atienda con el nivel estándar.

Nivel flexible

Para las cargas de trabajo que pueden gestionar tiempos de procesamiento más prolongados, el nivel Flex ofrece un procesamiento rentable con un descuento en el precio. Esto le ayuda a optimizar los costes de las cargas de trabajo, como las evaluaciones de modelos, el resumen de contenido y los flujos de trabajo de los agentes. Puede configurar el parámetro opcional «service_tier» en «flex» para que su solicitud de inferencia se atienda con el nivel Flex y aprovechar el descuento en el precio.

Uso de la capacidad del nivel de servicio

Para acceder a la capacidad del nivel de servicio, puede configurar el parámetro opcional «service_tier» en «reservado», «prioritario», «predeterminado» o «flexible» mientras llama a la API de tiempo de ejecución de Amazon Bedrock.


"service_tier" : "reserved | priority | default | flex"

La cuota bajo demanda de un modelo se comparte entre los niveles de servicio «prioritario», «predeterminado» y «flexible». La reserva de capacidad del nivel «reservado» es independiente de la cuota bajo demanda. La configuración del nivel de servicio de una solicitud atendida está visible en la respuesta de la API y en CloudTrail los eventos de AWS. También puedes ver las métricas del nivel de servicio en Amazon CloudWatch Metrics en ModelId ServiceTier, y ResolvedServiceTier, donde se ResolvedServiceTier muestra el nivel real que atendió tus solicitudes.

Para obtener más información sobre los precios, consulte la página de precios.

Ve a la sección Modelos de un vistazo y elige el modelo que te interesa para ver qué nivel de servicio admite ese modelo.

Para controlar el acceso a los niveles de servicio, consulte Controle el acceso a los niveles de servicio

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Capacidad y rendimiento

Inferencia en lotes