Optimización de costos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Optimización de costos

A medida que aumentan las cargas de trabajo de IA y sin servidor, la visibilidad y el control de los costes se convierten en elementos fundamentales de las operaciones sostenibles. A diferencia de la informática tradicional, en la que los costes son predecibles por hora de instancia, los servicios de IA generativa y sin servidor introducen nuevas dimensiones de costes:

  • Costos de inferencia por uso de fichas (por ejemplo, Amazon Bedrock)

  • Facturación por invocación (por ejemplo, y) AWS Lambda AWS Step Functions

  • Activadores basados en el volumen de eventos (por ejemplo, Amazon EventBridge y Amazon S3)

  • Dinámica de expansión de la base de conocimientos, el uso de herramientas y la generación aumentada de recuperación (RAG)

Sin una planificación y una supervisión cuidadosas, las organizaciones corren el riesgo de que se produzcan picos de facturación inesperados, especialmente si se trata de modelos lingüísticos de gran tamaño (LLMs) o de ciclos de eventos ilimitados.

Por qué la optimización de costes es crucial en la IA sin servidores

Los siguientes factores contribuyen a los costes de los sistemas de IA sin servidor:

  • Selección del tamaño de LLM: los modelos de nivel superior (por ejemplo, Amazon Nova Premier) son significativamente más caros por token.

  • Longitud y verbosidad rápidas: las entradas y salidas más largas aumentan los costos de Amazon Bedrock de forma lineal.

  • Invocación masiva de herramientas: los agentes que utilizan demasiadas herramientas o que son redundantes pueden acumular comisiones por Lambda y por transferencia de datos.

  • Granularidad del flujo de trabajo de Step Functions: los flujos de trabajo demasiado fragmentados aumentan las transiciones de estado y la duración de la ejecución.

  • Movimiento de datos: el tráfico excesivo entre regiones, la indexación innecesaria de RAG o las consultas repetidas a la base de conocimientos pueden resultar costosos.

Estrategias de optimización de costos

Considere la posibilidad de implementar las siguientes estrategias para optimizar los costes de sus cargas de trabajo de IA sin servidor:

  • Utilice una selección de modelos escalonada: los modelos, como Amazon Nova, Amazon Titan y Anthropic Claude, ofrecen diferentes modelos de precios con ventajas en cuanto a coste, velocidad y precisión. Para implementar esta estrategia, dirija las solicitudes de baja complejidad a Amazon Nova Micro y escale solo cuando la confianza sea baja.

  • Recorte las indicaciones y los resultados: el recuento de fichas es el principal factor de costes en Amazon Bedrock. Para implementar esta estrategia, aplique el tamaño máximo de las solicitudes, utilice una redacción concisa y evite las terminaciones detalladas.

  • Controle el alcance de la recuperación del RAG: los documentos ilimitados de una base de conocimientos pueden ampliar el contexto. Para implementar esta estrategia, utilice los filtros de metadatos y la clasificación Top K. Además, inserte solo contenido relevante en el indicador LLM.

  • Eventos por lotes para inferencia: las llamadas de inferencia individuales son más costosas que el procesamiento por lotes. Para implementar esta estrategia, agrupe las entradas (por ejemplo, el análisis y el resumen de opiniones) y ejecute una única inferencia por lote.

  • Utilice Step Functions para la agregación, no para la microgestión: el uso excesivo de las transiciones de estado atómico provoca duraciones prolongadas. Para implementar esta estrategia, agrupe la lógica relacionada en unidades Lambda y evite los patrones de explosión de estado.

  • Gestión de respuestas asíncronas: no bloquee la computación esperando a que aparezcan modelos lentos. Para implementar esta estrategia, úsela EventBridgecon Amazon Simple Queue Service (Amazon SQS) y Lambda para los patrones de respuesta retardada (por ejemplo, resúmenes asíncronos).

  • Utilice etiquetas de asignación de costes de Amazon Bedrock: las etiquetas permiten la visibilidad según la aplicación y el equipo. Para implementar esta estrategia, aplique etiquetas estandarizadas a las llamadas de Amazon Bedrock (por ejemplo, Project=MarketingAI yTeam=GenOps).

  • Ajuste los reintentos y la lógica de confianza: los reintentos innecesarios o las cadenas alternativas aumentan los costos. Para implementar esta estrategia, utiliza umbrales de confianza estructurados y salidas anticipadas para limitar los reintentos.

  • Utilice el almacenamiento en caché para las llamadas a las herramientas: muchas invocaciones a las herramientas de los agentes repiten las recuperaciones de datos. Para implementar esta estrategia, almacene los resultados recientes de la herramienta en Amazon DynamoDB con el tiempo de vida (TTL) y reutilícelos si no ha cambiado.

  • Aproveche la simultaneidad reservada o la simultaneidad aprovisionada (si es necesario): en casos de gran volumen, esta estrategia reduce el arranque en frío y la incertidumbre de los costos. Implemente esta estrategia habilitándola solo para funciones con tráfico predecible y tiempos de calentamiento prolongados.

Ejemplo: asistente de IA generativa que tiene en cuenta los costes

Se crea un asistente de soporte con Amazon Bedrock Agents. También utiliza herramientas basadas en Lambda que están integradas para el acceso a los datos en tiempo real (por ejemplo, políticas de devoluciones y pedidos de los usuarios). Por último, utiliza una base de conocimientos que contiene documentos de productos y archivos PDF de políticas. FAQs

La función del asistente es la siguiente:

  1. Recibe solicitudes en lenguaje natural a través del chat (frontend) a través de Amazon API Gateway.

  2. Para cuestiones sencillas, como la búsqueda de políticas, hace lo siguiente:

    • Invoca un LLM ligero (Amazon Nova Lite) para formular una respuesta.

    • Extrae el contexto básico de la base de conocimientos de Amazon Bedrock.

  3. Para consultas más complejas, como la resolución en varios pasos, hace lo siguiente:

    • Activa a un agente de Amazon Bedrock con una orquestación orientada a objetivos.

    • Utiliza herramientas Lambda como getOrderStats(userId)initiateReturn(orderId), y. lookupDeliveryOptions(zipCode)

  4. La respuesta se procesa posteriormente para hacer lo siguiente:

    • Elimine la salida extraña.

    • Valide los mensajes alineados con las políticas.

    • Registre los datos de interacción.

Las siguientes estrategias de optimización de costes se aplican a este ejemplo de asistente de IA:

  • El enrutamiento de modelos por niveles reduce los costos al gestionar solicitudes más pequeñas con un modelo más pequeño. Este enfoque utiliza Amazon Nova Lite para las solicitudes tipo FAQ y Claude 3 Sonnet solo para el 10 por ciento de los casos que requieren razonamiento o varias llamadas a herramientas.

  • El recorte rápido y el control de las plantillas permiten mantener un uso uniforme y predecible desde el punto de vista económico. Las solicitudes están limitadas por símbolos y se crean a partir de plantillas estructuradas (por ejemplo, un máximo de 400 fichas con contexto).

  • El ámbito RAG contextual evita introducir documentos excesivos en un mensaje de LLM. La base de conocimientos limita la recuperación a las categorías de productos o dominios de políticas relevantes mediante el filtrado de metadatos.

  • El almacenamiento en caché de los resultados de las llamadas a las herramientas evita las invocaciones de Lambda duplicadas cuando los usuarios cambian de redacción. Los resultados de DynamoDB getOrderStatus y lookupReturnWindow se almacenan en caché con un TTL de 10 minutos.

  • La escalación de modelos basada en la confianza equilibra la calidad de la experiencia con el control de costos de LLM. Si la confianza en la respuesta de Amazon Nova Lite (medida mediante la estructura y la heurística de expresiones regulares) es baja, recurra a Anthropic Claude o a una cola de escalamiento humano.

  • El validador de respuestas Lambda reduce los tokens de salida innecesarios en aproximadamente un 25 por ciento. Este enfoque elimina las terminaciones detalladas de los modelos, formatea las respuestas en resultados concisos y registra el tamaño del token.

  • El etiquetado de costos permite generar FinOps informes por función y por entorno. Todas las llamadas de Amazon Bedrock están etiquetadas con Application=SupportAssistantEnvironment=Production, yTeam=CustomerSuccess.

Este ejemplo muestra cómo las opciones arquitectónicas inteligentes, como el enrutamiento de modelos por niveles, el almacenamiento en caché, la recuperación por alcance y la auditoría de inferencias, pueden reducir los costos operativos y, al mismo tiempo, ofrecer una automatización de soporte escalable y de alta calidad. El ejemplo del asistente de IA generativa proporciona una plantilla reutilizable que se aplica a todos los ámbitos, como los asistentes de recursos humanos, los servicios de asistencia de TI, los robots de incorporación de socios o los asistentes de formación de clientes. En cada caso, la plantilla puede ayudar a lograr un equilibrio entre rentabilidad, confianza y escalabilidad.

Supervisión y alertas para la optimización de costes

Lo siguiente Servicios de AWS ayuda a supervisar y optimizar los costes de las cargas de trabajo de IA sin servidor:

  • CloudWatchmetrics rastrea el uso del token de Amazon Bedrock, la duración de los pasos de Step Functions y el costo de la invocación de Lambda.

  • AWS Budgetsalerta a los equipos cuando se superan los umbrales de coste (por ejemplo, el coste diario del token).

  • AWS Cost Explorery Cost Categories proporcionan vistas del gasto por aplicación, equipo o modelo.

  • Los registros (mediante CloudWatch) de la API de Amazon Bedrock permiten analizar la estructura de las solicitudes y el tamaño de la respuesta.

  • Los registros de Amazon Athena y Amazon S3 admiten consultas puntuales o ad hoc sobre los datos de uso exportados AWS CloudTrail o los registros personalizados.

Señales de advertencia de optimización de costos

Supervise las siguientes señales para identificar posibles problemas de optimización de costos:

  • Aumento en el uso de los tokens: puede indicar un cambio inmediato, una nueva versión del modelo o una recuperación excesiva del RAG.

  • Aumento de la latencia de Amazon Bedrock: puede provocar duraciones de Lambda más largas y un aumento del costo por inferencia.

  • Aumento del número de llamadas a herramientas por sesión de agente: sugiere un uso indebido de las herramientas o una lógica de pronósticos ineficiente.

  • Pasos de Step Functions de larga duración: pueden deberse a estados de descomposición excesiva o a eventos asíncronos bloqueados.

  • Nivel de modelo infrautilizado: indica que se paga por una precisión de primer nivel en solicitudes de bajo riesgo.

Resumen de la optimización de costos

La optimización de costes en un entorno sin servidores basado en la IA no consiste únicamente en minimizar los gastos. Se trata de alinear el uso de la computación y los modelos con el valor empresarial de cada decisión. Con las estrategias adecuadas, las organizaciones pueden escalar de manera responsable y segura, equilibrando la innovación con el control de costos.

Al combinar estrategias de modelos escalonadas, una disciplina puntual y simbólica, la optimización del flujo de trabajo y la observabilidad y el etiquetado, las empresas pueden aprovechar al máximo las inversiones en IA sin sobrepasar el presupuesto.