

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Optimización de costos
<a name="cost-optimization"></a>

A medida que aumentan las cargas de trabajo de IA y sin servidor, la visibilidad y el control de los costes se convierten en elementos fundamentales de las operaciones sostenibles. A diferencia de la informática tradicional, en la que los costes son predecibles por hora de instancia, los servicios de IA generativa y sin servidor introducen nuevas dimensiones de costes:
+ Costos de inferencia por uso de fichas (por ejemplo, Amazon Bedrock)
+ Facturación por invocación (por ejemplo, y) AWS Lambda AWS Step Functions
+ Activadores basados en el volumen de eventos (por ejemplo, Amazon EventBridge y Amazon S3)
+ Dinámica de expansión de la base de conocimientos, el uso de herramientas y la generación aumentada de recuperación (RAG)

Sin una planificación y una supervisión cuidadosas, las organizaciones corren el riesgo de que se produzcan picos de facturación inesperados, especialmente si se trata de modelos lingüísticos de gran tamaño (LLMs) o de ciclos de eventos ilimitados.

## Por qué la optimización de costes es crucial en la IA sin servidores
<a name="section-cost-importance"></a>

Los siguientes factores contribuyen a los costes de los sistemas de IA sin servidor:
+ **Selección del tamaño de LLM**: los modelos de nivel superior (por ejemplo, [Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html) Premier) son significativamente más caros por token.
+ **Longitud y verbosidad rápidas**: las entradas y salidas más largas aumentan los costos de Amazon Bedrock de forma lineal.
+ **Invocación masiva de herramientas: los** agentes que utilizan demasiadas herramientas o que son redundantes pueden acumular comisiones por Lambda y por transferencia de datos.
+ **Granularidad del flujo de trabajo de Step Functions**: los flujos de trabajo demasiado fragmentados aumentan las transiciones de estado y la duración de la ejecución.
+ **Movimiento de datos: el** tráfico excesivo entre regiones, la indexación innecesaria de RAG o las consultas repetidas a la base de conocimientos pueden resultar costosos.

## Estrategias de optimización de costos
<a name="section-cost-strategies"></a>

Considere la posibilidad de implementar las siguientes estrategias para optimizar los costes de sus cargas de trabajo de IA sin servidor:
+ **Utilice una selección de modelos escalonada**: los modelos, como Amazon Nova, Amazon Titan y Anthropic Claude, ofrecen diferentes modelos de precios con ventajas en cuanto a coste, velocidad y precisión. Para implementar esta estrategia, dirija las solicitudes de baja complejidad a Amazon Nova Micro y escale solo cuando la confianza sea baja.
+ **Recorte las indicaciones y los resultados**: el recuento de fichas es el principal factor de costes en Amazon Bedrock. Para implementar esta estrategia, aplique el tamaño máximo de las solicitudes, utilice una redacción concisa y evite las terminaciones detalladas.
+ **Controle el alcance de la recuperación del RAG**: los documentos ilimitados de una base de conocimientos pueden ampliar el contexto. Para implementar esta estrategia, utilice los filtros de metadatos y la clasificación Top K. Además, inserte solo contenido relevante en el indicador LLM.
+ **Eventos por lotes para inferencia**: las llamadas de inferencia individuales son más costosas que el procesamiento por lotes. Para implementar esta estrategia, agrupe las entradas (por ejemplo, el análisis y el resumen de opiniones) y ejecute una única inferencia por lote.
+ **Utilice Step Functions para la agregación, no para la microgestión**: el uso excesivo de las transiciones de estado atómico provoca duraciones prolongadas. Para implementar esta estrategia, agrupe la lógica relacionada en unidades Lambda y evite los patrones de explosión de estado.
+ **Gestión de respuestas asíncronas**: no bloquee la computación esperando a que aparezcan modelos lentos. Para implementar esta estrategia, úsela [EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)con [Amazon Simple Queue Service](https://docs.aws.amazon.com/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html) (Amazon SQS) y Lambda para los patrones de respuesta retardada (por ejemplo, resúmenes asíncronos).
+ **Utilice etiquetas de asignación de costes de Amazon Bedrock**: las etiquetas permiten la visibilidad según la aplicación y el equipo. Para implementar esta estrategia, aplique etiquetas estandarizadas a las llamadas de Amazon Bedrock (por ejemplo, `Project=MarketingAI` y`Team=GenOps`).
+ **Ajuste los reintentos y la lógica de confianza**: los reintentos innecesarios o las cadenas alternativas aumentan los costos. Para implementar esta estrategia, utiliza umbrales de confianza estructurados y salidas anticipadas para limitar los reintentos.
+ **Utilice el almacenamiento en caché para las llamadas a las herramientas**: muchas invocaciones a las herramientas de los agentes repiten las recuperaciones de datos. Para implementar esta estrategia, almacene los resultados recientes de la herramienta en [Amazon DynamoDB](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/Introduction.html) con el tiempo de vida (TTL) y reutilícelos si no ha cambiado.
+ **Aproveche la simultaneidad reservada o la simultaneidad aprovisionada** (si es necesario): en casos de gran volumen, esta estrategia reduce el arranque en frío y la incertidumbre de los costos. Implemente esta estrategia habilitándola solo para funciones con tráfico predecible y tiempos de calentamiento prolongados.

## Ejemplo: asistente de IA generativa que tiene en cuenta los costes
<a name="section-cost-example-assistant"></a>

Se crea un asistente de soporte con [Amazon Bedrock Agents](https://docs.aws.amazon.com/bedrock/latest/userguide/agents-how.html). También utiliza herramientas basadas en Lambda que están integradas para el acceso a los datos en tiempo real (por ejemplo, políticas de devoluciones y pedidos de los usuarios). Por último, utiliza una base de conocimientos que contiene documentos de productos y archivos PDF de políticas. FAQs

La función del asistente es la siguiente:

1. Recibe solicitudes en lenguaje natural a través del chat (frontend) a través de [Amazon API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html).

1. Para cuestiones sencillas, como la búsqueda de políticas, hace lo siguiente:
   + Invoca un LLM ligero (Amazon Nova Lite) para formular una respuesta.
   + Extrae el contexto básico de la base de conocimientos de Amazon Bedrock.

1. Para consultas más complejas, como la resolución en varios pasos, hace lo siguiente:
   + Activa a un agente de Amazon Bedrock con una orquestación orientada a objetivos.
   + Utiliza herramientas Lambda como `getOrderStats(userId)``initiateReturn(orderId)`, y. `lookupDeliveryOptions(zipCode)`

1. La respuesta se procesa posteriormente para hacer lo siguiente:
   + Elimine la salida extraña.
   + Valide los mensajes alineados con las políticas.
   + Registre los datos de interacción.

Las siguientes estrategias de optimización de costes se aplican a este ejemplo de asistente de IA:
+ El **enrutamiento de modelos por niveles** reduce los costos al gestionar solicitudes más pequeñas con un modelo más pequeño. Este enfoque utiliza Amazon Nova Lite para las solicitudes tipo FAQ y Claude 3 Sonnet solo para el 10 por ciento de los casos que requieren razonamiento o varias llamadas a herramientas.
+ El **recorte rápido y el control de las plantillas permiten mantener un uso uniforme y predecible desde el punto de vista** económico. Las solicitudes están limitadas por símbolos y se crean a partir de plantillas estructuradas (por ejemplo, un máximo de 400 fichas con contexto).
+ El **ámbito RAG contextual evita introducir documentos excesivos en** un mensaje de LLM. La base de conocimientos limita la recuperación a las categorías de productos o dominios de políticas relevantes mediante el filtrado de metadatos.
+ El almacenamiento en **caché de los resultados de las llamadas a las herramientas** evita las invocaciones de Lambda duplicadas cuando los usuarios cambian de redacción. Los resultados de DynamoDB `getOrderStatus` y `lookupReturnWindow` se almacenan en caché con un TTL de 10 minutos.
+ La **escalación de modelos basada en la confianza** equilibra la calidad de la experiencia con el control de costos de LLM. Si la confianza en la respuesta de Amazon Nova Lite (medida mediante la estructura y la heurística de expresiones regulares) es baja, recurra a Anthropic Claude o a una cola de escalamiento humano.
+ El **validador de respuestas Lambda** reduce los tokens de salida innecesarios en aproximadamente un 25 por ciento. Este enfoque elimina las terminaciones detalladas de los modelos, formatea las respuestas en resultados concisos y registra el tamaño del token.
+ **El etiquetado de costos permite generar** FinOps informes por función y por entorno. Todas las llamadas de Amazon Bedrock están etiquetadas con `Application=SupportAssistant``Environment=Production`, y`Team=CustomerSuccess`.

Este ejemplo muestra cómo las opciones arquitectónicas inteligentes, como el enrutamiento de modelos por niveles, el almacenamiento en caché, la recuperación por alcance y la auditoría de inferencias, pueden reducir los costos operativos y, al mismo tiempo, ofrecer una automatización de soporte escalable y de alta calidad. El ejemplo del asistente de IA generativa proporciona una plantilla reutilizable que se aplica a todos los ámbitos, como los asistentes de recursos humanos, los servicios de asistencia de TI, los robots de incorporación de socios o los asistentes de formación de clientes. En cada caso, la plantilla puede ayudar a lograr un equilibrio entre rentabilidad, confianza y escalabilidad.

## Supervisión y alertas para la optimización de costes
<a name="section-cost-monitoring"></a>

Lo siguiente Servicios de AWS ayuda a supervisar y optimizar los costes de las cargas de trabajo de IA sin servidor:
+ [CloudWatchmetrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) rastrea el uso del token de Amazon Bedrock, la duración de los pasos de Step Functions y el costo de la invocación de Lambda.
+ [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)alerta a los equipos cuando se superan los umbrales de coste (por ejemplo, el coste diario del token).
+ [AWS Cost Explorer](https://docs.aws.amazon.com/cost-management/latest/userguide/ce-what-is.html)y [Cost Categories](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/manage-cost-categories.html) proporcionan vistas del gasto por aplicación, equipo o modelo.
+ Los registros (mediante CloudWatch) de la [API de Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring.html#br-cloudwatch-metrics) permiten analizar la estructura de las solicitudes y el tamaño de la respuesta.
+ Los registros de [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/what-is.html) y [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/monitoring-overview.html) admiten consultas puntuales o ad hoc sobre los datos de uso exportados AWS CloudTrail o los registros personalizados.

## Señales de advertencia de optimización de costos
<a name="section-cost-warning-signals"></a>

Supervise las siguientes señales para identificar posibles problemas de optimización de costos:
+ **Aumento en el uso de los tokens**: puede indicar un cambio inmediato, una nueva versión del modelo o una recuperación excesiva del RAG.
+ **Aumento de la latencia de Amazon Bedrock**: puede provocar duraciones de Lambda más largas y un aumento del costo por inferencia.
+ **Aumento del número de llamadas a herramientas por sesión de agente**: sugiere un uso indebido de las herramientas o una lógica de pronósticos ineficiente.
+ **Pasos de Step Functions de larga duración**: pueden deberse a estados de descomposición excesiva o a eventos asíncronos bloqueados.
+ Nivel de **modelo infrautilizado: indica que se paga por una precisión de primer nivel** en solicitudes de bajo riesgo.

## Resumen de la optimización de costos
<a name="section-cost-summary"></a>

La optimización de costes en un entorno sin servidores basado en la IA no consiste únicamente en minimizar los gastos. Se trata de alinear el uso de la computación y los modelos con el valor empresarial de cada decisión. Con las estrategias adecuadas, las organizaciones pueden escalar de manera responsable y segura, equilibrando la innovación con el control de costos.

Al combinar estrategias de modelos escalonadas, una disciplina puntual y simbólica, la optimización del flujo de trabajo y la observabilidad y el etiquetado, las empresas pueden aprovechar al máximo las inversiones en IA sin sobrepasar el presupuesto.