As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Otimização de custos
<a name="cost-optimization"></a>

À medida que as cargas de trabalho sem servidor e de IA aumentam, a visibilidade e o controle de custos se tornam fundamentais para operações sustentáveis. Diferentemente da computação tradicional, em que os custos são previsíveis por hora de instância, os serviços de IA generativa e sem servidor introduzem novas dimensões de custo:
+ Custos de inferência por uso de token (por exemplo, Amazon Bedrock)
+ Cobrança por invocação (por exemplo, e) AWS Lambda AWS Step Functions
+ Acionadores orientados por volume de eventos (por exemplo, Amazon e Amazon EventBridge S3)
+ Base de conhecimento, chamada de ferramentas e dinâmica de expansão da Geração Aumentada de Recuperação (RAG)

Sem planejamento e monitoramento cuidadosos, as organizações correm o risco de picos inesperados de faturamento, especialmente com grandes modelos de linguagem (LLMs) ou ciclos de eventos ilimitados.

## Por que a otimização de custos é crucial na IA sem servidor
<a name="section-cost-importance"></a>

Os seguintes fatores contribuem para os custos em sistemas de IA sem servidor:
+ **Seleção de tamanho de LLM** — Modelos de nível superior (por exemplo, [Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html) Premier) são significativamente mais caros por token.
+ **Duração e verbosidade imediatas** — Entradas e saídas mais longas aumentam linearmente os custos do Amazon Bedrock.
+ Expansão de **invocações de ferramentas** — Agentes que usam muitas ferramentas ou ferramentas redundantes podem acumular taxas de transferência de dados e Lambda.
+ **Granularidade do fluxo de trabalho do Step Functions** — fluxos de trabalho excessivamente fragmentados aumentam as transições de estado e a duração da execução.
+ **Movimentação de dados** — tráfego excessivo entre regiões, indexação de RAG desnecessária ou buscas repetidas na base de conhecimento podem se tornar caras.

## Estratégias de otimização de custos
<a name="section-cost-strategies"></a>

Considere implementar as seguintes estratégias para otimizar os custos em suas cargas de trabalho de IA sem servidor:
+ **Use a seleção de modelos em camadas** — Modelos como Amazon Nova, Amazon Titan e Anthropic Claude oferecem diferentes modelos de preços com compensações de custo, velocidade e precisão. Para implementar essa estratégia, encaminhe solicitações de baixa complexidade para o Amazon Nova Micro e escale somente quando a confiança estiver baixa.
+ **Reduza solicitações e saídas** — a contagem de tokens é o maior fator de custo no Amazon Bedrock. Para implementar essa estratégia, aplique o tamanho máximo do prompt, use frases concisas e evite conclusões detalhadas.
+ **Controle o escopo de recuperação do RAG** — Documentos ilimitados em uma base de conhecimento podem aumentar o contexto. Para implementar essa estratégia, use filtros de metadados e a classificação Top K. Além disso, injete somente conteúdo relevante no prompt do LLM.
+ **Eventos em lote para inferência** — as chamadas de inferência individuais são mais caras do que o processamento em lote. Para implementar essa estratégia, agrupe as entradas (por exemplo, análise e resumo de sentimentos) e execute uma única inferência por lote.
+ **Use Step Functions para agregação, não para microgerenciamento** — o uso excessivo de transições de estado atômico leva a longas durações. Para implementar essa estratégia, agrupe a lógica relacionada em unidades Lambda e evite padrões de explosão de estado.
+ **Tratamento de respostas assíncronas** — não bloqueie a computação esperando por modelos lentos. Para implementar essa estratégia, use [EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)com o [Amazon Simple Queue Service](https://docs.aws.amazon.com/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html) (Amazon SQS) e o Lambda para padrões de resposta atrasada (por exemplo, resumo assíncrono).
+ **Use as tags de alocação de custos do Amazon Bedrock — As** tags permitem visibilidade de acordo com o aplicativo e a equipe. Para implementar essa estratégia, aplique tags padronizadas às chamadas do Amazon Bedrock (por exemplo, `Project=MarketingAI` e`Team=GenOps`).
+ **Ajuste a lógica de repetição e confiança — Tentativas** desnecessárias ou cadeias alternativas aumentam os custos. Para implementar essa estratégia, use limites de confiança estruturados e saídas antecipadas para limitar as novas tentativas.
+ **Use o cache para chamadas de ferramentas** — Muitas invocações de ferramentas de agentes repetem as buscas de dados. Para implementar essa estratégia, armazene os resultados recentes da ferramenta no [Amazon DynamoDB](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/Introduction.html) com o tempo de vida útil (TTL) e reutilize se não forem alterados.
+ **Aproveite a simultaneidade reservada ou a simultaneidade provisionada** (se necessário) — em casos de alto volume, essa estratégia reduz a inicialização a frio e a incerteza de custos. Implemente essa estratégia habilitando-a somente para funções com tráfego previsível e longos tempos de aquecimento.

## Exemplo: assistente generativo de IA econômico
<a name="section-cost-example-assistant"></a>

Um assistente de suporte é criado usando [Amazon Bedrock Agents](https://docs.aws.amazon.com/bedrock/latest/userguide/agents-how.html). Ele também usa ferramentas baseadas no Lambda que são integradas para acesso a dados em tempo real (por exemplo, pedidos de usuários e políticas de devolução). Por fim, ele usa uma base de conhecimento que contém documentos de FAQs produtos e arquivos PDF de políticas.

A função do assistente é a seguinte:

1. Ele recebe solicitações de linguagem natural por meio de chat (frontend) por meio do [Amazon API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html).

1. Para perguntas simples, como pesquisas de políticas, ele faz o seguinte:
   + Invoca um LLM leve (Amazon Nova Lite) para formular uma resposta.
   + Extrai o contexto básico da base de conhecimento Amazon Bedrock.

1. Para consultas mais complexas, como resolução em várias etapas, ele faz o seguinte:
   + Ativa um agente do Amazon Bedrock com orquestração orientada a objetivos.
   + Usa ferramentas Lambda como `getOrderStats(userId)``initiateReturn(orderId)`, e. `lookupDeliveryOptions(zipCode)`

1. A resposta é pós-processada para fazer o seguinte:
   + Remova a saída estranha.
   + Valide as mensagens alinhadas às políticas.
   + Registre dados de interação.

As estratégias de otimização de custos a seguir se aplicam a esse exemplo de assistente de IA:
+ O **roteamento hierárquico de modelos** reduz os custos ao lidar com solicitações menores com um modelo menor. Essa abordagem usa o Amazon Nova Lite para solicitações no estilo de perguntas frequentes e o Claude 3 Sonnet para apenas 10% dos casos que exigem raciocínio ou várias chamadas de ferramentas.
+ O **corte imediato e o controle do modelo mantêm o uso** consistente e previsível em termos de custos. Os prompts são limitados por tokens e criados a partir de modelos estruturados (por exemplo, máximo de 400 tokens com contexto).
+ O **escopo contextual do RAG** evita a injeção de documentos em excesso em um prompt do LLM. A base de conhecimento limita a recuperação a categorias de produtos ou domínios de políticas relevantes usando a filtragem de metadados.
+ O armazenamento em **cache dos resultados das chamadas de ferramentas** evita invocações duplicadas do Lambda quando os usuários reformulam a frase. Os resultados `getOrderStatus` e `lookupReturnWindow` são armazenados em cache no DynamoDB com um TTL de 10 minutos.
+ O **escalonamento de modelos baseado em confiança** equilibra a qualidade da experiência com o controle de custos do LLM. Se a confiança de resposta do Amazon Nova Lite (medida pela estrutura e heurística de regex) for baixa, recorra a Anthropic Claude ou a uma fila de escalonamento humana.
+ O **validador de respostas Lambda** reduz os tokens de saída desnecessários em aproximadamente 25%. Essa abordagem elimina as conclusões detalhadas do modelo, formata as respostas em saídas concisas e registra o tamanho do token.
+ A **marcação de custos** permite a FinOps geração de relatórios por função e por ambiente. Todas as chamadas do Amazon Bedrock são marcadas com `Application=SupportAssistant``Environment=Production`, e. `Team=CustomerSuccess`

Este exemplo mostra como escolhas arquitetônicas inteligentes, como roteamento de modelos em camadas, armazenamento em cache, recuperação de escopo e auditoria de inferência, podem reduzir os custos operacionais e, ao mesmo tempo, oferecer automação de suporte escalável e de alta qualidade. O exemplo do assistente generativo de IA fornece um modelo reutilizável que se aplica a vários domínios, como assistentes de RH, helpdesks de TI, bots de integração de parceiros ou assistentes de educação de clientes. Em cada caso, o modelo pode ajudar a alcançar um equilíbrio entre eficiência de custos, confiança e escala.

## Monitoramento e alertas para otimização de custos
<a name="section-cost-monitoring"></a>

O seguinte Serviços da AWS ajuda a monitorar e otimizar os custos em cargas de trabalho de IA sem servidor:
+ [CloudWatchas métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) rastreiam o uso do token Amazon Bedrock, a duração das etapas do Step Functions e o custo de invocação do Lambda.
+ [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)alerta as equipes quando os limites de custo são violados (por exemplo, custo diário do token).
+ [AWS Cost Explorer](https://docs.aws.amazon.com/cost-management/latest/userguide/ce-what-is.html)e [Cost Categories](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/manage-cost-categories.html) fornecem visualizações dos gastos por aplicativo, equipe ou modelo.
+ Os registros da [API Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring.html#br-cloudwatch-metrics) (por meio de CloudWatch) permitem a análise da estrutura imediata e do tamanho da resposta.
+ Os logs do [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/what-is.html) e do [Amazon](https://docs.aws.amazon.com/AmazonS3/latest/userguide/monitoring-overview.html) S3 oferecem suporte a consultas únicas ou ad hoc sobre dados de uso exportados de ou registros personalizados. AWS CloudTrail 

## Sinais de alerta de otimização de custos
<a name="section-cost-warning-signals"></a>

Monitore os seguintes sinais para identificar possíveis problemas de otimização de custos:
+ **Aumento no uso de tokens** — Pode indicar uma mudança imediata, uma nova versão do modelo ou uma recuperação excessiva de RAG.
+ **Aumento na latência do Amazon Bedrock** — pode levar a durações mais longas do Lambda e a um aumento do custo por inferência.
+ **Aumento nas chamadas de ferramentas por sessão do agente** — sugere uso indevido da ferramenta ou lógica de alerta ineficiente.
+ **Etapas de longa duração do Step Functions** — Podem resultar de estados superdecompostos ou eventos assíncronos bloqueados.
+ **Nível de modelo subutilizado** — indica o pagamento pela precisão de nível superior em solicitações de baixo risco.

## Resumo da otimização de custos
<a name="section-cost-summary"></a>

A otimização de custos em sistemas sem servidor orientados por IA não se trata apenas de minimizar os gastos. Trata-se de alinhar o uso da computação e do modelo ao valor comercial de cada decisão. Com as estratégias certas, as organizações podem escalar com responsabilidade e confiança, equilibrando inovação com controle de custos.

Ao combinar estratégias de modelos em camadas, disciplina rápida e simbólica, ajuste do fluxo de trabalho, observabilidade e marcação, as empresas podem extrair o máximo valor dos investimentos em IA sem estourar o orçamento.