Otimização de custos - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimização de custos

À medida que as cargas de trabalho sem servidor e de IA aumentam, a visibilidade e o controle de custos se tornam fundamentais para operações sustentáveis. Diferentemente da computação tradicional, em que os custos são previsíveis por hora de instância, os serviços de IA generativa e sem servidor introduzem novas dimensões de custo:

  • Custos de inferência por uso de token (por exemplo, Amazon Bedrock)

  • Cobrança por invocação (por exemplo, e) AWS Lambda AWS Step Functions

  • Acionadores orientados por volume de eventos (por exemplo, Amazon e Amazon EventBridge S3)

  • Base de conhecimento, chamada de ferramentas e dinâmica de expansão da Geração Aumentada de Recuperação (RAG)

Sem planejamento e monitoramento cuidadosos, as organizações correm o risco de picos inesperados de faturamento, especialmente com grandes modelos de linguagem (LLMs) ou ciclos de eventos ilimitados.

Por que a otimização de custos é crucial na IA sem servidor

Os seguintes fatores contribuem para os custos em sistemas de IA sem servidor:

  • Seleção de tamanho de LLM — Modelos de nível superior (por exemplo, Amazon Nova Premier) são significativamente mais caros por token.

  • Duração e verbosidade imediatas — Entradas e saídas mais longas aumentam linearmente os custos do Amazon Bedrock.

  • Expansão de invocações de ferramentas — Agentes que usam muitas ferramentas ou ferramentas redundantes podem acumular taxas de transferência de dados e Lambda.

  • Granularidade do fluxo de trabalho do Step Functions — fluxos de trabalho excessivamente fragmentados aumentam as transições de estado e a duração da execução.

  • Movimentação de dados — tráfego excessivo entre regiões, indexação de RAG desnecessária ou buscas repetidas na base de conhecimento podem se tornar caras.

Estratégias de otimização de custos

Considere implementar as seguintes estratégias para otimizar os custos em suas cargas de trabalho de IA sem servidor:

  • Use a seleção de modelos em camadas — Modelos como Amazon Nova, Amazon Titan e Anthropic Claude oferecem diferentes modelos de preços com compensações de custo, velocidade e precisão. Para implementar essa estratégia, encaminhe solicitações de baixa complexidade para o Amazon Nova Micro e escale somente quando a confiança estiver baixa.

  • Reduza solicitações e saídas — a contagem de tokens é o maior fator de custo no Amazon Bedrock. Para implementar essa estratégia, aplique o tamanho máximo do prompt, use frases concisas e evite conclusões detalhadas.

  • Controle o escopo de recuperação do RAG — Documentos ilimitados em uma base de conhecimento podem aumentar o contexto. Para implementar essa estratégia, use filtros de metadados e a classificação Top K. Além disso, injete somente conteúdo relevante no prompt do LLM.

  • Eventos em lote para inferência — as chamadas de inferência individuais são mais caras do que o processamento em lote. Para implementar essa estratégia, agrupe as entradas (por exemplo, análise e resumo de sentimentos) e execute uma única inferência por lote.

  • Use Step Functions para agregação, não para microgerenciamento — o uso excessivo de transições de estado atômico leva a longas durações. Para implementar essa estratégia, agrupe a lógica relacionada em unidades Lambda e evite padrões de explosão de estado.

  • Tratamento de respostas assíncronas — não bloqueie a computação esperando por modelos lentos. Para implementar essa estratégia, use EventBridgecom o Amazon Simple Queue Service (Amazon SQS) e o Lambda para padrões de resposta atrasada (por exemplo, resumo assíncrono).

  • Use as tags de alocação de custos do Amazon Bedrock — As tags permitem visibilidade de acordo com o aplicativo e a equipe. Para implementar essa estratégia, aplique tags padronizadas às chamadas do Amazon Bedrock (por exemplo, Project=MarketingAI eTeam=GenOps).

  • Ajuste a lógica de repetição e confiança — Tentativas desnecessárias ou cadeias alternativas aumentam os custos. Para implementar essa estratégia, use limites de confiança estruturados e saídas antecipadas para limitar as novas tentativas.

  • Use o cache para chamadas de ferramentas — Muitas invocações de ferramentas de agentes repetem as buscas de dados. Para implementar essa estratégia, armazene os resultados recentes da ferramenta no Amazon DynamoDB com o tempo de vida útil (TTL) e reutilize se não forem alterados.

  • Aproveite a simultaneidade reservada ou a simultaneidade provisionada (se necessário) — em casos de alto volume, essa estratégia reduz a inicialização a frio e a incerteza de custos. Implemente essa estratégia habilitando-a somente para funções com tráfego previsível e longos tempos de aquecimento.

Exemplo: assistente generativo de IA econômico

Um assistente de suporte é criado usando Amazon Bedrock Agents. Ele também usa ferramentas baseadas no Lambda que são integradas para acesso a dados em tempo real (por exemplo, pedidos de usuários e políticas de devolução). Por fim, ele usa uma base de conhecimento que contém documentos de FAQs produtos e arquivos PDF de políticas.

A função do assistente é a seguinte:

  1. Ele recebe solicitações de linguagem natural por meio de chat (frontend) por meio do Amazon API Gateway.

  2. Para perguntas simples, como pesquisas de políticas, ele faz o seguinte:

    • Invoca um LLM leve (Amazon Nova Lite) para formular uma resposta.

    • Extrai o contexto básico da base de conhecimento Amazon Bedrock.

  3. Para consultas mais complexas, como resolução em várias etapas, ele faz o seguinte:

    • Ativa um agente do Amazon Bedrock com orquestração orientada a objetivos.

    • Usa ferramentas Lambda como getOrderStats(userId)initiateReturn(orderId), e. lookupDeliveryOptions(zipCode)

  4. A resposta é pós-processada para fazer o seguinte:

    • Remova a saída estranha.

    • Valide as mensagens alinhadas às políticas.

    • Registre dados de interação.

As estratégias de otimização de custos a seguir se aplicam a esse exemplo de assistente de IA:

  • O roteamento hierárquico de modelos reduz os custos ao lidar com solicitações menores com um modelo menor. Essa abordagem usa o Amazon Nova Lite para solicitações no estilo de perguntas frequentes e o Claude 3 Sonnet para apenas 10% dos casos que exigem raciocínio ou várias chamadas de ferramentas.

  • O corte imediato e o controle do modelo mantêm o uso consistente e previsível em termos de custos. Os prompts são limitados por tokens e criados a partir de modelos estruturados (por exemplo, máximo de 400 tokens com contexto).

  • O escopo contextual do RAG evita a injeção de documentos em excesso em um prompt do LLM. A base de conhecimento limita a recuperação a categorias de produtos ou domínios de políticas relevantes usando a filtragem de metadados.

  • O armazenamento em cache dos resultados das chamadas de ferramentas evita invocações duplicadas do Lambda quando os usuários reformulam a frase. Os resultados getOrderStatus e lookupReturnWindow são armazenados em cache no DynamoDB com um TTL de 10 minutos.

  • O escalonamento de modelos baseado em confiança equilibra a qualidade da experiência com o controle de custos do LLM. Se a confiança de resposta do Amazon Nova Lite (medida pela estrutura e heurística de regex) for baixa, recorra a Anthropic Claude ou a uma fila de escalonamento humana.

  • O validador de respostas Lambda reduz os tokens de saída desnecessários em aproximadamente 25%. Essa abordagem elimina as conclusões detalhadas do modelo, formata as respostas em saídas concisas e registra o tamanho do token.

  • A marcação de custos permite a FinOps geração de relatórios por função e por ambiente. Todas as chamadas do Amazon Bedrock são marcadas com Application=SupportAssistantEnvironment=Production, e. Team=CustomerSuccess

Este exemplo mostra como escolhas arquitetônicas inteligentes, como roteamento de modelos em camadas, armazenamento em cache, recuperação de escopo e auditoria de inferência, podem reduzir os custos operacionais e, ao mesmo tempo, oferecer automação de suporte escalável e de alta qualidade. O exemplo do assistente generativo de IA fornece um modelo reutilizável que se aplica a vários domínios, como assistentes de RH, helpdesks de TI, bots de integração de parceiros ou assistentes de educação de clientes. Em cada caso, o modelo pode ajudar a alcançar um equilíbrio entre eficiência de custos, confiança e escala.

Monitoramento e alertas para otimização de custos

O seguinte Serviços da AWS ajuda a monitorar e otimizar os custos em cargas de trabalho de IA sem servidor:

  • CloudWatchas métricas rastreiam o uso do token Amazon Bedrock, a duração das etapas do Step Functions e o custo de invocação do Lambda.

  • AWS Budgetsalerta as equipes quando os limites de custo são violados (por exemplo, custo diário do token).

  • AWS Cost Explorere Cost Categories fornecem visualizações dos gastos por aplicativo, equipe ou modelo.

  • Os registros da API Amazon Bedrock (por meio de CloudWatch) permitem a análise da estrutura imediata e do tamanho da resposta.

  • Os logs do Amazon Athena e do Amazon S3 oferecem suporte a consultas únicas ou ad hoc sobre dados de uso exportados de ou registros personalizados. AWS CloudTrail

Sinais de alerta de otimização de custos

Monitore os seguintes sinais para identificar possíveis problemas de otimização de custos:

  • Aumento no uso de tokens — Pode indicar uma mudança imediata, uma nova versão do modelo ou uma recuperação excessiva de RAG.

  • Aumento na latência do Amazon Bedrock — pode levar a durações mais longas do Lambda e a um aumento do custo por inferência.

  • Aumento nas chamadas de ferramentas por sessão do agente — sugere uso indevido da ferramenta ou lógica de alerta ineficiente.

  • Etapas de longa duração do Step Functions — Podem resultar de estados superdecompostos ou eventos assíncronos bloqueados.

  • Nível de modelo subutilizado — indica o pagamento pela precisão de nível superior em solicitações de baixo risco.

Resumo da otimização de custos

A otimização de custos em sistemas sem servidor orientados por IA não se trata apenas de minimizar os gastos. Trata-se de alinhar o uso da computação e do modelo ao valor comercial de cada decisão. Com as estratégias certas, as organizações podem escalar com responsabilidade e confiança, equilibrando inovação com controle de custos.

Ao combinar estratégias de modelos em camadas, disciplina rápida e simbólica, ajuste do fluxo de trabalho, observabilidade e marcação, as empresas podem extrair o máximo valor dos investimentos em IA sem estourar o orçamento.