As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Fluxos de trabalho do LLM
<a name="llm-workflows"></a>

Em padrões de agentes, exploramos os padrões comuns de agentes de IA, cada um construído em torno de um conjunto de recursos modulares: percepção, ação, aprendizado e cognição. No centro do módulo cognitivo em muitos padrões de agentes está um grande modelo de linguagem (LLM) capaz de raciocinar, planejar e tomar decisões. No entanto, invocar um LLM sozinho não é suficiente para produzir um comportamento inteligente e direcionado a objetivos.

Para realizar tarefas complexas de forma confiável, os agentes devem incorporar o LLM em um fluxo de trabalho estruturado, onde os recursos do modelo são aumentados com ferramentas, memória, ciclos de planejamento e lógica de coordenação. Esses fluxos de trabalho de LLM permitem que um agente defina metas, encaminhe subtarefas, chame serviços externos, reflita sobre os resultados e se coordene com outros agentes.

Este capítulo apresenta os principais padrões de design para criar módulos cognitivos robustos, extensíveis e inteligentes orientados por LLM, organizados em torno de fluxos de trabalho reutilizáveis.

**Topics**
+ [Visão geral da cognição aumentada por LLM](overview-of-llm-augmented-cognition.md)
+ [Fluxo de trabalho para encadeamento imediato](workflow-for-prompt-chaining.md)
+ [Fluxo de trabalho para roteamento](workflow-for-routing.md)
+ [Fluxo de trabalho para paralelização](workflow-for-parallelization.md)
+ [Fluxo de trabalho para orquestração](workflow-for-orchestration.md)
+ [Fluxo de trabalho para avaliadores e ciclos de reflexão e refinamento](workflow-for-evaluators-and-reflect-refine-loops.md)
+ [Conclusão](conclusion-llm-workflows.md)

# Visão geral da cognição aumentada por LLM
<a name="overview-of-llm-augmented-cognition"></a>

Em sua essência, o módulo cognitivo de um agente de software pode ser visto como um LLM envolto em aprimoramentos. O agente pode usar os seguintes elementos básicos para raciocinar de forma eficaz em seu ambiente:
+ **Solicitação** — enquadrando a entrada usando contexto, instruções, exemplos e memória
+ **Recuperação** — Fornecimento up-to-date de conhecimento específico de domínio para o prompt do LLM por meio de pesquisa vetorial ou memória semântica, por exemplo, por meio de geração aumentada de recuperação (RAG)
+ **Uso da ferramenta** — Permitindo que o LLM invoque APIs ou chame funções para recuperar ou agir sobre as informações
+ **Memória** — Incorporar um estado persistente ou baseado em sessão ao ciclo de raciocínio, usando bancos de dados estruturados ou resumos contextuais

Esses aumentos são compostos por fluxos de trabalho que definem como o LLM é usado ao longo do tempo e em todas as tarefas, transformando-o de um mecanismo sem estado em um agente de raciocínio dinâmico.

![\[Aumento do LLM.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/llm-augmentation.png)


# Fluxo de trabalho para encadeamento imediato
<a name="workflow-for-prompt-chaining"></a>

O encadeamento imediato decompõe tarefas complexas em uma sequência de etapas, em que cada etapa é uma invocação LLM discreta que processa ou se baseia na saída da anterior.

![\[Fluxo de trabalho para encadeamento imediato.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/workflow-for-prompt-chaining.png)


O fluxo de trabalho de encadeamento imediato é adequado para cenários em que as tarefas podem ser divididas logicamente em etapas de raciocínio sequencial e em que os resultados intermediários informam o próximo estágio. Ele se destaca em fluxos de trabalho que exigem pensamento estruturado, transformação progressiva ou análise em camadas, como revisão de documentos, geração de código, extração de conhecimento e refinamento de conteúdo.

## Description
<a name="description-prompt-chaining"></a>
+ A complexidade da tarefa excede a janela de contexto ou a profundidade de raciocínio de uma única chamada LLM.
+ Os resultados de uma etapa (por exemplo, análise, resumo ou planejamento) se tornam entradas para uma decisão de acompanhamento ou fase de geração.
+ Você precisa de transparência e controle em todos os estágios de raciocínio (por exemplo, resultados intermediários auditáveis).
+ Você deseja conectar a lógica externa de validação, filtragem ou enriquecimento entre as etapas.
+ É ideal para agentes que operam em ciclos de raciocínio no estilo pipeline, como agentes de pesquisa, assistentes editoriais, sistemas de planejamento e copilotos de vários estágios.

## Capacidades
<a name="capabilities-prompt-chaining"></a>
+ Cadeias lineares ou ramificadas de chamadas LLM
+ Resultados intermediários passados como entrada estruturada ou incorporados em solicitações de acompanhamento
+ Pode ser orquestrado com AWS Step Functions, ou com corredores AWS Lambda específicos do agente

## Casos de uso comuns
<a name="common-use-cases-prompt-chaining"></a>
+ Tarefas de raciocínio em várias etapas (por exemplo, “resumir, reescrever uma crítica”)
+ Assistentes de pesquisa sintetizando resultados em camadas (por exemplo, “pesquisar, extrair fatos, responder à pergunta”)
+ Pipelines de geração de código (“gerar plano, escrever código de teste, explicar a saída”)

# Fluxo de trabalho para roteamento
<a name="workflow-for-routing"></a>

No padrão de roteamento, um classificador ou agente de roteador usa um LLM para interpretar a intenção ou a categoria de uma consulta e, em seguida, encaminha a entrada para uma tarefa ou agente downstream especializado.

![\[Fluxo de trabalho para roteamento.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/workflow-for-routing.png)


O fluxo de trabalho de roteamento é usado em cenários em que um agente deve classificar rapidamente a intenção de entrada, o tipo de tarefa ou o domínio e, em seguida, delegar a solicitação a um subagente, ferramenta ou fluxo de trabalho especializado. É especialmente útil em agentes capacitados, como aqueles que atuam como assistentes gerais, portas de entrada para funções corporativas ou interfaces de IA voltadas para o usuário que abrangem domínios.

O roteamento é particularmente eficaz quando:
+ Triagem de solicitações em uma variedade de tarefas (por exemplo, pesquisa, resumo, agendamento, cálculos).
+ As entradas devem ser pré-processadas ou normalizadas antes de entrar em fluxos de trabalho mais especializados.
+ Diferentes tipos de entrada (por exemplo, imagens versus texto, consultas estruturadas versus consultas não estruturadas) exigem tratamento personalizado.
+ Um agente está atuando como uma central telefônica conversacional, delegando tarefas a agentes especializados ou microsserviços.
+ Esse fluxo de trabalho é comum em copilotos específicos de domínio, bots de suporte ao cliente, roteadores de serviços corporativos e agentes multimodais, nos quais o despacho inteligente determina a qualidade e a eficiência do comportamento do agente.

## Capacidades
<a name="capabilities-routing"></a>
+ Um LLM de primeira passagem atua como despachante
+ As rotas podem invocar fluxos de trabalho distintos ou até mesmo outros padrões de agentes
+ Oferece suporte à expansão modular dos recursos

## Casos de uso comuns
<a name="common-use-cases-routing"></a>
+ Assistentes de vários domínios (“essa é uma questão legal, médica ou financeira?”)
+ Árvores de decisão aprimoradas com o raciocínio LLM
+ Seleção dinâmica de ferramentas (por exemplo, pesquisa versus geração de código)

# Fluxo de trabalho para paralelização
<a name="workflow-for-parallelization"></a>

Esse fluxo de trabalho envolve dividir uma tarefa em subtarefas independentes que podem ser tratadas simultaneamente por várias chamadas ou agentes do LLM. As saídas são então agregadas programaticamente e sintetizadas em um resultado.

![\[Fluxo de trabalho para paralelização.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/workflow-patterns-llm-parallelization.png)


O fluxo de trabalho de paralelização é usado quando uma tarefa pode ser dividida em subtarefas independentes e não sequenciais que podem ser processadas simultaneamente, melhorando significativamente a eficiência, a produtividade e a escalabilidade. É especialmente poderoso em espaços problemáticos com muitos dados, orientados por lotes ou multiperspectivas, nos quais o agente deve analisar ou gerar conteúdo em várias entradas.

A paralelização é particularmente eficaz quando:
+ As subtarefas não dependem dos resultados intermediários umas das outras, permitindo que elas sejam executadas paralelamente sem coordenação.
+ Uma tarefa envolve repetir o mesmo processo de raciocínio em vários itens (por exemplo, resumir vários documentos ou avaliar uma lista de opções).
+ Várias hipóteses ou perspectivas são exploradas paralelamente para promover diversidade, criatividade ou robustez.
+ Você precisa reduzir a latência para solicitações de alto volume ou alta frequência por meio da execução simultânea do LLM.
+ Esse fluxo de trabalho é comumente usado em agentes de processamento de documentos, mecanismos de pesquisa ou comparação, resumos de lotes, brainstormers multiagentes e tarefas escaláveis de classificação ou rotulagem, especialmente quando o raciocínio rápido e paralelo é uma vantagem de desempenho.

## Capacidades
<a name="capabilities-parallelization"></a>
+ Execução paralela de tarefas LLM (usando AWS Lambda, AWS Fargate, ou um estado do AWS Step Functions mapa)
+ Requer alinhamento, validação ou desduplicação de resultados na fase de síntese
+ Adequado para circuitos de agentes apátridas

## Casos de uso comuns
<a name="common-use-cases-parallelization"></a>
+ Analisando vários documentos ou perspectivas em paralelo
+ Gerando diversos rascunhos, resumos ou planos
+ Acelerando a produtividade em trabalhos em lotes

# Fluxo de trabalho para orquestração
<a name="workflow-for-orchestration"></a>

Um agente orquestrador central usa um LLM para planejar, decompor e delegar subtarefas a agentes ou modelos de trabalhadores especializados, cada um com uma função ou domínio específico. Isso reflete as estruturas da equipe humana e apoia o comportamento emergente em vários agentes.

![\[Fluxo de trabalho para orquestração.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/workflow-for-orchestration.png)


O fluxo de trabalho de orquestração é ideal para cenários complexos, hierárquicos ou multidisciplinares, que exigem decomposição estruturada e execução especializada. É particularmente adequado para tarefas que exigem divisão de trabalho, em que diferentes subcomponentes de uma tarefa são mais bem administrados por agentes com capacidades, conhecimentos ou conjuntos de ferramentas distintos.

Esse fluxo de trabalho é particularmente eficaz quando:
+ As tarefas podem ser divididas em subtarefas que variam em escopo, tipo ou raciocínio (por exemplo, planejar, pesquisar, implementar e testar).
+ Um LLM ou meta-agente deve coordenar outros agentes, monitorar o progresso e sintetizar os resultados.
+ Você deseja modularizar as responsabilidades do agente, permitindo escalabilidade, reutilização e ajuste especializado.
+ O sistema exige um comportamento baseado em funções, imitando como equipes humanas (por exemplo, gerentes de projeto, desenvolvedores e revisores) operam em colaboração.

A orquestração é ideal para agentes de planejamento de vários turnos, copilotos de desenvolvimento de software, agentes de processos corporativos e executores de projetos autônomos. É especialmente útil ao implementar sistemas multiagentes que exigem divisão centralizada de tarefas, mas lógica de execução distribuída, permitindo extensibilidade e comportamento mais explicável em todas as camadas do agente.

## Capacidades
<a name="capabilities-orchestration"></a>
+ O Orchestrator executa o metarraciocínio de metas
+ Os agentes de trabalho podem incluir acesso à ferramenta, memória ou solicitação específica do domínio
+ Pode ser hierárquico (ou seja, delegação de tarefas em vários níveis)

## Casos de uso comuns
<a name="common-use-cases-orchestration"></a>
+ Gerentes de projeto, pesquisadores coordenadores, escritores e agentes de garantia de qualidade
+ Co-pilotos de codificação que combinam planejamento, execução e teste
+ Agentes que supervisionam cadeias de ferramentas ou padrões de acesso à API

# Fluxo de trabalho para avaliadores e ciclos de reflexão e refinamento
<a name="workflow-for-evaluators-and-reflect-refine-loops"></a>

Esse fluxo de trabalho fornece um ciclo de feedback em que um LLM gera um resultado e outro avalia ou critica o resultado. Isso promove autorreflexão, otimização e melhorias iterativas.

![\[Fluxo de trabalho para avaliador.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/workflow-patterns-evaluator-reflect-refine-feedback-loop.png)


O fluxo de trabalho do avaliador é ideal para cenários em que a qualidade, a precisão e o alinhamento da saída são importantes e em que a geração de passagem única não é confiável ou é insuficiente. Esse fluxo de trabalho é excelente quando os agentes precisam fazer uma autocrítica, iterar e refinar seus resultados, seja para atender a um padrão mais alto de exatidão ou para explorar alternativas aprimoradas com base no feedback.

Esse fluxo de trabalho é particularmente eficaz quando:
+ A saída envolve métricas de qualidade subjetivas (por exemplo, estilo, tom e legibilidade) ou critérios objetivos (por exemplo, exatidão, segurança e desempenho).
+ O agente deve raciocinar por meio de compensações, avaliar restrições ou otimizar em direção a uma meta.
+ Você precisa de redundância e garantia de qualidade integradas, especialmente em domínios regulamentados, voltados para o cliente ou criativos.
+ Human-in-the-loop a revisão é cara ou não está disponível, e a validação autônoma é desejada.

Esse fluxo de trabalho é usado para geração de conteúdo, síntese e revisão de código, aplicação de políticas, verificação de alinhamento, ajuste de instruções e pós-processamento de RAG. Também é útil para agentes de autoaperfeiçoamento, onde o feedback contínuo ajuda a moldar respostas melhores ao longo do tempo para criar ciclos de decisão autônomos e confiáveis.

## Casos de uso comuns
<a name="common-use-cases-evaluators"></a>
+ Agentes da equipe vermelha em comparação com agentes da equipe azul
+ Agentes que geram, avaliam e revisam códigos ou planos
+ Garantia de qualidade, detecção de alucinações e aplicação de estilo

## Capacidades
<a name="capabilities-evaluators"></a>
+ Suporta geração e avaliação dissociadas usando modelos diferentes (por exemplo, Claude para geração e Mistral para avaliação)
+ O feedback é estruturado e usado para gerar resultados revisados
+ Suporta várias iterações ou limites de convergência

# Conclusão
<a name="conclusion-llm-workflows"></a>

LLMs fornecem o núcleo cognitivo dos agentes de software modernos, mas a invocação bruta do modelo não é suficiente para obter inteligência objetiva, robusta e controlável. Para passar da geração de resultados para o raciocínio estruturado e o comportamento alinhado a metas, LLMs deve ser incorporado em padrões de fluxo de trabalho intencionais que definam como os modelos processam entradas, gerenciam contextos e coordenam ações.

Os fluxos de trabalho do LLM introduzem os fundamentos para criar o módulo cognitivo de um agente:
+ O encadeamento imediato divide o raciocínio complexo em etapas modulares e auditáveis.
+ O roteamento permite a classificação inteligente de tarefas e a delegação direcionada.
+ A paralelização acelera a produtividade e promove um raciocínio diverso.
+ A orquestração de agentes estrutura a colaboração entre vários agentes por meio da decomposição de tarefas e execução baseada em funções.
+ O avaliador (loop reflect-refine) permite o autoaperfeiçoamento, o controle de qualidade e a verificação do alinhamento.

Cada fluxo de trabalho representa um padrão composto que pode ser adaptado às necessidades do agente, à complexidade da tarefa e às expectativas do usuário. Esses fluxos de trabalho não são mutuamente exclusivos. Eles são blocos de construção que geralmente são combinados em arquiteturas híbridas que oferecem suporte ao raciocínio dinâmico, à coordenação de vários agentes e à confiabilidade de nível corporativo.

À medida que você faz a transição para o próximo capítulo sobre padrões de fluxo de trabalho agentes, esses fluxos de trabalho de LLM reaparecerão como estruturas incorporadas em sistemas maiores, dando suporte à delegação de metas, orquestração de ferramentas, ciclos de decisão e autonomia do ciclo de vida. Dominar esses fluxos de trabalho de LLM é essencial para projetar agentes de software que não apenas prevejam texto, mas raciocinem, adaptem e ajam com propósito.