Geração aumentada de aterramento e recuperação - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Geração aumentada de aterramento e recuperação

Confiança, precisão e explicabilidade são essenciais para a implantação de sistemas de IA em ambientes de produção corporativos. Os modelos Foundation (FMs) oferecem recursos gerais impressionantes. No entanto, eles são treinados em empresas públicas de grande escala e geralmente não conhecem dados proprietários, regras de negócios ou mudanças recentes.

Para resolver essas lacunas de conscientização, AWS habilite a Retrieval Augmented Generation (RAG) por meio das bases de conhecimento Amazon Bedrock. O RAG é um poderoso padrão arquitetônico que baseia as respostas de FM no conhecimento externo específico do domínio, oferecendo precisão factual e relevância contextual.

O RAG aprimora a saída do modelo de linguagem grande (LLM) combinando dois processos:

  • Recuperar — use um mecanismo de busca semântica (normalmente baseado em incorporações vetoriais) para identificar conteúdo relevante de uma fonte de conhecimento com curadoria (por exemplo, documentos internos, manuais de produtos e registros de casos).

  • Gerar — Forneça o contexto recuperado como parte da solicitação ao LLM, permitindo que ele elabore uma resposta com base nessas informações confiáveis.

Essa abordagem permite que os modelos básicos de “livro fechado” funcionem como se tivessem acesso aos seus dados corporativos ativos e organizados, sem necessidade de treinamento adicional.

Por exemplo, um funcionário pergunta a um assistente interno de IA “Qual é a nossa política de viagens?” A resposta do assistente é criada usando a documentação de recursos humanos (RH) hospedada no Amazon Simple Storage Service (Amazon S3), sem a necessidade de ajustar um modelo.

Aterramento no Amazon Bedrock

O Amazon Bedrock oferece suporte ao aterramento por meio de seu recurso de bases de conhecimento, permitindo que os desenvolvedores configurem e vinculem repositórios de conteúdo corporativo a modelos básicos sem gerenciar a infraestrutura.

Os principais recursos de aterramento no Amazon Bedrock incluem o seguinte:

  • Incorporação automatizada de documentos usando provedores de FM compatíveis

  • Pesquisa semântica em HTML PDFs, documentos do Word ou arquivos de texto armazenados no Amazon S3

  • Aterramento sem ajuste fino porque o conteúdo é injetado na janela de contexto do LLM

  • Funciona com o Amazon Bedrock Agents para realizar raciocínios complexos ou usar ferramentas em várias etapas

As fontes de base suportadas nas bases de conhecimento Amazon Bedrock incluem o seguinte:

  • Amazon S3 (suporte nativo) e,, Confluence SalesforceSharePoint, ou Web Crawler (em versão prévia)

  • Índices pré-incorporados usando armazenamentos vetoriais como Amazon Aurora, OpenSearch Amazon Serverless, Amazon Neptune Analytics e Enterprise MongoDB CloudPinecone. Redis

O suporte de modelos de aterramento no Amazon Bedrock inclui o seguinte:

  • Tudo LLMs o que é compatível com o Amazon Bedrock suporta o aterramento.

  • Os modelos Amazon Nova são otimizados para fundamentação em texto, imagem e vídeo usando técnicas de recuperação híbrida.

  • A produção fundamentada pode ser ainda mais orquestrada pelos agentes do Amazon Bedrock para raciocínio e tomada de decisões.

Integração com IA agente

O RAG trabalha especialmente bem com os agentes do Amazon Bedrock, permitindo que eles atuem com inteligência contextual e consciência política. Veja a seguir um exemplo de um fluxo de trabalho agente:

  1. A entrada do usuário é enviada para a Amazon EventBridge, que a envia para um agente do Amazon Bedrock.

  2. O agente invoca uma base de conhecimento para pesquisar documentos internos.

  3. O contexto recuperado é incorporado ao prompt do LLM.

  4. O LLM gera resultados aterrados com referências e rastreabilidade.

  5. (Opcional) O agente armazena a saída e as evidências de apoio na memória para ações futuras.

Esse fluxo de trabalho permite que o agente raciocine sobre um contexto fundamentado e tome decisões explicáveis, preenchendo a lacuna entre a inteligência de uso geral e a aplicação específica do domínio.

Adicionando grades de proteção para segurança e conformidade

O aterramento aumenta a precisão, mas a IA de nível de produção exige controles explícitos sobre o que o modelo pode ou não dizer ou fazer. O recurso Amazon Bedrock Guardrails restringe o comportamento dos agentes e impõe a política corporativa.

As capacidades das grades de proteção incluem o seguinte:

  • Filtros de conteúdo — evite saídas que violem os padrões de segurança ou conformidade, incluindo o mascaramento de informações pessoais identificáveis.

  • Tópicos de negação — bloqueie categorias específicas de respostas (por exemplo, sem orientação médica).

  • Inspeção imediata — identifique e remova entradas sensíveis antes da inferência.

  • Controle de acesso em nível de usuário — personalize as respostas com base na identidade e nas funções usando AWS Identity and Access Management (IAM).

  • Restrições do contexto da sessão — Evite o desvio do modelo definindo o escopo do agente para uma tarefa específica.

Com grades de proteção, as organizações podem delegar com segurança o raciocínio e a tomada de decisões aos agentes, mantendo o controle sobre o tom, o comportamento e os limites.

Raciocínio automatizado, além do RAG

Conteúdo fundamentado não é suficiente. Os agentes devem raciocinar sobre esse conteúdo. É aqui que o raciocínio automatizado baseado em LLM se torna fundamental. O raciocínio automatizado se concentra em permitir que os agentes raciocinem logicamente, como tirar conclusões, tomar decisões ou resolver problemas, sem intervenção humana direta.

O raciocínio automatizado permite o seguinte:

  • Síntese — compare, contraste ou resuma vários documentos recuperados.

  • Lógica multi-hop — Conecte fatos entre documentos ou seções para tirar conclusões.

  • Tomada de decisão — escolha entre dados conflitantes com base em regras ou preferências.

  • Respostas baseadas em evidências — Produza citações e justificativas para cada decisão.

Esses recursos transformam uma resposta fundamentada em uma resposta fundamentada, e um agente do Amazon Bedrock de uma ferramenta de recuperação em um consultor com reconhecimento de domínio.

Com ferramentas como encadeamento imediato, ciclos de avaliação de reflexão e orquestração multiagente, os sistemas de IA agentes podem simular padrões de raciocínio de especialistas, como diagnóstico, triagem, planejamento ou análise de risco.

Modelos Amazon Nova e geração fundamentada

Com o Amazon Nova Pro e o Amazon Nova Premier, os fluxos de trabalho fundamentados do RAG se estendem a entradas multimodais, permitindo que os agentes interpretem e raciocinem nas seguintes fontes:

  • Documentos anotados e arquivos PDF

  • Diagramas, gráficos e imagens incorporadas

  • Capturas de tela, formulários e visualizações de dados estruturados

  • Transcrições de vídeo e apresentações de slides

Essa capacidade torna o Amazon Nova especialmente adequado para setores que exigem uma compreensão profunda do conteúdo de mídia avançada, como casos legais, avaliações de seguros, registros clínicos ou registros regulatórios.

Segurança e governança no RAG

Os modelos corporativos fundamentados introduzem, por exemplo, por meio de RAG, bases de conhecimento ou ajustes finos, novas responsabilidades. Você está injetando seus próprios dados e contexto em um modelo básico. Isso introduz novas responsabilidades além da simples seleção de modelos e elaboração rápida. AWS recomenda os seguintes controles, que funcionam em conjunto com grades de proteção para apoiar uma implantação corporativa confiável:

  • Garantia da qualidade dos dados de origem - As respostas fundamentadas são tão confiáveis quanto os documentos, bancos de dados ou nos quais elas se APIs baseiam.

  • Classificação e rastreabilidade de dados — Classifique e marque as fontes de conteúdo para mostrar de onde veio uma resposta fundamentada.

  • Controle de acesso — Injetar documentos privados em prompts aumenta os riscos de segurança e privacidade. Restrinja o acesso a documentos ou incorporações específicos por meio do IAM.

  • Gerenciamento de atualizações e desvios — O conhecimento fundamentado deve evoluir com sua empresa. Deve haver controle de versão, políticas de atualização e reindexação automatizada para evitar desvios ou informações obsoletas nas saídas do modelo.

  • Governança da inteligência incorporada — Agora você está implantando o conhecimento organizacional usando a IA. Essa capacidade vem com o dever de validar, monitorar e governar como ela é expressa, especialmente em domínios regulamentados, como saúde e finanças.

  • Observabilidade imediata — Os sistemas aterrados devem respeitar os direitos de propriedade intelectual, os requisitos regulatórios e as isenções de responsabilidade corporativas. Capture cadeias completas de prontidão, contexto e resposta para fins de conformidade.

  • Registro de auditoria — acompanhe a recuperação e a inferência por meio de registros AWS CloudTrail CloudWatch estruturados.

  • Feedback do usuário e ciclos de correção — As empresas são responsáveis por permitir que os usuários sinalizem fundamentos incorretos, respostas incorretas ou fontes irrelevantes e encaminhem esse feedback para melhorar a relevância futura.

  • Controle de memória — escolha se deseja manter os insights inferidos durante as sessões.

  • Otimização do orçamento de tokens — Quando o aterramento adiciona grandes pedaços de texto, ele aumenta o uso (e o custo) do token. Você deve equilibrar a precisão do RAG e a economia imediata, geralmente por meio de fragmentação, resumo ou filtragem de metadados.

Resumo do aterramento e do RAG

O RAG é uma estratégia fundamental para uma IA corporativa segura e escalável. Ao basear os modelos básicos em conhecimento interno confiável, o RAG transforma grandes modelos de linguagem de geradores de uso geral em assistentes de IA que reconhecem o domínio, alinhados a políticas e explicáveis. Essa abordagem reduz as alucinações, impõe a conformidade com as políticas internas e permite respostas contextuais e baseadas em fatos, tornando a IA generativa adequada para aplicativos voltados para clientes e funcionários.

Quando combinados com raciocínio automatizado e barreiras de proteção, os modelos fundamentados se tornam não apenas ferramentas, mas agentes responsáveis e confiáveis. Com o suporte RAG sem servidor do Amazon Bedrock e os recursos multimodais do Amazon Nova, as organizações podem escalar a IA segura e de alto desempenho em toda a empresa sem gerenciar a infraestrutura.