View a markdown version of this page

Ciclo de vida de dados em IA generativa - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ciclo de vida de dados em IA generativa

A implementação da IA generativa em uma empresa envolve um ciclo de vida de dados semelhante ao ciclo de vida tradicional. AI/ML No entanto, há considerações exclusivas em cada estágio. As principais fases incluem preparação de dados, integração aos fluxos de trabalho do modelo (como recuperação ou ajuste fino), coleta de feedback e atualizações contínuas. Esta seção explora esses estágios interconectados do ciclo de vida dos dados e detalha os processos essenciais, os desafios e as melhores práticas que as organizações devem considerar ao desenvolver e implantar soluções generativas de IA.

Preparação e limpeza de dados para pré-treinamento

Entrada de lixo, saída de lixo é o conceito de que entradas de baixa qualidade resultam em saídas de qualidade igualmente baixa. Assim como em qualquer projeto de IA, a qualidade dos dados é um make-or-break fator. A IA generativa geralmente começa com grandes conjuntos de dados, mas o volume por si só não é suficiente. Limpeza, filtragem e pré-processamento cuidadosos são essenciais.

Nesse estágio, as equipes de dados agregam dados brutos, como grandes volumes de texto ou coleções de imagens. Em seguida, eles removem ruídos, erros e preconceitos. Por exemplo, preparar texto para um LLM pode envolver a eliminação de duplicatas, a eliminação de informações pessoais confidenciais e a filtragem de conteúdo tóxico ou irrelevante. O objetivo é criar um conjunto de dados de alta qualidade que realmente represente o conhecimento ou o estilo que o modelo deve capturar. Os dados também podem ser normalizados ou formatados em uma estrutura adequada para a ingestão do modelo. Por exemplo, você pode tokenizar texto, remover tags HTML ou normalizar a resolução da imagem.

Na IA generativa, essa preparação pode ser especialmente intensiva devido à escala. Modelos como o Anthropic Claude são treinados em centenas de bilhões de tokens (Wikipedia) provenientes de uma ampla variedade de fontes de dados licenciadas e disponíveis publicamente. Mesmo pequenas porcentagens de dados incorretos podem ter efeitos enormes nas saídas, incluindo conteúdo ofensivo ou erros factuais. Por exemplo, vários provedores de LLM relataram a exclusão do conteúdo de uma comunidade do Reddit de seu conjunto de dados de treinamento porque as postagens consistiam principalmente em longas sequências da letra M para imitar o ruído de um micro-ondas. Essas postagens estavam interrompendo o treinamento e o desempenho do modelo.

Nesse estágio, algumas empresas adotam o aumento de dados para aumentar a cobertura de determinados cenários. O aumento de dados é o processo de sintetizar dados adicionais de treinamento. Para obter mais informações, consulte Síntese de dados neste guia.

Ao treinar o modelo nos dados preparados e pré-processados, você pode usar técnicas de mitigação para abordar notavelmente o viés. As técnicas incluem a incorporação de princípios éticos na arquitetura do modelo, conhecida como IA constitucional. Outra técnica é a redução de preconceitos adversários, que desafia o modelo durante o treinamento para impor resultados mais justos em diferentes grupos. Finalmente, após o treinamento, você pode fazer ajustes de pós-processamento para refinar o modelo por meio de ajustes finos. Isso pode ajudar a corrigir quaisquer preconceitos remanescentes e melhorar a imparcialidade geral.

Geração aumentada via recuperação

Os modelos estáticos de ML fazem previsões exclusivamente a partir de um conjunto fixo de treinamento. No entanto, muitas soluções corporativas de IA generativa usam Retrieval Augmented Generation (RAG) para manter o conhecimento de um modelo atualizado e relevante. O RAG envolve conectar um LLM a um repositório de conhecimento externo que pode conter documentos corporativos, bancos de dados ou outras fontes de dados.

Na prática, o RAG exige a implementação de um pipeline de dados adicional. Isso introduz um certo grau de complexidade e envolve as seguintes etapas sequenciais:

  1. Ingestão e filtragem — colete dados relevantes e de alta qualidade de diversas fontes. Implemente mecanismos de filtragem para excluir informações redundantes ou irrelevantes e certifique-se de que o conjunto de dados seja relevante para o domínio do aplicativo. Observe que atualizações e manutenção regulares do repositório de dados são essenciais para preservar a precisão e a relevância das informações.

  2. Análise e extração — Após a ingestão dos dados, os dados devem ser analisados para extrair conteúdo significativo. Use analisadores que possam lidar com vários formatos de dados, como HTML, JSON ou texto sem formatação. Os analisadores convertem os dados brutos em formulários estruturados. Esse processo facilita a manipulação e análise de dados nas etapas subsequentes.

  3. Estratégias de fragmentação — divida os dados em partes ou partes gerenciáveis. Essa etapa é vital para a recuperação e o processamento eficientes. As estratégias de fragmentação incluem, mas não estão limitadas ao seguinte:

    • Fragmentação padrão baseada em tokens — divida o texto em segmentos de tamanho fixo com base em um número específico de tokens. Essa é a estratégia de fragmentação mais básica, mas ajuda a manter comprimentos de fragmentos uniformes.

    • Fragmentação hierárquica — organize o conteúdo em uma hierarquia (como capítulos, seções ou parágrafos) para preservar as relações contextuais. Essa estratégia aprimora a compreensão do modelo sobre a estrutura de dados.

    • Fragmentação semântica — Segmente o texto com base na coerência semântica. Certifique-se de que cada parte represente uma ideia ou tópico completo. Essa estratégia pode melhorar a relevância das informações recuperadas.

  4. Seleção do modelo de incorporação — Os bancos de dados vetoriais armazenam incorporações, que são representações numéricas de uma parte do texto que preservam seu significado e contexto. Uma incorporação é um formato que um modelo de ML pode entender e comparar para realizar uma pesquisa semântica. Escolher o modelo de incorporação apropriado é fundamental para capturar a essência semântica dos blocos de dados. Selecione modelos que se alinhem às necessidades específicas do seu domínio e que possam gerar incorporações que reflitam com precisão o significado do conteúdo. Escolher o melhor modelo de incorporação para seu caso de uso pode melhorar a relevância e a precisão contextual.

  5. Algoritmos de indexação e pesquisa — indexe as incorporações em um banco de dados vetorial otimizado para pesquisas por similaridade. Empregue algoritmos de busca que lidem com eficiência com dados de alta dimensão e ofereçam suporte à rápida recuperação de informações relevantes. Técnicas como a pesquisa aproximada do vizinho mais próximo (ANN) podem aumentar significativamente a velocidade de recuperação sem comprometer a precisão.

Os pipelines RAG são inerentemente complexos. Eles exigem vários estágios, níveis variados de integração e um alto grau de especialização para projetar com eficiência. Quando implementados corretamente, eles podem melhorar significativamente o desempenho e a precisão de uma solução generativa de IA. No entanto, a manutenção desses sistemas consome muitos recursos e exige monitoramento, otimização e escalabilidade contínuos. Essa complexidade levou ao surgimento de RAGOpsuma abordagem dedicada à operacionalização e gerenciamento eficiente de tubulações RAG, para promover confiabilidade e eficácia a longo prazo.

Para obter mais informações sobre o RAG on AWS, consulte os seguintes recursos:

Aperfeiçoamento e treinamento especializado

O ajuste fino pode assumir duas formas distintas: ajuste fino de domínio e ajuste fino de tarefas. Cada um serve a um propósito diferente na adaptação de um modelo pré-treinado. O ajuste fino de domínio não supervisionado envolve o treinamento adicional do modelo em um corpo de texto específico do domínio para ajudá-lo a entender melhor a linguagem, a terminologia e o contexto exclusivos de um determinado campo ou setor. Por exemplo, você pode ajustar um LLM específico de mídia em uma coleção de artigos e jargões internos para refletir o tom de voz e o vocabulário especializado da empresa.

Em contraste, o ajuste fino de tarefas supervisionadas se concentra em ensinar o modelo a executar uma função específica ou formato de saída. Por exemplo, você pode ensiná-lo a responder às dúvidas dos clientes, resumir documentos legais ou extrair dados estruturados. Isso normalmente requer a preparação de um conjunto de dados rotulado que contém exemplos de entradas e saídas desejadas para a tarefa de destino.

Ambas as abordagens exigem coleta e curadoria cuidadosas de dados de ajuste fino. Para o ajuste fino da tarefa, os conjuntos de dados são rotulados explicitamente. Para ajustar o domínio, você pode usar texto sem rótulo para melhorar a compreensão geral do idioma no contexto relevante. Independentemente da abordagem, a qualidade dos dados é fundamental. Conjuntos de dados limpos, representativos e de tamanho adequado são essenciais para manter e aprimorar o desempenho do modelo. Normalmente, os conjuntos de dados de ajuste fino são muito menores do que aqueles usados no pré-treinamento inicial, mas devem ser cuidadosamente selecionados para garantir uma adaptação eficaz do modelo.

Uma alternativa ao ajuste fino é a destilação de modelos, uma técnica que envolve o treinamento de um modelo menor e especializado para replicar o desempenho de um modelo maior e mais geral. Em vez de ajustar um LLM existente, a destilação de modelos transfere conhecimento treinando um modelo leve (o aluno) nos resultados gerados pelo modelo original e mais complexo (o professor). Essa abordagem é particularmente benéfica quando a eficiência computacional é uma prioridade porque os modelos destilados exigem menos recursos, mantendo o desempenho específico da tarefa.

Em vez de exigir dados extensivos de treinamento específicos do domínio, a destilação do modelo depende de conjuntos de dados sintéticos ou gerados pelo professor. O modelo complexo produz exemplos de alta qualidade com os quais o modelo leve pode aprender. Isso reduz a carga de curar dados proprietários, mas ainda exige uma seleção cuidadosa de exemplos de treinamento diversos e imparciais para manter os recursos de generalização. Além disso, a destilação pode ajudar a mitigar os riscos associados à privacidade dos dados, pois você pode treinar o modelo leve em dados protegidos sem expor diretamente registros confidenciais.

Dito isso, é improvável que a maioria das organizações realize ajustes finos ou destilação, pois isso geralmente é desnecessário para seus casos de uso e introduz uma camada adicional de complexidade operacional e técnica. Muitas necessidades de negócios podem ser atendidas de forma eficaz usando modelos de base pré-treinados, às vezes com personalização leve por meio de engenharia imediata ou ferramentas como o RAG. O ajuste fino requer um investimento considerável em termos de capacidade técnica, curadoria de dados e governança de modelos. Isso o torna mais adequado para aplicativos corporativos altamente especializados ou de grande escala, onde esse esforço é justificado.

Conjunto de dados de avaliação

Desenvolver uma estratégia de dados robusta é essencial ao criar conjuntos de dados de avaliação para soluções generativas de IA. Esses conjuntos de dados de avaliação atuam como referência para avaliar o desempenho do modelo. Eles devem estar ancorados em dados reais confiáveis, que são dados que são reconhecidamente precisos, verificados e representativos dos resultados do mundo real. Por exemplo, dados reais podem ser dados reais que você oculta de um treinamento ou de um conjunto de dados de ajuste fino. Os dados reais podem vir de várias fontes, e cada uma apresenta seus próprios desafios.

A geração de dados sintéticos fornece uma maneira escalável de criar conjuntos de dados controlados para testar recursos específicos do modelo sem expor informações confidenciais. No entanto, sua eficácia depende de quão rigorosamente ele replica as distribuições genuínas da verdade fundamental.

Como alternativa, conjuntos de dados selecionados manualmente, geralmente chamados de conjuntos de dados dourados, contêm pares de perguntas e respostas rigorosamente verificados ou exemplos rotulados. Esses conjuntos de dados podem servir como dados reais básicos de alta qualidade para uma avaliação robusta do modelo. No entanto, esses conjuntos de dados consomem tempo e consomem muitos recursos para compilar. Incorporar interações reais com clientes como dados de avaliação pode aumentar ainda mais a relevância e a cobertura de dados reais, embora isso exija proteções de privacidade estritas e conformidade regulatória (como com o GDPR e o CCPA).

Uma estratégia de dados abrangente deve equilibrar essas abordagens. Para avaliar com eficácia os modelos generativos de IA, considere fatores como qualidade dos dados, representatividade, considerações éticas e alinhamento com os objetivos de negócios. Para obter mais informações, consulte Amazon Bedrock Evaluations.

Dados gerados pelo usuário e ciclos de feedback

Depois que um sistema generativo de IA é implantado, ele começa a produzir resultados e a interagir com os usuários. Essas interações em si se tornam uma fonte valiosa de dados. Os dados gerados pelo usuário incluem perguntas e solicitações do usuário, as respostas do modelo e qualquer feedback explícito fornecido pelos usuários (como avaliações). As empresas devem tratar isso como parte do ciclo de vida generativo dos dados de IA e inseri-los nos processos de monitoramento e melhoria. É importante ressaltar que os dados gerados pelo usuário podem ser incorporados ao seu conjunto de dados de verdade fundamental. Isso ajuda a otimizar ainda mais as solicitações e aprimorar o desempenho geral do seu aplicativo ao longo do tempo. Outro motivo importante é gerenciar o desvio e o desempenho do modelo ao longo do tempo. Após o uso no mundo real, o modelo pode começar a divergir de seu domínio de treinamento. Exemplos disso são novas gírias que aparecem em consultas ou usuários fazendo perguntas sobre tópicos emergentes que não estão presentes nos dados de treinamento. O monitoramento desses dados ao vivo pode revelar desvios de dados, onde a distribuição de entrada muda, o que pode potencialmente degradar a precisão do modelo.

Para combater isso, as organizações estabelecem ciclos de feedback capturando as interações dos usuários e retreinando ou ajustando periodicamente o modelo em uma amostra recente delas. Às vezes, você pode simplesmente usar o feedback para ajustar as solicitações e os dados de recuperação. Por exemplo, se um assistente interno de chatbot alucina constantemente respostas sobre um produto recém-lançado, a equipe pode coletar esses pares de perguntas e respostas que falharam e incluir as informações corretas como dados adicionais de treinamento ou recuperação.

Em alguns casos, o aprendizado por reforço a partir do feedback humano (RLHF) é usado para alinhar ainda mais um LLM durante a fase de pós-treinamento ou ajuste fino. Isso ajuda o modelo a produzir respostas que reflitam melhor as preferências e valores humanos. As técnicas de aprendizado por reforço (RL) treinam o software para tomar decisões que maximizem as recompensas, tornando seus resultados mais precisos. O RLHF incorpora feedback humano na função de recompensas, para que o modelo de ML possa realizar tarefas mais alinhadas às metas, desejos e necessidades humanas. Para obter mais informações sobre o uso do RLHF na Amazon SageMaker AI, consulte Melhorando seu LLMs com o RLHF na SageMaker Amazon no AWS blog de IA.

Mesmo sem o RLHF formal, uma abordagem mais simples é a revisão manual de uma fração dos resultados do modelo de forma contínua, semelhante à garantia de qualidade. A chave é que o monitoramento contínuo, a observabilidade e o aprendizado sejam incorporados ao processo. Para obter mais informações sobre como coletar e armazenar feedback humano de aplicativos generativos de IA AWS, consulte Orientação para feedback e análise de usuários do Chatbot AWSAWS na Biblioteca de Soluções.

Para evitar ou resolver o desvio, as empresas precisam planejar atualizações contínuas do modelo, que podem assumir várias formas. Uma abordagem é programar ajustes regulares ou pré-treinamento contínuo. Por exemplo, você pode atualizar o modelo mensalmente com os dados internos mais recentes, casos de suporte ou artigos de notícias. Durante o pré-treinamento contínuo, um modelo de linguagem pré-treinado é treinado com dados adicionais para aprimorar seu desempenho, especialmente em domínios ou tarefas específicas. Esse processo envolve a exposição do modelo a dados de texto novos e não rotulados, permitindo que ele refine sua compreensão e se adapte a novas informações sem começar do zero. Para ajudar nesse processo potencialmente complexo, o Amazon Bedrock permite que você faça ajustes finos e pré-treinamento contínuo em um ambiente totalmente seguro e gerenciado. Para obter mais informações, consulte Personalize modelos no Amazon Bedrock com seus próprios dados usando ajustes finos e pré-treinamento contínuo no blog de notícias. AWS

No cenário em que você usa off-the-shelf modelos com o RAG, você pode confiar em serviços de IA na nuvem, como o Amazon Bedrock. Esses serviços oferecem atualizações regulares de modelos à medida que são lançados e os adicionam ao catálogo disponível. Isso ajuda você a atualizar suas soluções para usar as versões mais recentes desses modelos básicos.