Ajustando grandes modelos de linguagem na área da saúde - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ajustando grandes modelos de linguagem na área da saúde

A abordagem de ajuste fino descrita nesta seção apóia a conformidade com as diretrizes éticas e regulatórias e promove o uso responsável dos sistemas de IA na área da saúde. Ele foi projetado para gerar insights precisos e privados. A IA generativa está revolucionando a prestação de serviços de saúde, mas off-the-shelf os modelos geralmente são insuficientes em ambientes clínicos em que a precisão é fundamental e a conformidade não é negociável. O ajuste fino dos modelos básicos com dados específicos do domínio preenche essa lacuna. Ele ajuda você a criar sistemas de IA que falam a linguagem da medicina e, ao mesmo tempo, cumprem padrões regulatórios rígidos. No entanto, o caminho para um ajuste fino bem-sucedido exige uma navegação cuidadosa pelos desafios exclusivos da área de saúde: proteger dados confidenciais, justificar investimentos em IA com resultados mensuráveis e manter a relevância clínica em cenários médicos em rápida evolução.

Quando abordagens mais leves atingem seus limites, o ajuste fino se torna um investimento estratégico. A expectativa é que os ganhos em precisão, latência ou eficiência operacional compensem os significativos custos de computação e engenharia necessários. É importante lembrar que o ritmo do progresso nos modelos básicos é rápido, portanto, a vantagem de um modelo ajustado pode durar apenas até o próximo grande lançamento do modelo.

Esta seção ancora a discussão nos dois casos de uso de alto impacto a seguir de clientes da AWS área de saúde:

  • Sistemas de apoio à decisão clínica — Melhore a precisão do diagnóstico por meio de modelos que compreendem histórias complexas de pacientes e diretrizes em evolução. O ajuste fino pode ajudar os modelos a entender profundamente os históricos complexos de pacientes e a integrar diretrizes especializadas. Isso pode reduzir potencialmente os erros de previsão do modelo. No entanto, você precisa pesar esses ganhos em relação ao custo do treinamento em conjuntos de dados grandes e confidenciais e à infraestrutura necessária para aplicações clínicas de alto risco. A maior precisão e a consciência do contexto justificarão o investimento, especialmente quando novos modelos são lançados com frequência?

  • Análise de documentos médicos — automatize o processamento de notas clínicas, relatórios de imagem e documentos de seguro, mantendo a conformidade com a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA). Aqui, o ajuste fino pode permitir que o modelo manipule formatos exclusivos, abreviações especializadas e requisitos regulatórios com mais eficiência. A recompensa geralmente é vista na redução do tempo de revisão manual e na melhoria da conformidade. Ainda assim, é essencial avaliar se essas melhorias são substanciais o suficiente para garantir os recursos de ajuste fino. Determine se a engenharia imediata e a orquestração do fluxo de trabalho podem atender às suas necessidades.

Esses cenários do mundo real ilustram a jornada de ajuste fino, desde a experimentação inicial até a implantação do modelo, ao mesmo tempo em que abordam os requisitos exclusivos da área de saúde em cada estágio.

Estimativa de custos e retorno sobre o investimento

A seguir estão os fatores de custo que você deve considerar ao ajustar um LLM:

  • Tamanho do modelo — Modelos maiores custam mais para serem ajustados

  • Tamanho do conjunto de dados — Os custos e o tempo de computação aumentam com o tamanho do conjunto de dados para ajuste fino

  • Estratégia de ajuste fino — métodos eficientes em termos de parâmetros podem reduzir custos em comparação com atualizações completas de parâmetros

Ao calcular o retorno sobre o investimento (ROI), considere a melhoria nas métricas escolhidas (como precisão) multiplicada pelo volume de solicitações (com que frequência o modelo será usado) e a duração esperada antes que o modelo seja superado por versões mais recentes.

Além disso, considere a vida útil do seu LLM básico. Novos modelos básicos surgem a cada 6 a 12 meses. Se seu detector de doenças raras levar 8 meses para ser ajustado e validado, você poderá obter apenas 4 meses de desempenho superior antes que os modelos mais novos preencham a lacuna.

Ao calcular os custos, o ROI e a vida útil potencial do seu caso de uso, você pode tomar uma decisão baseada em dados. Por exemplo, se o ajuste fino de seu modelo de apoio à decisão clínica levar a uma redução mensurável nos erros de diagnóstico em milhares de casos por ano, o investimento poderá ser recompensado rapidamente. Por outro lado, se a engenharia imediata por si só aproximar seu fluxo de trabalho de análise de documentos da precisão desejada, talvez seja sensato adiar o ajuste fino até que a próxima geração de modelos chegue.

O ajuste fino não é. one-size-fits-all Se você decidir fazer um ajuste fino, a abordagem correta dependerá do seu caso de uso, dados e recursos.

Escolhendo uma estratégia de ajuste fino

Depois de determinar que o ajuste fino é a abordagem correta para seu caso de uso na área de saúde, a próxima etapa é selecionar a estratégia de ajuste fino mais adequada. Há várias abordagens disponíveis. Cada um tem vantagens e desvantagens distintas para aplicações de saúde. A escolha entre esses métodos depende de seus objetivos específicos, dos dados disponíveis e das restrições de recursos.

Objetivos do treinamento

O pré-treinamento adaptativo ao domínio (DAPT) é um método não supervisionado que envolve o pré-treinamento do modelo em um grande corpo de texto não rotulado e específico do domínio (como milhões de documentos médicos). Essa abordagem é adequada para melhorar a capacidade dos modelos de entender as abreviações de especialidades médicas e a terminologia usada por radiologistas, neurologistas e outros fornecedores especializados. No entanto, o DAPT requer grandes quantidades de dados e não aborda saídas de tarefas específicas.

O ajuste fino supervisionado (SFT) ensina o modelo a seguir instruções explícitas usando exemplos estruturados de entrada-saída. Essa abordagem é excelente para fluxos de trabalho de análise de documentos médicos, como resumo de documentos ou codificação clínica. O ajuste de instruções é uma forma comum de SFT em que o modelo é treinado em exemplos que incluem instruções explícitas emparelhadas com as saídas desejadas. Isso aumenta a capacidade do modelo de entender e seguir diversas instruções do usuário. Essa técnica é particularmente valiosa em ambientes de saúde porque treina o modelo com exemplos clínicos específicos. A principal desvantagem é que ele requer exemplos cuidadosamente rotulados. Além disso, o modelo ajustado pode ter problemas com casos extremos em que não há exemplos. Para obter instruções sobre o ajuste fino com o Amazon SageMaker Jumpstart, consulte Ajuste fino de instruções para FLAN T5 XL com o Amazon Jumpstart (postagem no blog). SageMaker AWS

O aprendizado por reforço a partir do feedback humano (RLHF) otimiza o comportamento do modelo com base no feedback e nas preferências dos especialistas. Use um modelo de recompensa treinado em preferências e métodos humanos, como otimização de política proximal (PPO) ou otimização de preferência direta (DPO), para otimizar o modelo e, ao mesmo tempo, evitar atualizações destrutivas. O RLHF é ideal para alinhar os resultados com as diretrizes clínicas e garantir que as recomendações permaneçam dentro dos protocolos aprovados. Essa abordagem exige um tempo significativo do médico para obter feedback e envolve um complexo fluxo de treinamento. No entanto, o RLHF é particularmente valioso na área da saúde porque ajuda especialistas médicos a moldar a forma como os sistemas de IA se comunicam e fazem recomendações. Por exemplo, os médicos podem fornecer feedback para garantir que o modelo mantenha uma postura adequada à beira do leito, saiba quando expressar incerteza e permaneça dentro das diretrizes clínicas. Técnicas como o PPO otimizam iterativamente o comportamento do modelo com base no feedback de especialistas, ao mesmo tempo que restringem as atualizações de parâmetros para preservar o conhecimento médico básico. Isso permite que os modelos transmitam diagnósticos complexos em uma linguagem amigável ao paciente e, ao mesmo tempo, sinalizem condições graves para atendimento médico imediato. Isso é crucial para a área da saúde, onde tanto a precisão quanto o estilo de comunicação são importantes. Para obter mais informações sobre o RLHF, consulte Ajustar modelos de linguagem grandes com aprendizado por reforço a partir de feedback humano ou de IA (postagem no blog).AWS

Métodos de implementação

Uma atualização completa dos parâmetros envolve a atualização de todos os parâmetros do modelo durante o treinamento. Essa abordagem funciona melhor para sistemas de apoio à decisão clínica que exigem uma integração profunda de históricos de pacientes, resultados de laboratório e diretrizes em evolução. As desvantagens incluem alto custo de computação e risco de sobreajuste se seu conjunto de dados não for grande e diversificado.

Os métodos de ajuste fino com eficiência de parâmetros (PEFT) atualizam somente um subconjunto de parâmetros para evitar sobreajustes ou uma perda catastrófica dos recursos da linguagem. Os tipos incluem adaptação de baixa classificação (LoRa), adaptadores e ajuste de prefixo. Os métodos PEFT oferecem menor custo computacional, treinamento mais rápido e são ótimos para experimentos, como adaptar um modelo de apoio à decisão clínica aos protocolos ou terminologia de um novo hospital. A principal limitação é o desempenho potencialmente reduzido em comparação com as atualizações completas dos parâmetros.

Para obter mais informações sobre métodos de ajuste fino, consulte Métodos avançados de ajuste fino na Amazon SageMaker AI (AWS postagem no blog).

Criando um conjunto de dados de ajuste fino

A qualidade e a diversidade do conjunto de dados de ajuste fino são essenciais para modelar o desempenho, a segurança e a prevenção de preconceitos. A seguir estão três áreas críticas a serem consideradas ao criar esse conjunto de dados:

  • Volume baseado em uma abordagem de ajuste fino

  • Anotação de dados de um especialista no domínio

  • Diversidade do conjunto de dados

Conforme mostrado na tabela a seguir, os requisitos de tamanho do conjunto de dados para ajuste fino variam com base no tipo de ajuste fino que está sendo executado.

Estratégia de ajuste fino

Tamanho do conjunto de dados

Pré-treinamento adaptado ao domínio

Mais de 100.000 textos de domínio

Ajuste fino supervisionado

Mais de 10.000 pares rotulados

Aprendizagem por reforço a partir do feedback humano

Mais de 1.000 pares de preferências de especialistas

Você pode usar o AWS GlueAmazon EMR e o Amazon SageMaker Data Wrangler para automatizar o processo de extração e transformação de dados para organizar um conjunto de dados que você possui. Se você não conseguir organizar um conjunto de dados grande o suficiente, poderá descobrir e baixar conjuntos de dados diretamente em seu formulário. Conta da AWS AWS Data Exchange Consulte seu advogado antes de utilizar qualquer conjunto de dados de terceiros.

Anotadores especialistas com conhecimento de domínio, como médicos, biólogos e químicos, devem fazer parte do processo de curadoria de dados para incorporar as nuances dos dados médicos e biológicos na saída do modelo. O Amazon SageMaker Ground Truth fornece uma interface de usuário low-code para que especialistas façam anotações no conjunto de dados.

Um conjunto de dados que represente a população humana é essencial para que os serviços de saúde e ciências da vida ajustem os casos de uso para evitar preconceitos e refletir os resultados do mundo real. AWS Glue sessões interativas ou instâncias de SageMaker notebooks da Amazon oferecem uma maneira poderosa de explorar de forma iterativa conjuntos de dados e ajustar transformações usando notebooks compatíveis com o Jupyter. As sessões interativas permitem que você trabalhe com uma variedade de ambientes populares de desenvolvimento integrado (IDEs) em seu ambiente local. Como alternativa, você pode trabalhar com AWS Glue ou com notebooks Amazon SageMaker Studio por meio do Console de gerenciamento da AWS.

Ajustando o modelo

AWS fornece serviços como o Amazon SageMaker AI e o Amazon Bedrock, que são cruciais para um ajuste fino bem-sucedido.

SageMaker A IA é um serviço de aprendizado de máquina totalmente gerenciado que ajuda desenvolvedores e cientistas de dados a criar, treinar e implantar modelos de ML rapidamente. Três recursos úteis da SageMaker IA para ajuste fino incluem:

  • SageMakerTreinamento — Um recurso de ML totalmente gerenciado que ajuda você a treinar com eficiência uma ampla variedade de modelos em grande escala

  • SageMaker JumpStart— Um recurso desenvolvido com base nos trabalhos de SageMaker treinamento para fornecer modelos pré-treinados, algoritmos integrados e modelos de soluções para tarefas de ML

  • SageMaker HyperPod— Uma solução de infraestrutura específica para treinamento distribuído de modelos básicos e LLMs

O Amazon Bedrock é um serviço totalmente gerenciado que fornece acesso a modelos básicos de alto desempenho por meio de uma API, com recursos integrados de segurança, privacidade e escalabilidade. O serviço oferece a capacidade de ajustar vários modelos básicos disponíveis. Para obter mais informações, consulte Modelos e regiões compatíveis para ajuste fino e pré-treinamento contínuo na documentação do Amazon Bedrock.

Ao abordar o processo de ajuste fino com qualquer um dos serviços, considere o modelo básico, a estratégia de ajuste fino e a infraestrutura.

Escolha do modelo básico

Modelos de código fechado, como Anthropic Claude, Meta Llama e Amazon Nova, oferecem forte out-of-the-box desempenho com conformidade gerenciada, mas limitam a flexibilidade de ajuste fino às opções suportadas pelo provedor, como gerenciadas como o Amazon Bedrock. APIs Isso restringe a personalização, especialmente para casos de uso regulamentados na área de saúde. Por outro lado, modelos de código aberto, como o Meta Llama, oferecem total controle e flexibilidade em todos os serviços de SageMaker IA da Amazon, tornando-os ideais quando você precisa personalizar, auditar ou adaptar profundamente um modelo aos seus requisitos específicos de dados ou fluxo de trabalho.

Estratégia de ajuste fino

O ajuste simples das instruções pode ser feito pela personalização do modelo Amazon Bedrock ou pela Amazon. SageMaker JumpStart Abordagens PEFT complexas, como LoRa ou adaptadores, exigem trabalhos de SageMaker treinamento ou recursos personalizados de ajuste fino no Amazon Bedrock. O treinamento distribuído para modelos muito grandes é apoiado pelo SageMaker HyperPod.

Escala e controle da infraestrutura

Serviços totalmente gerenciados, como o Amazon Bedrock, minimizam o gerenciamento da infraestrutura e são ideais para organizações que priorizam a facilidade de uso e a conformidade. Opções semigerenciadas, como SageMaker JumpStart, oferecem alguma flexibilidade com menos complexidade. Essas opções são adequadas para prototipagem rápida ou ao usar fluxos de trabalho pré-criados. O controle total e a personalização vêm com os trabalhos de SageMaker treinamento e HyperPod, embora exijam mais experiência, são melhores quando você precisa expandir para grandes conjuntos de dados ou precisar de pipelines personalizados.

Monitorando modelos ajustados

Em saúde e ciências biológicas, monitorar o ajuste fino do LLM requer o rastreamento de vários indicadores-chave de desempenho. A precisão fornece uma medida básica, mas isso deve ser balanceado com a precisão e o recall, especialmente em aplicações em que classificações erradas têm consequências significativas. A pontuação F1 ajuda a resolver problemas de desequilíbrio de classes que podem ser comuns em conjuntos de dados médicos. Para obter mais informações, consulte Avaliação LLMs para aplicações em saúde e ciências biológicas neste guia.

As métricas de calibração ajudam você a garantir que os níveis de confiança do modelo correspondam às probabilidades do mundo real. As métricas de imparcialidade podem ajudá-lo a detectar possíveis preconceitos em diferentes dados demográficos de pacientes.

MLflowé uma solução de código aberto que pode ajudar você a monitorar experimentos de ajuste fino. MLflow tem suporte nativo na Amazon SageMaker AI, o que ajuda você a comparar visualmente as métricas das corridas de treinamento. Para trabalhos de ajuste fino no Amazon Bedrock, as métricas são transmitidas para a CloudWatch Amazon para que você possa visualizá-las no console. CloudWatch