As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Avaliação LLMs para aplicações em saúde e ciências biológicas
Esta seção fornece uma visão geral abrangente dos requisitos e considerações para avaliar grandes modelos de linguagem (LLMs) em casos de uso de saúde e ciências biológicas.
É importante usar dados reais básicos e feedback do SME para mitigar o viés e validar a precisão da resposta gerada pelo LLM. Esta seção descreve as melhores práticas para coletar e organizar dados de treinamento e teste. Também ajuda você a implementar barreiras e medir o viés e a imparcialidade dos dados. Ele também discute as tarefas médicas comuns de processamento de linguagem natural (PNL), como classificação de texto, reconhecimento de entidades nomeadas e geração de texto, e suas métricas de avaliação associadas.
Ele também apresenta fluxos de trabalho para realizar a avaliação do LLM durante a fase de experimentação do treinamento e a fase de pós-produção. O monitoramento do modelo e as operações de LLM são elementos importantes desse processo de avaliação.
Dados de treinamento e teste para tarefas médicas de PNL
As tarefas de PNL médica geralmente usam corporações médicas (como PubMed) ou informações do paciente (como notas de visitas de pacientes à clínica) para classificar, resumir e gerar insights. O pessoal médico, como médicos, administradores de serviços de saúde ou técnicos, varia em experiência e pontos de vista. Devido à subjetividade entre esses profissionais médicos, conjuntos menores de dados de treinamento e testes representam um risco de viés. Para mitigar esse risco, recomendamos as seguintes melhores práticas:
-
Ao usar uma solução LLM pré-treinada, verifique se você tem uma quantidade adequada de dados de teste. Os dados do teste devem ser muito parecidos com os dados médicos reais. Dependendo da tarefa, isso pode variar de 20 a mais de 100 registros.
-
Ao ajustar um LLM, colete um número suficiente de registros rotulados (verdadeiros) de uma variedade SMEs do domínio médico alvo. Um ponto de partida geral são pelo menos 100 registros de alta qualidade. No entanto, dada a complexidade da tarefa e seus critérios de aceitação de precisão, mais registros podem ser necessários.
-
Se necessário para seu caso de uso médico, implemente barreiras e meça o viés e a imparcialidade dos dados. Por exemplo, certifique-se de que o LLM evite diagnósticos errados devido aos perfis raciais dos pacientes. Para obter mais informações, consulte a seção Segurança e grades de proteção deste guia.
Muitas empresas de pesquisa e desenvolvimento de IA, como a Anthropic, já implementaram grades de proteção em seus modelos básicos para evitar toxicidade. Você pode usar a detecção de toxicidade para verificar as solicitações de entrada e as respostas de saída de. LLMs Para obter mais informações, consulte Detecção de toxicidade na documentação do Amazon Comprehend e veja Guardrails na documentação do Amazon Bedrock.
Em qualquer tarefa generativa de IA, existe o risco de alucinação. Você pode mitigar esse risco executando tarefas de PNL, como classificação. Você também pode usar técnicas mais avançadas, como métricas de similaridade de texto. BertScore
Métricas para tarefas médicas de PNL
Você pode criar métricas quantificáveis depois de estabelecer dados reais básicos e rótulos fornecidos pelas PME para treinamento e testes. Verificar a qualidade por meio de processos qualitativos, como testes de estresse e revisão dos resultados do LLM, é útil para um desenvolvimento rápido. No entanto, as métricas atuam como referências quantitativas que apoiam futuras operações de LLM e atuam como referências de desempenho para cada versão de produção.
Compreender a tarefa médica é fundamental. As métricas geralmente são mapeadas para uma das seguintes tarefas gerais de PNL:
-
Classificação de texto — O LLM categoriza o texto em uma ou mais categorias predefinidas, com base na solicitação de entrada e no contexto fornecido. Um exemplo é classificar uma categoria de dor usando uma escala de dor. Exemplos de métricas de classificação de texto incluem:
-
Precisão, também conhecida como precisão macro
-
Recall, também conhecido como recall de macro
-
Pontuação F1, também conhecida como pontuação macro F1
-
Reconhecimento de entidade nomeada (NER) — Também conhecido como extração de texto, o reconhecimento de entidade nomeada é o processo de localizar e classificar entidades nomeadas mencionadas em texto não estruturado em categorias predefinidas. Um exemplo é extrair os nomes dos medicamentos dos prontuários dos pacientes. Exemplos de métricas do NER incluem:
-
Geração — O LLM gera um novo texto processando a solicitação e o contexto fornecido. A geração inclui tarefas de resumo ou tarefas de resposta a perguntas. Exemplos de métricas de geração incluem: