Uso de modelos de lenguaje extensos para casos de uso de la salud y las ciencias de la vida - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de modelos de lenguaje extensos para casos de uso de la salud y las ciencias de la vida

Aquí se describe cómo puede utilizar modelos de lenguaje de gran tamaño (LLMs) para aplicaciones sanitarias y de ciencias de la vida. Algunos casos de uso requieren el uso de un modelo de lenguaje amplio para las capacidades generativas de IA. Existen ventajas y limitaciones incluso para la mayoría state-of-the-art LLMs, y las recomendaciones de esta sección están diseñadas para ayudarlo a lograr los resultados esperados.

Puede utilizar el proceso de toma de decisiones para determinar la solución LLM adecuada para su caso de uso, teniendo en cuenta factores como el conocimiento del dominio y los datos de formación disponibles. Además, en esta sección se analizan las mejores prácticas médicas populares LLMs y previamente capacitadas para su selección y uso. También se analizan las ventajas y desventajas entre soluciones complejas y de alto rendimiento y enfoques más simples y de menor costo.

Casos de uso de un LLM

Amazon Comprehend Medical puede realizar tareas específicas de PNL. Para obtener más información, consulte Casos de uso de Amazon Comprehend Medical.

Las capacidades de IA lógica y generativa de un LLM pueden ser necesarias para los casos de uso avanzados de la sanidad y las ciencias de la vida, como los siguientes:

  • Clasificar entidades médicas personalizadas o categorías de texto

  • Responder a preguntas clínicas

  • Resumir los informes médicos

  • Generar y detectar información a partir de información médica

Enfoques de personalización

Es fundamental entender cómo LLMs se implementan. LLMs por lo general, se entrenan con miles de millones de parámetros, incluidos datos de entrenamiento de muchos dominios. Esta formación permite al LLM abordar las tareas más generalizadas. Sin embargo, a menudo surgen desafíos cuando se requieren conocimientos específicos de un dominio. Los códigos clínicos, la terminología médica y la información de salud que se requieren para generar respuestas precisas son algunos ejemplos de conocimientos especializados en el ámbito de la salud y las ciencias de la vida. Por lo tanto, utilizar el LLM tal cual (sin necesidad de complementar el conocimiento del dominio) para estos casos de uso probablemente arroje resultados inexactos. Existen varios enfoques populares que puede utilizar para superar este desafío: la ingeniería rápida, la generación aumentada de recuperación (RAG) y el ajuste preciso.

Ingeniería de peticiones

La ingeniería rápida es el proceso en el que se guían las soluciones de IA generativa para crear los resultados deseados ajustando las entradas al LLM. Al elaborar indicaciones precisas con un contexto relevante, es posible guiar el modelo hacia la realización de tareas sanitarias especializadas que requieren razonamiento. Una ingeniería rápida y eficaz puede mejorar considerablemente el rendimiento del modelo para los casos de uso del sector sanitario sin necesidad de modificar el modelo. Para obtener más información sobre la ingeniería rápida, consulte Implementación de la ingeniería rápida avanzada con Amazon Bedrock (entrada AWS del blog). En la ingeniería rápida se pueden utilizar técnicas de chain-of-thought creación rápida de imágenes y la generación de solicitudes.

Peticiones con pocos pasos

Las indicaciones con pocas tomas son una técnica en la que se proporcionan al LLM algunos ejemplos de la entrada/salida deseada antes de pedirle que realice una tarea similar. En contextos de atención médica, este enfoque es particularmente valioso para tareas especializadas, como el reconocimiento de entidades médicas o el resumen de notas clínicas. Al incluir de 3 a 5 ejemplos de alta calidad en su solicitud, puede mejorar significativamente la comprensión del modelo de la terminología médica y los patrones de dominios específicos. Para ver un ejemplo de indicaciones de pocas tomas, consulte Ingeniería y ajuste preciso de señales de pocas tomas en LLMs Amazon Bedrock (entrada del blog).AWS

Por ejemplo, al extraer las dosis de los medicamentos de las notas clínicas, puede proporcionar ejemplos de diferentes estilos de notación que ayuden al modelo a reconocer las variaciones en la forma en que los profesionales de la salud documentan las recetas. Este enfoque es especialmente eficaz cuando se trabaja con formatos de documentación estandarizados o cuando existen patrones consistentes en los datos.

Chain-of-thought pidiéndole

Chain-of-thought Las indicaciones (CoT) guían al LLM a través de un step-by-step proceso de razonamiento. Esto lo hace valioso para tareas complejas de apoyo a las decisiones médicas y de razonamiento diagnóstico. Al indicar explícitamente al modelo que «piense paso a paso» al analizar los escenarios clínicos, puede mejorar su capacidad para seguir los protocolos de razonamiento médico y reducir los errores de diagnóstico.

Esta técnica es excelente cuando el razonamiento clínico requiere varios pasos lógicos, como el diagnóstico diferencial o la planificación del tratamiento. Sin embargo, este enfoque tiene limitaciones cuando se trata de conocimientos médicos altamente especializados ajenos a los datos de formación del modelo o cuando se requiere una precisión absoluta para tomar decisiones de cuidados intensivos.

En estos casos, la combinación de la CoT con otro enfoque puede producir mejores resultados. Una opción es combinar el CoT con un sistema de orientación autocoherente. Para obtener más información, consulte Mejorar el rendimiento de los modelos de lenguaje generativo con mensajes de autocoherencia en Amazon Bedrock (AWS entrada del blog). Otra opción es combinar los marcos de razonamiento, como las ReAct indicaciones, con el RAG. Para obtener más información, consulte Desarrollar asistentes de IA generativos avanzados basados en el chat mediante el uso de RAG y la generación de ReAct mensajes (Guía prescriptiva).AWS

Generación aumentada de recuperación

La generación aumentada de recuperación (RAG) es una tecnología de IA generativa en la que un LLM hace referencia a una fuente de datos autorizada que se encuentra fuera de sus fuentes de datos de entrenamiento antes de generar una respuesta. Un sistema RAG puede recuperar información ontológica médica (como las clasificaciones internacionales de enfermedades, los archivos nacionales de medicamentos y los epígrafes de temas médicos) a partir de una fuente de conocimiento. Esto proporciona un contexto adicional al LLM para respaldar la tarea de la PNL médica.

Como se explica en la Combinación de Amazon Comprehend Medical con modelos lingüísticos de gran tamaño sección, puede utilizar un enfoque RAG para recuperar el contexto de Amazon Comprehend Medical. Otras fuentes de conocimiento comunes incluyen los datos de dominio médico que se almacenan en un servicio de base de datos, como Amazon OpenSearch Service, Amazon Kendra o Amazon Aurora. La extracción de información de estas fuentes de conocimiento puede afectar al rendimiento de la recuperación, especialmente en el caso de consultas semánticas que utilizan una base de datos vectorial.

Otra opción para almacenar y recuperar información específica del dominio es utilizar Amazon Q Business en el flujo de trabajo de RAG. Amazon Q Business puede indexar repositorios de documentos internos o sitios web públicos (como CMS.gov para datos de la ICD-10). Amazon Q Business puede entonces extraer la información relevante de estas fuentes antes de pasar la consulta al LLM.

Existen varias formas de crear un flujo de trabajo de RAG personalizado. Por ejemplo, hay muchas formas de recuperar datos de una fuente de conocimiento. Para simplificar, recomendamos el enfoque de recuperación habitual que consiste en utilizar una base de datos vectorial, como Amazon OpenSearch Service, para almacenar el conocimiento como incrustaciones. Esto requiere que utilice un modelo de incrustación, como un transformador de oraciones, para generar incrustaciones para la consulta y para el conocimiento almacenado en la base de datos vectorial.

Para obtener más información sobre los enfoques de RAG totalmente gestionados y personalizados, consulte las opciones y arquitecturas de Retrieval Augmented Generation en. AWS

Ajuste

El ajuste de un modelo existente implica tomar un LLM, como un modelo Amazon Titan, Mistral o Llama, y luego adaptar el modelo a sus datos personalizados. Existen varias técnicas de ajuste, la mayoría de las cuales implican modificar solo unos pocos parámetros en lugar de modificar todos los parámetros del modelo. Esto se denomina ajuste fino con eficiencia de parámetros (PEFT). Para obtener más información, consulte Hugging Face GitHub PEFT en.

Los siguientes son dos casos de uso comunes en los que puedes optar por ajustar un LLM para una tarea de PNL médica:

  • Tarea generativa: los modelos basados en decodificadores realizan tareas generativas de IA. AI/ML los profesionales utilizan datos basados en datos básicos para afinar un LLM existente. Por ejemplo, puede entrenar el LLM utilizando MedQuAD, un conjunto de datos públicos de preguntas y respuestas médicas. Cuando se invoca una consulta al LLM ajustado, no se necesita un enfoque RAG para proporcionar el contexto adicional al LLM.

  • Incrustaciones: los modelos basados en codificadores generan incrustaciones al transformar el texto en vectores numéricos. Estos modelos basados en codificadores suelen denominarse modelos de incrustación. Un modelo de transformador de oraciones es un tipo específico de modelo de incrustación que está optimizado para oraciones. El objetivo es generar incrustaciones a partir del texto introducido. Las incrustaciones se utilizan luego para el análisis semántico o en tareas de recuperación. Para afinar el modelo de integración, es necesario disponer de un corpus de conocimientos médicos, como documentos, que pueda utilizar como datos de formación. Esto se logra con pares de texto basados en la similitud o el sentimiento para afinar un modelo de transformador de oraciones. Para obtener más información, consulte Entrenamiento y ajuste de modelos de incrustación con Sentence Transformers v3 en Hugging Face.

Puedes usar Amazon SageMaker Ground Truth para crear un conjunto de datos de entrenamiento etiquetado de alta calidad. Puede utilizar la salida del conjunto de datos etiquetados de Ground Truth para entrenar sus propios modelos. También puedes usar el resultado como un conjunto de datos de entrenamiento para un modelo de Amazon SageMaker AI. Para obtener más información sobre el reconocimiento de entidades nombradas, la clasificación del texto de una sola etiqueta y la clasificación del texto de varias etiquetas, consulte Etiquetado de texto con Ground Truth en la documentación de Amazon SageMaker AI.

Para obtener más información sobre el ajuste preciso, consulte esta guíaPerfeccionamiento de modelos lingüísticos de gran tamaño en el sector sanitario.

Cómo elegir un LLM

Amazon Bedrock es el punto de partida recomendado para evaluar el alto rendimiento LLMs. Para obtener más información, consulte Modelos de base compatibles en Amazon Bedrock. Puede utilizar los trabajos de evaluación de modelos en Amazon Bedrock para comparar los resultados de varios resultados y, a continuación, elegir el modelo que mejor se adapte a su caso de uso. Para obtener más información, consulte Elegir el modelo con mejor rendimiento mediante las evaluaciones de Amazon Bedrock en la documentación de Amazon Bedrock.

Algunos LLMs tienen una formación limitada sobre datos de dominio médico. Si su caso de uso requiere ajustar un LLM o un LLM que Amazon Bedrock no admite, considere la posibilidad de utilizar Amazon AI. SageMaker En el SageMaker caso de la IA, puede utilizar un LLM ajustado con precisión o elegir un LLM personalizado que se haya formado con datos del ámbito médico.

En la siguiente tabla se enumeran las personas más populares LLMs que se han formado con datos del dominio médico.

LLM

Tareas

Conocimiento

Arquitectura

BioBert

Recuperación de información, clasificación de textos y reconocimiento de entidades nombradas

Resúmenes PubMed, artículos de texto completo y conocimientos generales del PubMedCentral dominio

Codificador

Clínica Albert

Recuperación de información, clasificación de textos y reconocimiento de entidades nombradas

Amplio conjunto de datos multicéntrico, junto con más de 3 000 000 de historias clínicas de pacientes procedentes de sistemas de historiales médicos electrónicos (EHR)

Codificador

GPT clínico

Resumen, respuesta a preguntas y generación de texto

Conjuntos de datos médicos extensos y diversos, que incluyen registros médicos, conocimientos específicos del campo y consultas de diálogo de múltiples rondas

Decodificador

GatorTron-OG

Resumen, respuesta a preguntas, generación de texto y recuperación de información

Notas clínicas y literatura biomédica

Codificador

Med-Bert

Recuperación de información, clasificación de textos y reconocimiento de entidades nombradas

Amplio conjunto de datos de textos médicos, notas clínicas, trabajos de investigación y documentos relacionados con la asistencia sanitaria

Codificador

Med-Palm

Preguntas y respuestas con fines médicos

Conjuntos de datos de textos médicos y biomédicos

Decodificador

Medalla Paca

Tareas de respuesta a preguntas y diálogo médico

Una variedad de textos médicos, que incluyen recursos como tarjetas didácticas médicas, wikis y conjuntos de datos de diálogos

Decodificador

BioMedbert

Recuperación de información, clasificación de textos y reconocimiento de entidades nombradas

Exclusivamente resúmenes PubMed y artículos a texto completo de PubMedCentral

Codificador

BioMedLM

Resumen, respuesta a preguntas y generación de texto

Literatura biomédica a partir de fuentes de conocimiento PubMed

Decodificador

Las siguientes son las mejores prácticas para utilizar medicamentos previamente entrenados: LLMs

  • Comprenda los datos de entrenamiento y su relevancia para su tarea médica de PNL.

  • Identifique la arquitectura LLM y su propósito. Los codificadores son adecuados para las incrustaciones y las tareas de PNL. Los decodificadores son para tareas de generación.

  • Evalúe los requisitos de infraestructura, rendimiento y costo para alojar el LLM médico previamente formado.

  • Si es necesario realizar un ajuste preciso, asegúrese de que los datos de entrenamiento estén bien fundamentados o estén bien informados. Asegúrese de ocultar o borrar cualquier información de identificación personal (PII) o información de salud protegida (PHI).

Las tareas de la PNL médica en el mundo real pueden diferir de las previamente entrenadas LLMs en términos de conocimiento o casos de uso previstos. Si un LLM específico para un dominio específico no cumple con los parámetros de evaluación, puedes ajustar un LLM con tu propio conjunto de datos o puedes desarrollar un nuevo modelo básico. Formar un nuevo modelo básico es una tarea ambiciosa y, a menudo, costosa. Para la mayoría de los casos de uso, recomendamos ajustar un modelo existente.

Al utilizar o ajustar un LLM médico previamente entrenado, es importante tener en cuenta la infraestructura, la seguridad y las barreras.

Infraestructura

En comparación con el uso de Amazon Bedrock para la inferencia por lotes o bajo demanda, alojar servicios médicos previamente entrenados LLMs (por lo general, de Hugging Face) requiere una cantidad considerable de recursos. Para alojar servicios médicos previamente entrenados LLMs, es habitual utilizar una imagen de SageMaker IA de Amazon que se ejecute en una instancia de Amazon Elastic Compute Cloud (Amazon EC2) con una o más GPUs, como instancias ml.g5 para computación acelerada o instancias ml.inf2 para. AWS Inferentia Esto se debe a que LLMs consumen una gran cantidad de memoria y espacio en disco.

Seguridad y barandas

Según los requisitos de conformidad de su empresa, considere la posibilidad de utilizar Amazon Comprehend y Amazon Comprehend Medical para ocultar o redactar la información de identificación personal (PII) y la información de salud protegida (PHI) de los datos de formación. Esto ayuda a evitar que el LLM utilice datos confidenciales al generar respuestas.

Te recomendamos que consideres y evalúes los prejuicios, la imparcialidad y las alucinaciones en tus aplicaciones de IA generativa. Ya sea que utilices un LLM preexistente o uno que estés perfeccionando, implementa barreras para evitar respuestas dañinas. Las barandillas son dispositivos de protección que puede personalizar para adaptarlos a los requisitos generativos de las aplicaciones de IA y a las políticas de IA responsables. Por ejemplo, puede usar Amazon Bedrock Guardrails.