Ottimizzazione di modelli linguistici di grandi dimensioni nel settore sanitario - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione di modelli linguistici di grandi dimensioni nel settore sanitario

L'approccio di messa a punto descritto in questa sezione supporta la conformità alle linee guida etiche e normative e promuove l'uso responsabile dei sistemi di intelligenza artificiale nel settore sanitario. È progettato per generare informazioni accurate e private. L'intelligenza artificiale generativa sta rivoluzionando l'assistenza sanitaria, ma off-the-shelf i modelli spesso non sono all'altezza negli ambienti clinici in cui la precisione è fondamentale e la conformità non è negoziabile. L'ottimizzazione dei modelli di base con dati specifici del dominio colma questa lacuna. Ti aiuta a creare sistemi di intelligenza artificiale che parlano il linguaggio della medicina rispettando al contempo rigorosi standard normativi. Tuttavia, il percorso verso una messa a punto di successo richiede un'attenta analisi delle sfide uniche dell'assistenza sanitaria: proteggere i dati sensibili, giustificare gli investimenti nell'IA con risultati misurabili e mantenere la rilevanza clinica in un panorama medico in rapida evoluzione.

Quando gli approcci più leggeri raggiungono i loro limiti, la messa a punto diventa un investimento strategico. L'aspettativa è che i miglioramenti in termini di precisione, latenza o efficienza operativa compenseranno i significativi costi di calcolo e progettazione richiesti. È importante ricordare che il ritmo di avanzamento dei modelli di base è rapido, quindi il vantaggio di un modello ottimizzato potrebbe durare solo fino alla prossima release principale del modello.

Questa sezione analizza la discussione sui seguenti due casi d'uso ad alto impatto da parte di clienti del settore sanitario: AWS

  • Sistemi di supporto alle decisioni cliniche: migliorano l'accuratezza diagnostica attraverso modelli che comprendono le storie complesse dei pazienti e le linee guida in evoluzione. La messa a punto può aiutare i modelli a comprendere a fondo le storie complesse dei pazienti e a integrare linee guida specializzate. Ciò può potenzialmente ridurre gli errori di previsione dei modelli. Tuttavia, è necessario soppesare questi vantaggi rispetto al costo della formazione su set di dati sensibili di grandi dimensioni e all'infrastruttura necessaria per applicazioni cliniche ad alto rischio. La maggiore precisione e consapevolezza del contesto giustificheranno l'investimento, soprattutto quando nuovi modelli vengono rilasciati frequentemente?

  • Analisi dei documenti medici: automatizza l'elaborazione di note cliniche, report di imaging e documenti assicurativi mantenendo la conformità all'Health Insurance Portability and Accountability Act (HIPAA). In questo caso, la messa a punto può consentire al modello di gestire in modo più efficace formati unici, abbreviazioni specializzate e requisiti normativi. I vantaggi si ottengono spesso grazie alla riduzione dei tempi di revisione manuale e al miglioramento della conformità. Tuttavia, è essenziale valutare se questi miglioramenti sono sufficientemente sostanziali da giustificare le risorse necessarie per la messa a punto. Determina se la progettazione tempestiva e l'orchestrazione del flusso di lavoro sono in grado di soddisfare le tue esigenze.

Questi scenari reali illustrano il percorso di perfezionamento, dalla sperimentazione iniziale all'implementazione del modello, soddisfacendo al contempo i requisiti unici dell'assistenza sanitaria in ogni fase.

Stima dei costi e del ritorno sull'investimento

Di seguito sono riportati i fattori di costo da considerare quando si perfeziona un LLM:

  • Dimensioni del modello: i modelli più grandi costano di più per la messa a punto

  • Dimensioni del set di dati: i costi e i tempi di elaborazione aumentano con la dimensione del set di dati per la messa a punto

  • Strategia di ottimizzazione: i metodi efficienti in termini di parametri possono ridurre i costi rispetto agli aggiornamenti completi dei parametri

Nel calcolare il ritorno sull'investimento (ROI), considerate il miglioramento delle metriche scelte (ad esempio la precisione) moltiplicato per il volume delle richieste (con quale frequenza verrà utilizzato il modello) e la durata prevista prima che il modello venga superato dalle versioni più recenti.

Inoltre, considera la durata del tuo LLM di base. Nuovi modelli base emergono ogni 6-12 mesi. Se il tuo rilevatore di malattie rare impiega 8 mesi per perfezionare e convalidare, potresti ottenere solo 4 mesi di prestazioni superiori prima che i modelli più recenti colmino il divario.

Calcolando i costi, il ROI e la potenziale durata di vita per il tuo caso d'uso, puoi prendere una decisione basata sui dati. Ad esempio, se l'ottimizzazione del modello di supporto alle decisioni cliniche porta a una riduzione misurabile degli errori diagnostici in migliaia di casi all'anno, l'investimento potrebbe ripagare rapidamente. Al contrario, se la sola progettazione tempestiva consente di avvicinare il flusso di lavoro per l'analisi dei documenti alla precisione prefissata, potrebbe essere saggio rimandare la messa a punto fino all'arrivo della prossima generazione di modelli.

one-size-fits-allLa messa a punto non lo è. Se decidi di perfezionare, l'approccio giusto dipende dal caso d'uso, dai dati e dalle risorse.

Scelta di una strategia di messa a punto

Dopo aver stabilito che la messa a punto è l'approccio giusto per il vostro caso d'uso nel settore sanitario, il passo successivo consiste nella selezione della strategia di messa a punto più appropriata. Sono disponibili diversi approcci. Ciascuno presenta vantaggi e compromessi distinti per le applicazioni sanitarie. La scelta tra questi metodi dipende dagli obiettivi specifici, dai dati disponibili e dai limiti delle risorse.

Obiettivi di formazione

Il pre-training adattivo al dominio (DAPT) è un metodo senza supervisione che prevede la formazione preliminare del modello su un ampio corpus di testo specifico del dominio e senza etichetta (come milioni di documenti medici). Questo approccio è ideale per migliorare la capacità dei modelli di comprendere le abbreviazioni delle specialità mediche e la terminologia utilizzata da radiologi, neurologi e altri fornitori specializzati. Tuttavia, DAPT richiede grandi quantità di dati e non affronta attività specifiche.

Il Supervised Fine-Tuning (SFT) insegna al modello a seguire istruzioni esplicite utilizzando esempi strutturati di input-output. Questo approccio eccelle per i flussi di lavoro di analisi dei documenti medici, come il riepilogo dei documenti o la codifica clinica. L'ottimizzazione delle istruzioni è una forma comune di SFT in cui il modello viene addestrato sulla base di esempi che includono istruzioni esplicite abbinate agli output desiderati. Ciò migliora la capacità del modello di comprendere e seguire le diverse istruzioni dell'utente. Questa tecnica è particolarmente utile in ambito sanitario perché addestra il modello con esempi clinici specifici. Lo svantaggio principale è che richiede esempi accuratamente etichettati. Inoltre, il modello perfezionato potrebbe avere problemi con casi limite in cui non ci sono esempi. Per istruzioni sulla messa a punto con Amazon SageMaker Jumpstart, consulta Istruzioni di ottimizzazione per FLAN T5 XL con Amazon Jumpstart (post di blog). SageMaker AWS

L'apprendimento per rinforzo dal feedback umano (RLHF) ottimizza il comportamento del modello in base al feedback e alle preferenze degli esperti. Utilizza un modello di ricompensa basato sulle preferenze e sui metodi umani, come l'ottimizzazione delle politiche prossimali (PPO) o l'ottimizzazione delle preferenze dirette (DPO), per ottimizzare il modello evitando aggiornamenti distruttivi. RLHF è ideale per allineare i risultati alle linee guida cliniche e assicurarsi che le raccomandazioni rientrino nei protocolli approvati. Questo approccio richiede molto tempo da parte del medico per il feedback e prevede una pipeline di formazione complessa. Tuttavia, RLHF è particolarmente utile nel settore sanitario perché aiuta gli esperti medici a modellare il modo in cui i sistemi di intelligenza artificiale comunicano e formulano raccomandazioni. Ad esempio, i medici possono fornire feedback per assicurarsi che il modello mantenga un atteggiamento appropriato al paziente, sappia quando esprimere incertezze e rispetti le linee guida cliniche. Tecniche come il PPO ottimizzano iterativamente il comportamento del modello sulla base del feedback degli esperti, limitando al contempo gli aggiornamenti dei parametri per preservare le conoscenze mediche di base. Ciò consente ai modelli di formulare diagnosi complesse in un linguaggio adatto al paziente, pur segnalando condizioni gravi da sottoporre a cure mediche immediate. Questo è fondamentale per l'assistenza sanitaria, dove sia la precisione che lo stile di comunicazione sono importanti. Per ulteriori informazioni su RLHF, consulta Ottimizzazione di modelli linguistici di grandi dimensioni con l'apprendimento per rinforzo basato sul feedback umano o basato sull'intelligenza artificiale (post sul blog).AWS

Metodi di implementazione

Un aggiornamento completo dei parametri comporta l'aggiornamento di tutti i parametri del modello durante l'addestramento. Questo approccio funziona meglio per i sistemi di supporto alle decisioni cliniche che richiedono una profonda integrazione delle storie dei pazienti, dei risultati di laboratorio e delle linee guida in evoluzione. Gli svantaggi includono costi di elaborazione elevati e rischio di sovraadattamento se il set di dati non è ampio e diversificato.

I metodi PEFT (Parameter-Efficient Fine-Tuning) aggiornano solo un sottoinsieme di parametri per evitare un sovraadattamento o una perdita catastrofica delle funzionalità linguistiche. I tipi includono l'adattamento a basso rango (LoRa), gli adattatori e l'ottimizzazione dei prefissi. I metodi PEFT offrono costi computazionali inferiori, una formazione più rapida e sono ideali per esperimenti come l'adattamento di un modello di supporto decisionale clinico ai nuovi protocolli o alla terminologia di un nuovo ospedale. La limitazione principale è rappresentata dalla potenziale riduzione delle prestazioni rispetto agli aggiornamenti completi dei parametri.

Per ulteriori informazioni sui metodi di fine-tuning, consulta Advanced fine-tuning methods on SageMaker Amazon AI (post del blog).AWS

Creazione di un set di dati di ottimizzazione

La qualità e la diversità del set di dati di ottimizzazione sono fondamentali per le prestazioni del modello, la sicurezza e la prevenzione delle distorsioni. Di seguito sono riportate tre aree critiche da considerare durante la creazione di questo set di dati:

  • Volume basato su un approccio di ottimizzazione

  • Annotazione dei dati fornita da un esperto del settore

  • Diversità del set di dati

Come illustrato nella tabella seguente, i requisiti relativi alle dimensioni del set di dati per la regolazione fine variano in base al tipo di ottimizzazione eseguita.

Strategia di messa a punto

Dimensioni del set di dati

Formazione preliminare adattata al dominio

Oltre 100.000 testi di dominio

Ottimizzazione supervisionata

Oltre 10.000 paia etichettate

Apprendimento per rinforzo basato sul feedback umano

Oltre 1.000 coppie di preferenze di esperti

Puoi utilizzare AWS GlueAmazon EMR e Amazon SageMaker Data Wrangler per automatizzare il processo di estrazione e trasformazione dei dati per curare un set di dati di tua proprietà. Se non sei in grado di curare un set di dati sufficientemente grande, puoi scoprire e scaricare i set di dati direttamente nel tuo sito. Account AWS AWS Data Exchange Consulta il tuo consulente legale prima di utilizzare set di dati di terze parti.

Annotatori esperti con conoscenze di settore, come medici, biologi e chimici, dovrebbero far parte del processo di cura dei dati per incorporare le sfumature dei dati medici e biologici nell'output del modello. Amazon SageMaker Ground Truth fornisce un'interfaccia utente a basso codice per consentire agli esperti di annotare il set di dati.

Un set di dati che rappresenti la popolazione umana è essenziale per ottimizzare i casi d'uso nel settore sanitario e delle scienze biologiche per evitare distorsioni e riflettere i risultati del mondo reale. AWS Glue le sessioni interattive o le istanze di SageMaker notebook Amazon offrono un modo efficace per esplorare in modo iterativo i set di dati e ottimizzare le trasformazioni utilizzando notebook compatibili con Jupyter. Le sessioni interattive ti consentono di lavorare con una scelta di ambienti di sviluppo integrati più diffusi () nel tuo ambiente locale. IDEs In alternativa, puoi lavorare con AWS Glue i nostri notebook Amazon SageMaker Studio tramite. Console di gestione AWS

Ottimizzazione del modello

AWS fornisce servizi come Amazon SageMaker AI e Amazon Bedrock che sono fondamentali per una messa a punto di successo.

SageMaker L'intelligenza artificiale è un servizio di machine learning completamente gestito che aiuta gli sviluppatori e i data scientist a creare, addestrare e implementare rapidamente modelli di machine learning. Tre funzioni utili dell' SageMaker IA per la messa a punto includono:

  • SageMakerFormazione: una funzionalità di machine learning completamente gestita che consente di addestrare in modo efficiente un'ampia gamma di modelli su larga scala

  • SageMaker JumpStart— Una funzionalità che si basa sui lavori di SageMaker formazione per fornire modelli preaddestrati, algoritmi integrati e modelli di soluzioni per le attività di machine learning

  • SageMaker HyperPod— Una soluzione di infrastruttura appositamente progettata per la formazione distribuita dei modelli di base e LLMs

Amazon Bedrock è un servizio completamente gestito che fornisce l'accesso a modelli di base ad alte prestazioni tramite un'API, con funzionalità integrate di sicurezza, privacy e scalabilità. Il servizio offre la possibilità di perfezionare diversi modelli di base disponibili. Per ulteriori informazioni, consulta Modelli e regioni supportati per la messa a punto e la formazione preliminare continua nella documentazione di Amazon Bedrock.

Quando affronti il processo di messa a punto con uno dei due servizi, prendi in considerazione il modello base, la strategia di messa a punto e l'infrastruttura.

Scelta del modello base

I modelli closed-source, come Anthropic Claude, Meta Llama e Amazon Nova, offrono out-of-the-box prestazioni elevate con conformità gestita, ma limitano la flessibilità di ottimizzazione alle opzioni supportate dal provider, ad esempio gestite come Amazon Bedrock. APIs Ciò limita la personalizzabilità, in particolare per i casi d'uso sanitari regolamentati. Al contrario, i modelli open source, come Meta Llama, offrono controllo e flessibilità completi su tutti i servizi di SageMaker intelligenza artificiale di Amazon, rendendoli ideali quando devi personalizzare, controllare o adattare profondamente un modello ai tuoi requisiti specifici di dati o flussi di lavoro.

Strategia di perfezionamento

La semplice regolazione delle istruzioni può essere gestita tramite la personalizzazione del modello Amazon Bedrock o Amazon. SageMaker JumpStart Approcci PEFT complessi, come LoRa o adattatori, richiedono lavori di SageMaker formazione o funzionalità di ottimizzazione personalizzate in Amazon Bedrock. La formazione distribuita per modelli molto grandi è supportata da. SageMaker HyperPod

Scalabilità e controllo dell'infrastruttura

I servizi completamente gestiti, come Amazon Bedrock, riducono al minimo la gestione dell'infrastruttura e sono ideali per le organizzazioni che danno priorità alla facilità d'uso e alla conformità. Le opzioni semi-gestite, ad esempio SageMaker JumpStart, offrono una certa flessibilità con una minore complessità. Queste opzioni sono adatte per la prototipazione rapida o per l'utilizzo di flussi di lavoro predefiniti. Il pieno controllo e la personalizzazione derivano dai lavori di SageMaker formazione, che HyperPod, sebbene richiedano maggiore esperienza, sono ideali quando è necessario scalare per set di dati di grandi dimensioni o richiedere pipeline personalizzate.

Monitoraggio di modelli ottimizzati

Nel settore sanitario e delle scienze della vita, il monitoraggio della messa a punto del LLM richiede il monitoraggio di più indicatori chiave di performance. L'accuratezza fornisce una misurazione di base, ma questa deve essere bilanciata con la precisione e il richiamo, in particolare nelle applicazioni in cui le classificazioni errate comportano conseguenze significative. Il punteggio F1 aiuta a risolvere i problemi di squilibrio di classe che possono essere comuni nei set di dati medici. Per ulteriori informazioni sul tagging, consulta Valutazione LLMs per applicazioni nel settore sanitario e delle scienze della vitain questa guida.

Le metriche di calibrazione aiutano a garantire che i livelli di confidenza del modello corrispondano alle probabilità del mondo reale. Le metriche di equità possono aiutarti a rilevare potenziali pregiudizi nei diversi dati demografici dei pazienti.

MLflowè una soluzione open source che può aiutarti a tenere traccia degli esperimenti di messa a punto. MLflow è supportato nativamente all'interno di Amazon SageMaker AI, il che ti aiuta a confrontare visivamente le metriche dei corsi di formazione. Per i lavori di ottimizzazione su Amazon Bedrock, le metriche vengono trasmesse in streaming ad Amazon CloudWatch in modo da poterle visualizzare nella console. CloudWatch