在醫療保健領域微調大型語言模型 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在醫療保健領域微調大型語言模型

本節中描述的微調方法支援遵守道德和法規準則,並促進在醫療保健中負責任地使用 AI 系統。它旨在產生準確且私密的洞見。生成式 AI 正在徹底改變醫療保健交付,但off-the-shelf模型在準確性至關重要且合規性不可協商的臨床環境中通常很短。使用網域特定資料微調基礎模型可彌補此差距。它可協助您建立能說醫學語言的 AI 系統,同時遵守嚴格的法規標準。不過,成功微調的途徑需要仔細導覽醫療保健的獨特挑戰:保護敏感資料、以可衡量的結果證明 AI 投資的合理性,以及在快速發展的醫療環境中維持臨床相關性。

當較輕量的方法達到限制時,微調會成為策略投資。預期準確度、延遲或營運效率的獲得將抵銷所需的大量運算和工程成本。請務必記住,基礎模型的進度速度很快,因此微調後的模型優點可能只會持續到下一個主要模型版本為止。

本節以以下兩個醫療保健客戶高影響的使用案例 AWS 為基礎討論:

  • 臨床決策支援系統 – 透過了解複雜患者歷史記錄和不斷發展準則的模型來提高診斷準確性。微調可協助模型深入了解複雜的病患歷史記錄,並整合專門的指導方針 這可能會減少模型預測錯誤。不過,您需要權衡這些收益與對大型敏感資料集進行訓練的成本,以及高風險臨床應用程式所需的基礎設施。提高的準確性和內容感知性是否會使投資合理,尤其是在頻繁發佈新模型時?

  • 醫療文件分析 – 自動化處理臨床筆記、影像報告和保險文件,同時維持健康保險流通與責任法案 (HIPAA) 合規。在這裡,微調可讓模型更有效地處理唯一格式、特殊縮寫和法規要求。回報通常出現在減少的手動審核時間和改善的合規性中。不過,評估這些改進是否足夠重要,以保證微調資源是至關重要的。判斷提示工程和工作流程協調是否可以滿足您的需求。

這些真實世界案例說明從初始實驗到模型部署的微調旅程,同時在每個階段處理醫療保健的獨特需求。

預估成本和投資報酬率

以下是微調 LLM 時必須考量的成本因素:

  • 模型大小 – 較大的模型進行微調的成本更高

  • 資料集大小 – 運算成本和時間會隨著資料集的大小而增加,以進行微調

  • 微調策略 – 相較於完整的參數更新,參數效率方法可以降低成本

計算投資報酬率 (ROI) 時,請考慮您選擇的指標 (例如準確性) 的改進乘以請求量 (使用模型的頻率),以及模型超過較新版本之前的預期持續時間。

此外,請考慮基本 LLM 的生命週期。新的基礎模型每 6–12 個月出現一次。如果您罕見疾病偵測器需要 8 個月的時間進行微調和驗證,在較新的模型縮小差距之前,您可能只會獲得 4 個月的卓越效能。

透過計算使用案例的成本、投資報酬率和潛在的生命週期,您可以做出資料驅動型決策。例如,如果微調您的臨床決策支援模型會導致每年數千個案例的診斷錯誤大幅減少,投資可能會快速獲得回報。相反地,如果單獨使用提示詞工程使文件分析工作流程接近您的目標準確性,則可能明智地延遲微調,直到下一代模型到達。

微調不是 one-size-fits-all。如果您決定微調,正確的方法取決於您的使用案例、資料和資源。

選擇微調策略

在您確定微調是醫療保健使用案例的正確方法之後,下一步是選擇最適合的微調策略。有數種方法可用。每個 都有不同的醫療保健應用程式優勢和權衡。這些方法的選擇取決於您的特定目標、可用資料和資源限制。

訓練目標

網域調適性預先訓練 (DAPT) 是一種非監督式方法,涉及在大量未標記的網域特定文字 (例如數百萬份醫療文件) 上預先訓練模型。此方法非常適合改善模型了解醫學專科縮寫的能力,以及放射師、神經學家和其他專業提供者所使用的術語。不過,DAPT 需要大量資料,而且不會處理特定任務輸出。

監督式微調 (SFT) 會教導模型使用結構化輸入輸出範例來遵循明確指示。這種方法適用於醫療文件分析工作流程,例如文件摘要或臨床編碼。指令調校是一種常見的 SFT 形式,其中模型根據範例進行訓練,其中包括搭配所需輸出的明確指示。這可增強模型了解和遵循各種使用者提示的能力。這種技術在醫療保健環境中特別有用,因為它使用特定的臨床範例來訓練模型。主要缺點是它需要仔細標記的範例。此外,微調後的模型可能會遇到沒有範例的邊緣案例。如需使用 Amazon SageMaker Jumpstart 進行微調的指示,請參閱使用 Amazon SageMaker Jumpstart 微調 FLAN T5 XL 的說明 (AWS 部落格文章)。

從人類意見回饋 (RLHF) 進行強化學習會根據專家意見回饋和偏好設定最佳化模型行為。使用根據人力偏好和方法訓練的獎勵模型,例如近端政策最佳化 (PPO)直接偏好最佳化 (DPO),來最佳化模型,同時防止破壞性更新。RLHF 非常適合讓輸出符合臨床準則,並確保建議保持在核准的通訊協定內。這種方法需要大量的臨床醫生時間來提供意見回饋,並涉及複雜的訓練管道。不過,RLHF 在醫療保健領域特別有價值,因為它有助於醫療專家塑造 AI 系統通訊和提出建議的方式。例如,臨床醫生可以提供意見回饋,以確保模型維持適當的床邊方式、知道何時表達不確定性,並保持在臨床指導方針內。PPO 等技術會根據專家意見回饋反覆最佳化模型行為,同時限制參數更新以保留核心醫學知識。這可讓模型以易於使用的語言傳達複雜的診斷,同時仍標記嚴重條件以立即進行醫療。這對於準確性和溝通風格都很重要的醫療保健至關重要。如需 RLHF 的詳細資訊,請參閱使用人工或 AI 意見回饋的強化學習來微調大型語言模型 (AWS 部落格文章)。

實作方法

完整參數更新包括在訓練期間更新所有模型參數。此方法最適合需要深度整合患者歷史記錄、實驗室結果和不斷發展的指導方針的臨床決策支援系統。如果您的資料集不大且多樣化,缺點包括高運算成本和過度擬合的風險。

參數效率的微調 (PEFT) 方法只會更新一部分參數,以防止過度擬合或嚴重遺失語言功能。類型包括低階適應 (LoRA)、轉接器和字首調校。PEFT 方法提供較低的運算成本、更快的訓練,非常適合用於實驗,例如根據新醫院的通訊協定或術語調整臨床決策支援模型。與完整參數更新相比,主要限制可能會降低效能。

如需微調方法的詳細資訊,請參閱 Amazon SageMaker AI 上的進階微調方法 (AWS 部落格文章)。

建置微調資料集

微調資料集的品質和多樣性對於模型效能、安全性和預防偏差至關重要。以下是建置此資料集時需要考慮的三個關鍵領域:

  • 根據微調方法的磁碟區

  • 網域專家的資料註釋

  • 資料集的多樣性

如下表所示,微調的資料集大小需求會根據所執行微調的類型而有所不同。

微調策略

資料集大小

網域調整預先訓練

超過 100,000 個網域文字

受監督的微調

超過 10,000 個已標記的配對

從人類意見回饋中強化學習

超過 1,000 個專家偏好設定對

您可以使用 AWS GlueAmazon EMRAmazon SageMaker Data Wrangler 自動化資料擷取和轉換程序,以策劃您擁有的資料集。如果您無法策劃夠大的資料集,您可以透過 直接探索並下載資料集到您的 AWS 帳戶 AWS Data Exchange。使用任何第三方資料集之前,請先諮詢您的法律顧問。

具有領域知識的專家註釋,例如醫生、生物學家和化學家,應該是資料策劃過程的一部分,以便將醫療和生物資料的細微差別納入模型輸出中。Amazon SageMaker Ground Truth 提供低程式碼使用者介面,讓專家註釋資料集。

代表人類人口的資料集對於醫療保健和生命科學微調使用案例至關重要,以防止偏差並反映真實的結果。AWS Glue 互動式工作階段Amazon SageMaker 筆記本執行個體提供一種強大的方法,透過使用 Jupyter 相容的筆記本反覆探索資料集和微調轉換。互動式工作階段可讓您在本機環境中使用熱門的整合開發環境 IDEs)。或者,您可以透過 使用 AWS Glue 或 Amazon SageMaker Studio 筆記本 AWS 管理主控台。

微調模型

AWS 提供 Amazon SageMaker AIAmazon Bedrock 等服務,這些服務對於成功微調至關重要。

SageMaker AI 是一種全受管的機器學習服務,可協助開發人員和資料科學家快速建置、訓練和部署 ML 模型。SageMaker AI 用於微調的三個實用功能包括:

  • SageMaker Training – 全受管 ML 功能,可協助您大規模有效率地訓練各種模型

  • SageMaker JumpStart – 以 SageMaker 訓練任務為基礎建置的功能,可為 ML 任務提供預先訓練的模型、內建演算法和解決方案範本

  • SageMaker HyperPod – 專用基礎設施解決方案,用於基礎模型和 LLMs的分散式訓練

Amazon Bedrock 是一項全受管服務,可透過 API 存取高效能的基礎模型,並具有內建的安全性、隱私權和可擴展性功能。此服務提供微調數個可用基礎模型的功能。如需詳細資訊,請參閱 Amazon Bedrock 文件中的支援模型和區域,以進行微調和持續的預先訓練

使用任一服務處理微調程序時,請考慮基本模型、微調策略和基礎設施。

基礎模型選擇

封閉式來源模型,例如 Anthropic Claude、Meta Llama 和 Amazon Nova,可提供強大的out-of-the-box效能與受管合規,但會將微調彈性限制在供應商支援的選項,例如 APIs Amazon Bedrock。這限制了可自訂性,尤其是受監管的醫療保健使用案例。相反地,Meta Llama 等開放原始碼模型跨 Amazon SageMaker AI 服務提供完全的控制和彈性,因此當您需要自訂、稽核或深度調整模型以滿足您的特定資料或工作流程需求時,它們是理想的選擇。

微調策略

Amazon Bedrock 模型自訂或 Amazon SageMaker JumpStart 可以處理簡單的指令調校。複雜的 PEFT 方法,例如 LoRA 或轉接器,需要 SageMaker 訓練任務或 Amazon Bedrock 中的自訂微調功能。SageMaker HyperPod 支援非常大型模型的分散式訓練。

基礎設施擴展和控制

Amazon Bedrock 等全受管服務可將基礎設施管理降至最低,非常適合優先考慮易用性和合規性的組織。半受管選項,例如 SageMaker JumpStart,提供一些靈活性和更低的複雜性。這些選項適用於快速原型或使用預先建置的工作流程時。完全控制和自訂隨附 SageMaker Training 任務和 HyperPod,雖然這些任務需要更多專業知識,但最適合您需要擴展大型資料集或需要自訂管道時。

監控微調的模型

在醫療保健和生命科學中,監控 LLM 微調需要追蹤多個關鍵績效指標。準確度提供基準測量,但必須平衡精確度和召回率,尤其是在分類錯誤帶來重大後果的應用程式中。F1-score有助於解決醫療資料集中常見的類別不平衡問題。如需詳細資訊,請參閱本指南中的 評估醫療和生命科學應用程式的 LLMs

校正指標可協助您確保模型的可信度層級符合實際機率。公平性指標可協助您偵測不同病患人口統計特性的潛在偏差。

MLflow 是一種開放原始碼解決方案,可協助您追蹤微調實驗。Amazon SageMaker AI 原生支援 MLflow,可協助您以視覺化方式比較訓練執行中的指標。對於 Amazon Bedrock 上的微調任務,指標會串流到 Amazon CloudWatch,讓您可以在 CloudWatch 主控台中視覺化指標。