微调医疗保健中的大型语言模型 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

微调医疗保健中的大型语言模型

本节中描述的微调方法支持遵守道德和监管准则,并促进在医疗保健中负责任地使用人工智能系统。它旨在生成准确、私密的见解。生成式人工智能正在彻底改变医疗保健的交付,但在准确性至关重要且合规性不可谈判的临床环境中, off-the-shelf模型往往不够完善。使用特定领域数据微调基础模型弥合了这一差距。它可以帮助您创建讲医学语言的人工智能系统,同时遵守严格的监管标准。但是,成功的微调之路需要仔细研究医疗保健面临的独特挑战:保护敏感数据,用可衡量的结果证明人工智能投资的合理性,以及在快速变化的医疗环境中保持临床相关性。

当轻量化方法达到极限时,微调就成为一项战略投资。预计精度、延迟或运营效率的提高将抵消所需的巨额计算和工程成本。重要的是要记住,基础模型的进展速度很快,因此经过微调的模型的优势可能要持续到下一个主要模型的发布。

本节将讨论以下两个来自 AWS 医疗保健客户的高影响力用例作为讨论的基础:

  • 临床决策支持系统 — 通过了解复杂患者病史和不断演变的指导方针的模型,提高诊断准确性。微调可以帮助模型深入了解复杂的患者病史并整合专门的指导方针。这有可能减少模型预测错误。但是,您需要权衡这些收益与大型敏感数据集的培训成本和高风险临床应用所需的基础架构。提高的准确性和情境感知能力是否证明投资是合理的,尤其是在频繁发布新车型的情况下?

  • 医疗文件分析 — 自动处理临床记录、影像报告和保险文件,同时保持《健康保险便携性和责任法案》(HIPAA) 的合规性。在这里,微调可以使模型更有效地处理独特的格式、专门的缩写和监管要求。回报通常体现在减少人工审查时间和提高合规性上。尽管如此,还是必须评估这些改进是否足够大,足以保证微调资源。确定及时的工程和工作流程协调能否满足您的需求。

这些真实场景说明了从最初的实验到模型部署的微调过程,同时满足了医疗保健在每个阶段的独特需求。

估算成本和投资回报

以下是微调法学硕士学位时必须考虑的成本因素:

  • 模型大小 — 较大的模型微调成本更高

  • 数据集大小-计算成本和时间会随着数据集的大小而增加,以便进行微调

  • 微调策略 — 与完整参数更新相比,具有参数效率的方法可以降低成本

在计算投资回报率 (ROI) 时,请考虑所选指标(例如准确性)的改善乘以请求量(模型的使用频率)以及新版本超越模型之前的预期持续时间。

另外,请考虑基础法学硕士的寿命。每隔 6-12 个月就会出现新的基础模型。如果您的罕见病检测器需要8个月的时间进行微调和验证,那么在较新的型号缩小差距之前,您可能只能获得4个月的卓越性能。

通过计算用例的成本、投资回报率和潜在寿命,您可以做出以数据为导向的决策。例如,如果微调您的临床决策支持模型可以显著减少每年成千上万例病例的诊断错误,那么投资可能会很快得到回报。相反,如果仅凭即时工程就能使您的文档分析工作流程接近目标精度,那么明智的做法是推迟微调,直到下一代模型问世。

微调不 one-size-fits-all是。如果您决定进行微调,则正确的方法取决于您的用例、数据和资源。

选择微调策略

在确定微调是适合您的医疗保健用例的正确方法之后,下一步就是选择最合适的微调策略。有几种方法可供选择。对于医疗保健应用,每种方法都有明显的优势和权衡取舍。这些方法之间的选择取决于您的具体目标、可用数据和资源限制。

培训目标

领域自适应预训练 (DAPT) 是一种无人监督的方法,它涉及在大量特定领域的、未加标签的文本(例如数百万份医疗文档)上对模型进行预训练。这种方法非常适合提高模型理解放射科医生、神经科医生和其他专业提供者使用的医学专业缩写和术语的能力。但是,DAPT 需要大量数据,并且不涉及特定的任务输出。

监督微调 (SFT) 使用结构化输入输出示例,教导模型遵循明确的指令。这种方法非常适合医学文档分析工作流程,例如文档摘要或临床编码。指令调谐是 SFT 的一种常见形式,其中模型根据示例进行训练,这些示例包括与所需输出配对的显式指令。这增强了模型理解和遵循不同用户提示的能力。该技术在医疗保健环境中特别有价值,因为它使用特定的临床示例来训练模型。主要缺点是它需要精心标记的示例。此外,经过微调的模型可能会难以应对没有示例的边缘情况。有关使用 Amazon Jumpstar SageMaker t 进行微调的说明,请参阅使用 Amazon Jumpstart 对 FLAN T5 XL 进行指令微调(博 SageMaker 客文章)。AWS

通过@@ 人工反馈进行强化学习 (RLHF) 可根据专家反馈和偏好优化模型行为。使用根据人类偏好和方法(例如近端策略优化 (PPO) 或直接偏好优化 (D PO))进行训练的奖励模型来优化模型,同时防止破坏性更新。RLHF 非常适合使产出与临床指南保持一致,并确保建议保持在批准的方案之内。这种方法需要大量的临床医生时间来获得反馈,并且涉及复杂的培训流程。但是,RLHF在医疗保健领域特别有价值,因为它可以帮助医学专家塑造人工智能系统的沟通方式并提出建议。例如,临床医生可以提供反馈,以确保模型保持适当的床边方式,知道何时表达不确定性,并保持在临床指南范围内。PPO 等技术可根据专家反馈迭代优化模型行为,同时限制参数更新以保留核心医学知识。这使模型能够以患者友好的语言传达复杂的诊断,同时仍能标记严重病情以立即就医。这对于医疗保健至关重要,因为准确性和沟通方式都很重要。有关 RLHF 的更多信息,请参阅利用人类或人工智能反馈的强化学习对大型语言模型进行微调(AWS 博客文章)。

实现方法

完整参数更新涉及在训练期间更新所有模型参数。这种方法最适合需要深度整合患者病史、实验室结果和不断演变的指南的临床决策支持系统。缺点包括计算成本高,如果您的数据集不大且不多样化,则存在过度拟合的风险。

参数高效微调 (PEFT) 方法仅更新参数的子集,以防止过度拟合或语言能力的灾难性损失。类型包括低等级自适应 (LoRa)、适配器和前缀调整。PEFT 方法的计算成本更低,训练速度更快,并且非常适合诸如根据新医院的方案或术语调整临床决策支持模型之类的实验。主要限制是与完整参数更新相比,性能可能会降低。

有关微调方法的更多信息,请参阅 Amazon A SageMaker I 上的高级微调方法(AWS 博客文章)。

构建微调数据集

微调数据集的质量和多样性对于模型性能、安全性和偏见预防至关重要。以下是构建此数据集时需要考虑的三个关键领域:

  • 基于微调方法的音量

  • 来自领域专家的数据注释

  • 数据集的多样性

如下表所示,微调的数据集大小要求因所执行的微调类型而异。

微调策略

数据集大小

适应领域的预训练

100,000 多个域名文本

有监督的微调

超过 10,000 个带标签的货币对

通过人工反馈进行强化学习

1,000 多个专家偏好组合

您可以使用 AWS GlueAmazon EMR 和 A mazon SageMaker Data Wrangler 自动执行数据提取和转换过程,以整理您拥有的数据集。如果您无法整理足够大的数据集,则可以直接发现数据集并将其下载到您的直 AWS 账户 通AWS Data Exchange中。在使用任何第三方数据集之前,请咨询您的法律顾问。

具有领域知识的专家注释者,例如医生、生物学家和化学家,应参与数据整理过程,以便将医学和生物数据的细微差别纳入模型输出中。Amazon G SageMaker round Trut h 提供了一个低代码用户界面,供专家对数据集进行注释。

代表人口的数据集对于医疗保健和生命科学微调用例以防止偏见并反映现实世界的结果至关重要。 AWS Glue 交互式会话Amazon SageMaker 笔记本实例提供了一种使用兼容 Jupyter 的笔记本来迭代探索数据集和微调转换的强大方法。交互式会话使您能够在本地环境中使用多种常用的集成开发环境 (IDEs)。或者,您可以通过使用 AWS Glue 我们的 Amazon SageMaker Studio 笔记本电脑 AWS 管理控制台。

微调模型

AWS 提供诸如 Amazon A SageMaker I 和 Amaz on Bedrock 之类的服务,这些服务对于成功进行微调至关重要。

SageMaker AI 是一项完全托管的机器学习服务,可帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。用于微调的 SageMaker AI 的三个有用功能包括:

  • SageMaker训练 — 一项完全托管的机器学习功能,可帮助您高效地大规模训练各种模型

  • SageMaker JumpStart— 一种建立在 SageMaker 训练作业之上的功能,可为机器学习任务提供预训练模型、内置算法和解决方案模板

  • SageMaker HyperPod— 专门构建的基础架构解决方案,用于基础模型的分布式训练 LLMs

Amazon Bedrock 是一项完全托管的服务,可通过 API 提供对高性能基础模型的访问,并具有内置的安全、隐私和可扩展功能。该服务提供了微调多个可用的基础模型的功能。有关更多信息,请参阅 Amazon Bedrock 文档中的支持模型和区域以进行微调和继续预训练

在使用任一服务进行微调过程时,请考虑基本模型、微调策略和基础架构。

基本型号选择

诸如Anthropic Claude、Meta Llama和Amazon Nova之类的封闭源模型在托管合规的情况下提供了强劲的 out-of-the-box性能,但将微调灵活性限制在提供商支持的选项(例如像Amazon Bedrock这样的托管选项)上。 APIs 这限制了可定制性,特别是对于受监管的医疗保健用例。相比之下,诸如 Meta Llama 之类的开源模型提供了对 Amazon SageMaker AI 服务的完全控制和灵活性,当您需要根据自己的特定数据或工作流程要求自定义、审计或深度调整模型时,它们是理想的选择。

微调策略

简单的指令调整可以通过 Amazon Bedrock 模型定制或亚马逊 SageMaker JumpStart来处理。复杂的 PEFT 方法,例如 LoRa 或适配器,需要在 Amazon Bedrock 中使用 SageMaker训练作业或自定义微调功能。支持超大型模型的分布式训练 SageMaker HyperPod。

基础设施规模和控制

诸如 Amazon Bedrock 之类的完全托管服务可最大限度地减少基础设施管理,非常适合优先考虑易用性和合规性的组织。半托管选项(例如)可提供一定的灵活性 SageMaker JumpStart,同时降低复杂性。这些选项适用于快速原型设计或使用预先构建的工作流程。T SageMaker raining 作业附带完全控制和自定义 HyperPod,尽管这些任务需要更多的专业知识,并且在您需要扩展大型数据集或需要自定义管道时最好。

监控经过微调的模型

在医疗保健和生命科学领域,监控法学硕士微调需要跟踪多个关键绩效指标。准确性提供了基准测量,但这必须与精度和召回率相平衡,尤其是在错误分类会带来严重后果的应用中。F1-score 有助于解决医疗数据集中可能常见的类别失衡问题。有关更多信息,请参阅本指南中的评估 LLMs 医疗保健和生命科学应用

校准指标可帮助您确保模型的置信水平与现实世界的概率相匹配。公平性指标可以帮助您发现不同患者人口统计的潜在偏见。

MLflow是一种开源解决方案,可以帮助您跟踪微调实验。 MLflow 在 Amazon A SageMaker I 中原生支持,它可以帮助您直观地比较训练运行中的指标。为了在 Amazon Bedrock 上进行微调任务,指标会流式传输 CloudWatch 到亚马逊,这样你就可以在控制台中可视化指标。 CloudWatch