ヘルスケアにおける大規模言語モデルのファインチューニング - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ヘルスケアにおける大規模言語モデルのファインチューニング

このセクションで説明するファインチューニングアプローチは、倫理および規制ガイドラインへの準拠をサポートし、医療における AI システムの責任ある使用を促進します。これは、正確でプライベートなインサイトを生成するように設計されています。生成 AI は医療の提供に変革をもたらしていますがoff-the-shelfモデルが不足することがよくあります。ドメイン固有のデータを使用して基盤モデルを微調整することで、このギャップを埋めることができます。これは、厳格な規制基準に準拠しながら、医学の言語を話す AI システムを作成するのに役立ちます。ただし、ファインチューニングを成功させるには、機密データの保護、測定可能な成果を伴う AI 投資の正当化、急速に進化する医療環境での臨床的な関連性の維持など、医療固有の課題を慎重に把握する必要があります。

軽量アプローチが制限に達すると、ファインチューニングは戦略的投資になります。精度、レイテンシー、または運用効率の向上により、必要なコンピューティングとエンジニアリングの大幅なコストが相殺されることが期待されます。基盤モデルの進行速度は速いため、微調整されたモデルの利点は、次のメジャーモデルリリースまで続く可能性があることに注意してください。

このセクションでは、ヘルスケア業界の AWS お客様からの次の 2 つの影響の大きいユースケースについて説明します。

  • 臨床決定サポートシステム – 複雑な患者の履歴と進化するガイドラインを理解するモデルを通じて診断精度を向上させます。微調整は、モデルが複雑な患者の履歴を深く理解し、特殊なガイドラインを統合するのに役立ちます。これにより、モデル予測エラーを減らすことができます。ただし、これらの利益と、大規模で機密性の高いデータセットのトレーニングコスト、および高リスクの臨床アプリケーションに必要なインフラストラクチャを比較検討する必要があります。特に新しいモデルが頻繁にリリースされる場合、精度とコンテキスト認識の向上は投資を正当化しますか?

  • 医療文書分析 – 医療保険の相互運用性と説明責任に関する法律 (HIPAA) コンプライアンスを維持しながら、臨床記録、画像レポート、保険文書の処理を自動化します。ここでは、微調整により、モデルが一意の形式、特殊な略語、規制要件をより効果的に処理できる場合があります。多くの場合、ペイオフは手動レビュー時間の短縮とコンプライアンスの向上に見られます。それでも、これらの改善が微調整リソースを正当化するのに十分な大きさであるかどうかを評価することが重要です。プロンプトエンジニアリングとワークフローオーケストレーションがニーズを満たすことができるかどうかを判断します。

これらの実世界のシナリオは、初期実験からモデルデプロイまでのファインチューニングジャーニーを示しながら、あらゆる段階で医療固有の要件に対処します。

コストと投資収益率の見積もり

以下は、LLM をファインチューニングするときに考慮すべきコスト要因です。

  • モデルサイズ – モデルが大きいほど微調整にコストがかかります

  • データセットサイズ – ファインチューニング用のデータセットのサイズに応じて計算コストと時間が増加する

  • ファインチューニング戦略 – パラメータ効率の高い方法では、パラメータの完全な更新と比較してコストを削減できます。

投資収益率 (ROI) を計算するときは、選択したメトリクス (精度など) にリクエストの量 (モデルが使用される頻度) を掛けた改善と、モデルが新しいバージョンで超過するまでの予想期間を考慮してください。

また、基本 LLM の有効期間も考慮してください。6~12 か月ごとに新しいベースモデルが登場します。希少疾患ディテクターの微調整と検証に 8 か月かかる場合、新しいモデルがギャップを埋めるまでに 4 か月しか優れたパフォーマンスが得られない可能性があります。

ユースケースのコスト、ROI、および潜在的な存続期間を計算することで、データ駆動型の意思決定を行うことができます。例えば、臨床意思決定サポートモデルを微調整すると、年間数千のケースで診断エラーが測定可能なほど減少する場合、投資はすぐに報われる可能性があります。逆に、プロンプトエンジニアリングだけでドキュメント分析ワークフローが目標精度に近づく場合、次世代のモデルが到着するまでファインチューニングを延期することをお勧めします。

ファインチューニングは one-size-fits-allではありません。微調整を行う場合、適切なアプローチはユースケース、データ、リソースによって異なります。

ファインチューニング戦略の選択

ファインチューニングが医療ユースケースに適したアプローチであると判断したら、次のステップとして最も適切なファインチューニング戦略を選択します。利用可能なアプローチはいくつかあります。各 には、ヘルスケアアプリケーションに固有の利点とトレードオフがあります。これらの方法の選択は、特定の目標、利用可能なデータ、リソースの制約によって異なります。

トレーニングの目的

ドメイン適応事前トレーニング (DAPT) は、ドメイン固有のラベル付けされていない大量のテキスト (数百万の医療文書など) でモデルを事前トレーニングする、教師なしの方法です。このアプローチは、放射線学者、神経学者、その他の専門プロバイダーが使用する医療専門分野の略語と用語を理解するモデルの能力を向上させるのに適しています。ただし、DAPT には大量のデータが必要であり、特定のタスク出力には対応しません。

教師ありファインチューニング (SFT) では、構造化された入出力例を使用して、明示的な指示に従うようにモデルに指示します。このアプローチは、ドキュメントの要約や臨床コーディングなどの医療ドキュメント分析ワークフローに適しています。命令チューニングは、目的の出力とペアになった明示的な命令を含む例でモデルをトレーニングする SFT の一般的な形式です。これにより、モデルの多様なユーザープロンプトを理解し、それに従う能力が向上します。この手法は、特定の臨床例でモデルをトレーニングするため、医療環境で特に役立ちます。主な欠点は、慎重にラベル付けされた例が必要であることです。さらに、微調整されたモデルは、例のないエッジケースで苦労する可能性があります。Amazon SageMaker Jumpstart を使用したファインチューニングの手順については、Amazon SageMaker Jumpstart を使用した FLAN T5 XL のファインチューニング手順」(AWS ブログ記事) を参照してください。

人間のフィードバックからの強化学習 (RLHF) は、専門家のフィードバックと好みに基づいてモデルの動作を最適化します。プロキシマルポリシー最適化 (PPO)直接設定最適化 (DPO) など、人間の好みや方法に基づいてトレーニングされた報酬モデルを使用して、破壊的な更新を防止しながらモデルを最適化します。RLHF は、出力を臨床ガイドラインに合わせて調整し、レコメンデーションが承認されたプロトコル内に収まるようにするのに最適です。このアプローチでは、臨床医のフィードバックにかなりの時間が必要であり、複雑なトレーニングパイプラインが必要です。ただし、RLHF は医療において特に重要です。これは、医療の専門家が AI システムの通信方法やレコメンデーションを行う方法を形成するのに役立つためです。例えば、臨床医はフィードバックを提供して、モデルが適切な脇道を維持し、不確実性を表現するタイミングを認識し、臨床ガイドラインの範囲内に収まるようにすることができます。PPO などの手法は、専門的なフィードバックに基づいてモデルの動作を反復的に最適化し、パラメータの更新を制限して主要な医療知識を保持します。これにより、モデルは患者にとってわかりやすい言語で複雑な診断を伝えながら、直ちに医療を受けるための重大な条件にフラグを付けることができます。これは、精度とコミュニケーションスタイルの両方が重要な医療にとって重要です。RLHF の詳細については、「Fine-tune large language models with reinforcement learning from human or AI feedback」(AWS ブログ記事) を参照してください。

実装方法

完全なパラメータ更新では、トレーニング中にすべてのモデルパラメータを更新する必要があります。このアプローチは、患者の履歴、検査結果、進化するガイドラインの深い統合を必要とする臨床意思決定サポートシステムに最適です。欠点には、データセットが大規模で多様でない場合、高いコンピューティングコストと過剰適合のリスクが含まれます。

パラメータ効率の高いファインチューニング (PEFT) メソッドは、オーバーフィットや言語機能の壊滅的な損失を防ぐために、パラメータのサブセットのみを更新します。タイプには、低ランク適応 (LoRA)、アダプター、プレフィックスチューニングなどがあります。PEFT メソッドは、計算コストが低く、トレーニングが速くなり、臨床決定サポートモデルを新しい病院のプロトコルや用語に適応させるなどの実験に最適です。主な制限は、完全なパラメータ更新と比較してパフォーマンスが低下する可能性があることです。

ファインチューニング方法の詳細については、Amazon SageMakerの高度なファインチューニング方法」(AWS ブログ記事) を参照してください。

ファインチューニングデータセットの構築

ファインチューニングデータセットの品質と多様性は、モデルのパフォーマンス、安全性、バイアス防止に不可欠です。このデータセットを構築する際に考慮すべき 3 つの重要な領域を次に示します。

  • ファインチューニングアプローチに基づくボリューム

  • ドメインエキスパートからのデータ注釈

  • データセットの多様性

次の表に示すように、ファインチューニングのデータセットサイズ要件は、実行されるファインチューニングのタイプによって異なります。

ファインチューニング戦略

データセットサイズ

ドメイン適応事前トレーニング

100,000 を超えるドメインテキスト

教師ありファインチューニング

10,000 以上のラベル付きペア

人間のフィードバックによる学習の強化

1,000 を超えるエキスパート設定ペア

AWS GlueAmazon EMRAmazon SageMaker Data Wrangler を使用して、データ抽出と変換プロセスを自動化し、所有するデータセットをキュレートできます。十分なサイズのデータセットをキュレートできない場合は、 AWS アカウント を使用してデータセットを検出し、 に直接ダウンロードできますAWS Data Exchange。サードパーティーのデータセットを利用する前に、法律顧問に相談してください。

医療データと生物学的データのニュアンスをモデル出力に組み込むには、医学者、バイオロジスト、化学者などのドメイン知識を持つ専門家のアノテーターをデータキュレーションプロセスの一部にする必要があります。Amazon SageMaker Ground Truth は、エキスパートがデータセットに注釈を付けるためのローコードユーザーインターフェイスを提供します。

人間の母集団を表すデータセットは、バイアスを防ぎ、実際の結果を反映するために、ヘルスケアやライフサイエンスのユースケースを微調整するために不可欠です。 AWS Glue インタラクティブセッションまたは Amazon SageMaker ノートブックインスタンスは、Jupyter 互換ノートブックを使用してデータセットを繰り返し探索し、変換を微調整する強力な方法を提供します。インタラクティブセッションを使用すると、ローカル環境で一般的な統合開発環境 (IDEsを選択できます。または、 を使用して AWS Glue または Amazon SageMaker Studio ノートブックを使用することもできます AWS マネジメントコンソール。

モデルの微調整

AWS は、ファインチューニングを成功させるために不可欠な Amazon SageMaker AIAmazon Bedrock などのサービスを提供します。

SageMaker AI は、開発者やデータサイエンティストが ML モデルを迅速に構築、トレーニング、デプロイできるようにするフルマネージド型の機械学習サービスです。SageMaker AI の微調整に役立つ 3 つの機能は次のとおりです。

  • SageMaker トレーニング – フルマネージド型の ML 機能で、さまざまなモデルを大規模に効率的にトレーニングできます。

  • SageMaker JumpStart – SageMaker トレーニングジョブ上に構築され、ML タスク用の事前トレーニング済みモデル、組み込みアルゴリズム、ソリューションテンプレートを提供する機能

  • SageMaker HyperPod – 基盤モデルと LLMs の分散トレーニング専用のインフラストラクチャソリューション

Amazon Bedrock は、セキュリティ、プライバシー、スケーラビリティ機能が組み込まれた API を通じて高性能な基盤モデルへのアクセスを提供するフルマネージドサービスです。このサービスは、利用可能ないくつかの基本モデルを微調整する機能を提供します。詳細については、Amazon Bedrock ドキュメントの「ファインチューニングと継続的な事前トレーニングでサポートされているモデルとリージョン」を参照してください。

いずれかのサービスでファインチューニングプロセスに近づくときは、ベースモデル、ファインチューニング戦略、インフラストラクチャを検討してください。

基本モデルの選択

Anthropic Claude、Meta Llama、Amazon Nova などのクローズドソースモデルは、マネージドコンプライアンスでout-of-the-box使える強力なパフォーマンスを提供しますが、Amazon Bedrock などのマネージド APIs などのプロバイダーがサポートするオプションにファインチューニングの柔軟性を制限します。これにより、特に規制された医療ユースケースのカスタマイズ可能性が制約されます。対照的に、Meta Llama などのオープンソースモデルは、Amazon SageMaker AI サービス全体で完全な制御と柔軟性を提供するため、モデルを特定のデータまたはワークフロー要件に合わせてカスタマイズ、監査、または深く適応させる必要がある場合に最適です。

ファインチューニング戦略

簡単な命令チューニングは、Amazon Bedrock モデルのカスタマイズまたは Amazon SageMaker JumpStart で処理できます。LoRA やアダプターなどの複雑な PEFT アプローチには、Amazon Bedrock の SageMaker トレーニングジョブまたはカスタム微調整機能が必要です。非常に大規模なモデルの分散トレーニングは、SageMaker HyperPod でサポートされています。

インフラストラクチャのスケールと制御

Amazon Bedrock などのフルマネージドサービスは、インフラストラクチャ管理を最小限に抑え、使いやすさとコンプライアンスを優先する組織に最適です。SageMaker JumpStart などのセミマネージドオプションは、複雑さを抑えながら柔軟性を提供します。これらのオプションは、ラピッドプロトタイピングや、構築済みのワークフローを使用する場合に適しています。フルコントロールとカスタマイズには SageMaker トレーニングジョブと HyperPod が付属していますが、これらにはより多くの専門知識が必要であり、大規模なデータセットのスケールアップやカスタムパイプラインが必要な場合に最適です。

微調整されたモデルのモニタリング

ヘルスケアとライフサイエンスでは、LLM ファインチューニングをモニタリングするには、複数の主要業績評価指標を追跡する必要があります。精度はベースライン測定を提供しますが、特に誤分類が重大な結果をもたらすアプリケーションでは、精度と再現率のバランスを取る必要があります。F1-scoreは、医療データセットでよく見られるクラスの不均衡問題に対処するのに役立ちます。詳細については、このガイドの「ヘルスケアおよびライフサイエンスアプリケーション用の LLMs の評価」を参照してください。

キャリブレーションメトリクスは、モデルの信頼レベルが実際の確率と一致することを確認するのに役立ちます。公平性メトリクスは、さまざまな患者属性にわたる潜在的なバイアスを検出するのに役立ちます。

MLflow は、ファインチューニング実験の追跡に役立つオープンソースソリューションです。MLflow は Amazon SageMaker AI 内でネイティブにサポートされており、トレーニング実行のメトリクスを視覚的に比較するのに役立ちます。Amazon Bedrock のファインチューニングジョブの場合、メトリクスは Amazon CloudWatch にストリーミングされ、CloudWatch コンソールでメトリクスを視覚化できます。