翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ヘルスケアにおける大規模言語モデルのファインチューニング
このセクションで説明するファインチューニングアプローチは、倫理および規制ガイドラインへの準拠をサポートし、医療における AI システムの責任ある使用を促進します。これは、正確でプライベートなインサイトを生成するように設計されています。生成 AI は医療の提供に変革をもたらしていますがoff-the-shelfモデルが不足することがよくあります。ドメイン固有のデータを使用して基盤モデルを微調整することで、このギャップを埋めることができます。これは、厳格な規制基準に準拠しながら、医学の言語を話す AI システムを作成するのに役立ちます。ただし、ファインチューニングを成功させるには、機密データの保護、測定可能な成果を伴う AI 投資の正当化、急速に進化する医療環境での臨床的な関連性の維持など、医療固有の課題を慎重に把握する必要があります。
軽量アプローチが制限に達すると、ファインチューニングは戦略的投資になります。精度、レイテンシー、または運用効率の向上により、必要なコンピューティングとエンジニアリングの大幅なコストが相殺されることが期待されます。基盤モデルの進行速度は速いため、微調整されたモデルの利点は、次のメジャーモデルリリースまで続く可能性があることに注意してください。
このセクションでは、ヘルスケア業界の AWS お客様からの次の 2 つの影響の大きいユースケースについて説明します。
-
臨床決定サポートシステム – 複雑な患者の履歴と進化するガイドラインを理解するモデルを通じて診断精度を向上させます。微調整は、モデルが複雑な患者の履歴を深く理解し、特殊なガイドラインを統合するのに役立ちます。これにより、モデル予測エラーを減らすことができます。ただし、これらの利益と、大規模で機密性の高いデータセットのトレーニングコスト、および高リスクの臨床アプリケーションに必要なインフラストラクチャを比較検討する必要があります。特に新しいモデルが頻繁にリリースされる場合、精度とコンテキスト認識の向上は投資を正当化しますか?
-
医療文書分析 – 医療保険の相互運用性と説明責任に関する法律 (HIPAA) コンプライアンスを維持しながら、臨床記録、画像レポート、保険文書の処理を自動化します。ここでは、微調整により、モデルが一意の形式、特殊な略語、規制要件をより効果的に処理できる場合があります。多くの場合、ペイオフは手動レビュー時間の短縮とコンプライアンスの向上に見られます。それでも、これらの改善が微調整リソースを正当化するのに十分な大きさであるかどうかを評価することが重要です。プロンプトエンジニアリングとワークフローオーケストレーションがニーズを満たすことができるかどうかを判断します。
これらの実世界のシナリオは、初期実験からモデルデプロイまでのファインチューニングジャーニーを示しながら、あらゆる段階で医療固有の要件に対処します。
コストと投資収益率の見積もり
以下は、LLM をファインチューニングするときに考慮すべきコスト要因です。
-
モデルサイズ – モデルが大きいほど微調整にコストがかかります
-
データセットサイズ – ファインチューニング用のデータセットのサイズに応じて計算コストと時間が増加する
-
ファインチューニング戦略 – パラメータ効率の高い方法では、パラメータの完全な更新と比較してコストを削減できます。
投資収益率 (ROI) を計算するときは、選択したメトリクス (精度など) にリクエストの量 (モデルが使用される頻度) を掛けた改善と、モデルが新しいバージョンで超過するまでの予想期間を考慮してください。
また、基本 LLM の有効期間も考慮してください。6~12 か月ごとに新しいベースモデルが登場します。希少疾患ディテクターの微調整と検証に 8 か月かかる場合、新しいモデルがギャップを埋めるまでに 4 か月しか優れたパフォーマンスが得られない可能性があります。
ユースケースのコスト、ROI、および潜在的な存続期間を計算することで、データ駆動型の意思決定を行うことができます。例えば、臨床意思決定サポートモデルを微調整すると、年間数千のケースで診断エラーが測定可能なほど減少する場合、投資はすぐに報われる可能性があります。逆に、プロンプトエンジニアリングだけでドキュメント分析ワークフローが目標精度に近づく場合、次世代のモデルが到着するまでファインチューニングを延期することをお勧めします。
ファインチューニングは one-size-fits-allではありません。微調整を行う場合、適切なアプローチはユースケース、データ、リソースによって異なります。
ファインチューニング戦略の選択
ファインチューニングが医療ユースケースに適したアプローチであると判断したら、次のステップとして最も適切なファインチューニング戦略を選択します。利用可能なアプローチはいくつかあります。各 には、ヘルスケアアプリケーションに固有の利点とトレードオフがあります。これらの方法の選択は、特定の目標、利用可能なデータ、リソースの制約によって異なります。
トレーニングの目的
ドメイン適応事前トレーニング (DAPT)
教師ありファインチューニング (SFT)
人間のフィードバックからの強化学習 (RLHF)
実装方法
完全なパラメータ更新では、トレーニング中にすべてのモデルパラメータを更新する必要があります。このアプローチは、患者の履歴、検査結果、進化するガイドラインの深い統合を必要とする臨床意思決定サポートシステムに最適です。欠点には、データセットが大規模で多様でない場合、高いコンピューティングコストと過剰適合のリスクが含まれます。
パラメータ効率の高いファインチューニング (PEFT)
ファインチューニング方法の詳細については、Amazon SageMakerの高度なファインチューニング方法
ファインチューニングデータセットの構築
ファインチューニングデータセットの品質と多様性は、モデルのパフォーマンス、安全性、バイアス防止に不可欠です。このデータセットを構築する際に考慮すべき 3 つの重要な領域を次に示します。
-
ファインチューニングアプローチに基づくボリューム
-
ドメインエキスパートからのデータ注釈
-
データセットの多様性
次の表に示すように、ファインチューニングのデータセットサイズ要件は、実行されるファインチューニングのタイプによって異なります。
ファインチューニング戦略 |
データセットサイズ |
|---|---|
ドメイン適応事前トレーニング |
100,000 を超えるドメインテキスト |
教師ありファインチューニング |
10,000 以上のラベル付きペア |
人間のフィードバックによる学習の強化 |
1,000 を超えるエキスパート設定ペア |
AWS Glue、Amazon EMR、Amazon SageMaker Data Wrangler を使用して、データ抽出と変換プロセスを自動化し、所有するデータセットをキュレートできます。十分なサイズのデータセットをキュレートできない場合は、 AWS アカウント を使用してデータセットを検出し、 に直接ダウンロードできますAWS Data Exchange。サードパーティーのデータセットを利用する前に、法律顧問に相談してください。
医療データと生物学的データのニュアンスをモデル出力に組み込むには、医学者、バイオロジスト、化学者などのドメイン知識を持つ専門家のアノテーターをデータキュレーションプロセスの一部にする必要があります。Amazon SageMaker Ground Truth は、エキスパートがデータセットに注釈を付けるためのローコードユーザーインターフェイスを提供します。
人間の母集団を表すデータセットは、バイアスを防ぎ、実際の結果を反映するために、ヘルスケアやライフサイエンスのユースケースを微調整するために不可欠です。 AWS Glue インタラクティブセッションまたは Amazon SageMaker ノートブックインスタンスは、Jupyter 互換ノートブックを使用してデータセットを繰り返し探索し、変換を微調整する強力な方法を提供します。インタラクティブセッションを使用すると、ローカル環境で一般的な統合開発環境 (IDEsを選択できます。または、 を使用して AWS Glue または Amazon SageMaker Studio ノートブックを使用することもできます AWS マネジメントコンソール。
モデルの微調整
AWS は、ファインチューニングを成功させるために不可欠な Amazon SageMaker AI や Amazon Bedrock などのサービスを提供します。
SageMaker AI は、開発者やデータサイエンティストが ML モデルを迅速に構築、トレーニング、デプロイできるようにするフルマネージド型の機械学習サービスです。SageMaker AI の微調整に役立つ 3 つの機能は次のとおりです。
-
SageMaker トレーニング – フルマネージド型の ML 機能で、さまざまなモデルを大規模に効率的にトレーニングできます。
-
SageMaker JumpStart – SageMaker トレーニングジョブ上に構築され、ML タスク用の事前トレーニング済みモデル、組み込みアルゴリズム、ソリューションテンプレートを提供する機能
-
SageMaker HyperPod – 基盤モデルと LLMs の分散トレーニング専用のインフラストラクチャソリューション
Amazon Bedrock は、セキュリティ、プライバシー、スケーラビリティ機能が組み込まれた API を通じて高性能な基盤モデルへのアクセスを提供するフルマネージドサービスです。このサービスは、利用可能ないくつかの基本モデルを微調整する機能を提供します。詳細については、Amazon Bedrock ドキュメントの「ファインチューニングと継続的な事前トレーニングでサポートされているモデルとリージョン」を参照してください。
いずれかのサービスでファインチューニングプロセスに近づくときは、ベースモデル、ファインチューニング戦略、インフラストラクチャを検討してください。
基本モデルの選択
Anthropic Claude、Meta Llama、Amazon Nova などのクローズドソースモデルは、マネージドコンプライアンスでout-of-the-box使える強力なパフォーマンスを提供しますが、Amazon Bedrock などのマネージド APIs などのプロバイダーがサポートするオプションにファインチューニングの柔軟性を制限します。これにより、特に規制された医療ユースケースのカスタマイズ可能性が制約されます。対照的に、Meta Llama などのオープンソースモデルは、Amazon SageMaker AI サービス全体で完全な制御と柔軟性を提供するため、モデルを特定のデータまたはワークフロー要件に合わせてカスタマイズ、監査、または深く適応させる必要がある場合に最適です。
ファインチューニング戦略
簡単な命令チューニングは、Amazon Bedrock モデルのカスタマイズまたは Amazon SageMaker JumpStart で処理できます。LoRA やアダプターなどの複雑な PEFT アプローチには、Amazon Bedrock の SageMaker トレーニングジョブまたはカスタム微調整機能が必要です。非常に大規模なモデルの分散トレーニングは、SageMaker HyperPod でサポートされています。
インフラストラクチャのスケールと制御
Amazon Bedrock などのフルマネージドサービスは、インフラストラクチャ管理を最小限に抑え、使いやすさとコンプライアンスを優先する組織に最適です。SageMaker JumpStart などのセミマネージドオプションは、複雑さを抑えながら柔軟性を提供します。これらのオプションは、ラピッドプロトタイピングや、構築済みのワークフローを使用する場合に適しています。フルコントロールとカスタマイズには SageMaker トレーニングジョブと HyperPod が付属していますが、これらにはより多くの専門知識が必要であり、大規模なデータセットのスケールアップやカスタムパイプラインが必要な場合に最適です。
微調整されたモデルのモニタリング
ヘルスケアとライフサイエンスでは、LLM ファインチューニングをモニタリングするには、複数の主要業績評価指標を追跡する必要があります。精度はベースライン測定を提供しますが、特に誤分類が重大な結果をもたらすアプリケーションでは、精度と再現率のバランスを取る必要があります。F1-scoreは、医療データセットでよく見られるクラスの不均衡問題に対処するのに役立ちます。詳細については、このガイドの「ヘルスケアおよびライフサイエンスアプリケーション用の LLMs の評価」を参照してください。
キャリブレーションメトリクスは、モデルの信頼レベルが実際の確率と一致することを確認するのに役立ちます。公平性メトリクスは、さまざまな患者属性にわたる潜在的なバイアスを検出するのに役立ちます。
MLflow は、ファインチューニング実験の追跡に役立つオープンソースソリューションです。MLflow は Amazon SageMaker AI 内でネイティブにサポートされており、トレーニング実行のメトリクスを視覚的に比較するのに役立ちます。Amazon Bedrock のファインチューニングジョブの場合、メトリクスは Amazon CloudWatch にストリーミングされ、CloudWatch コンソールでメトリクスを視覚化できます。