의료 분야의 대규모 언어 모델 미세 조정 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의료 분야의 대규모 언어 모델 미세 조정

이 섹션에 설명된 미세 조정 접근 방식은 윤리적 및 규제 지침 준수를 지원하고 의료 분야에서 AI 시스템의 책임감 있는 사용을 장려합니다. 정확하고 비공개적인 인사이트를 생성하도록 설계되었습니다. 생성형 AI는 의료 서비스 제공을 혁신하고 있지만 정확도가 중요하고 규정 준수가 협상할 수 없는 임상 환경에서off-the-shelf 모델이 부족한 경우가 많습니다. 도메인별 데이터로 파운데이션 모델을 미세 조정하면 이러한 격차가 커집니다. 이를 통해 엄격한 규제 표준을 준수하면서 의학 언어를 구사하는 AI 시스템을 만들 수 있습니다. 그러나 성공적인 미세 조정을 위해서는 민감한 데이터를 보호하고, 측정 가능한 결과로 AI 투자를 정당화하고, 빠르게 변화하는 의료 환경에서 임상 관련성을 유지하는 등 의료의 고유한 문제를 신중하게 탐색해야 합니다.

경량 접근 방식이 한계에 도달하면 미세 조정이 전략적 투자가 됩니다. 정확도, 지연 시간 또는 운영 효율성의 이점이 필요한 상당한 컴퓨팅 및 엔지니어링 비용을 상쇄할 것으로 기대됩니다. 파운데이션 모델의 진행 속도는 빠르므로 미세 조정된 모델의 이점은 다음 메이저 모델 릴리스까지만 지속될 수 있습니다.

이 섹션에서는 의료 고객의 다음 두 가지 영향력이 큰 사용 사례에 AWS 대해 설명합니다.

  • 임상 결정 지원 시스템 - 복잡한 환자 기록과 진화하는 지침을 이해하는 모델을 통해 진단 정확도를 높입니다. 미세 조정은 모델이 복잡한 환자 기록을 깊이 이해하고 특수 지침을 통합하는 데 도움이 될 수 있습니다. 이는 잠재적으로 모델 예측 오류를 줄일 수 있습니다. 그러나 이러한 이점을 민감한 대규모 데이터 세트에 대한 훈련 비용 및 고위험 임상 애플리케이션에 필요한 인프라와 비교해야 합니다. 특히 새 모델이 자주 출시될 때 향상된 정확도와 컨텍스트 인식이 투자를 정당화하나요?

  • 의료 문서 분석 - 건강 보험 양도 및 책임에 관한 법률(HIPAA) 준수를 유지하면서 임상 기록, 영상 보고서 및 보험 문서 처리를 자동화합니다. 여기서 미세 조정을 통해 모델은 고유한 형식, 특수 약어 및 규제 요구 사항을 보다 효과적으로 처리할 수 있습니다. 수동 검토 시간이 단축되고 규정 준수가 개선되는 경우가 많습니다. 그러나 이러한 개선 사항이 미세 조정 리소스를 보장할 만큼 상당한지 평가하는 것이 중요합니다. 프롬프트 엔지니어링 및 워크플로 오케스트레이션이 요구 사항을 충족할 수 있는지 확인합니다.

이러한 실제 시나리오는 초기 실험에서 모델 배포에 이르는 미세 조정 여정을 보여주는 동시에 모든 단계에서 의료의 고유한 요구 사항을 해결합니다.

비용 및 투자 수익 추정

다음은 LLM을 미세 조정할 때 고려해야 할 비용 요소입니다.

  • 모델 크기 - 모델이 클수록 미세 조정 비용이 더 많이 듭니다.

  • 데이터 세트 크기 - 미세 조정을 위한 데이터 세트 크기에 따라 컴퓨팅 비용 및 시간이 증가합니다.

  • 미세 조정 전략 - 파라미터 효율적인 메서드는 전체 파라미터 업데이트에 비해 비용을 절감할 수 있습니다.

투자 수익률(ROI)을 계산할 때는 선택한 지표(예: 정확도)의 개선에 요청량(모델 사용 빈도)과 모델이 최신 버전으로 초과되기 전의 예상 기간을 곱한 값을 고려하세요.

또한 기본 LLM의 수명을 고려하세요. 새로운 기본 모델은 6~12개월마다 나타납니다. 희귀 질병 탐지기를 미세 조정하고 검증하는 데 8개월이 걸리는 경우 최신 모델이 격차를 해소하기 전에 4개월 동안만 우수한 성능을 얻을 수 있습니다.

사용 사례의 비용, ROI 및 잠재적 수명을 계산하여 데이터 기반 결정을 내릴 수 있습니다. 예를 들어, 임상 결정 지원 모델을 미세 조정하면 연간 수천 건의 사례에서 진단 오류가 눈에 띄게 감소하는 경우 투자가 빠르게 성과를 낼 수 있습니다. 반대로 프롬프트 엔지니어링만으로 문서 분석 워크플로를 목표 정확도에 가깝게 만드는 경우 다음 세대 모델이 도착할 때까지 미세 조정을 보류하는 것이 좋습니다.

미세 조정은 one-size-fits-all이 아닙니다. 미세 조정을 결정하는 경우 올바른 접근 방식은 사용 사례, 데이터 및 리소스에 따라 달라집니다.

미세 조정 전략 선택

미세 조정이 의료 사용 사례에 적합한 접근 방식이라고 판단한 후 다음 단계는 가장 적합한 미세 조정 전략을 선택하는 것입니다. 몇 가지 접근 방식을 사용할 수 있습니다. 각 에는 의료 애플리케이션에 대한 고유한 장점과 장단점이 있습니다. 이러한 방법 중 선택하는 방법은 특정 목표, 사용 가능한 데이터 및 리소스 제약 조건에 따라 달라집니다.

훈련 목표

도메인 적응형 사전 훈련(DAPT)은 레이블이 지정되지 않은 대규모 도메인별 텍스트(예: 수백만 개의 의료 문서)에 대해 모델을 사전 훈련하는 비지도 방법입니다. 이 접근 방식은 의료 전문 약어와 방사선과 의사, 신경과 의사 및 기타 전문 공급자가 사용하는 용어를 이해하는 모델의 능력을 개선하는 데 매우 적합합니다. 그러나 DAPT에는 방대한 양의 데이터가 필요하며 특정 작업 출력을 처리하지 않습니다.

감독 미세 조정(SFT)은 구조화된 입력-출력 예제를 사용하여 모델에 명시적 지침을 따르도록 지시합니다. 이 접근 방식은 문서 요약 또는 임상 코딩과 같은 의료 문서 분석 워크플로에 적합합니다. 명령 튜닝은 원하는 출력과 페어링된 명시적 지침이 포함된 예제에 대해 모델이 훈련되는 일반적인 형태의 SFT입니다. 이렇게 하면 다양한 사용자 프롬프트를 이해하고 따르는 모델의 능력이 향상됩니다. 이 기법은 특정 임상 예제로 모델을 훈련시키기 때문에 의료 환경에서 특히 유용합니다. 주요 단점은 신중하게 레이블이 지정된 예제가 필요하다는 것입니다. 또한 미세 조정된 모델은 예제가 없는 엣지 케이스에서 어려움을 겪을 수 있습니다. Amazon SageMaker Jumpstart를 사용한 미세 조정에 대한 지침은 Amazon SageMaker Jumpstart를 사용한 FLAN T5 XL에 대한 지침 미세 조정(AWS 블로그 게시물)을 참조하세요.

인적 피드백(RLHF)을 통한 강화 학습은 전문가 피드백과 선호도를 기반으로 모델 동작을 최적화합니다. 근위 정책 최적화(PPO) 또는 직접 선호도 최적화(DPO)와 같은 인적 선호도 및 방법을 기반으로 훈련된 보상 모델을 사용하여 모델을 최적화하는 동시에 파괴적인 업데이트를 방지합니다. RLHF는 출력을 임상 지침에 맞추고 권장 사항이 승인된 프로토콜 내에 있도록 하는 데 적합합니다. 이 접근 방식에는 피드백에 상당한 임상의 시간이 필요하며 복잡한 훈련 파이프라인이 필요합니다. 그러나 RLHF는 의료 전문가가 AI 시스템이 통신하고 추천하는 방식을 구체화하는 데 도움이 되므로 의료 분야에서 특히 유용합니다. 예를 들어, 임상의는 모델이 적절한 병상 방식을 유지하고, 불확실성을 표현할 시기를 알고, 임상 지침을 준수하도록 피드백을 제공할 수 있습니다. PPO와 같은 기법은 핵심 의료 지식을 보존하기 위해 파라미터 업데이트를 제한하면서 전문가 피드백을 기반으로 모델 동작을 반복적으로 최적화합니다. 이를 통해 모델은 환자에게 친숙한 언어로 복잡한 진단을 전달하는 동시에 즉각적인 의학적 치료를 위해 심각한 상태에 플래그를 지정할 수 있습니다. 이는 정확도와 커뮤니케이션 스타일이 모두 중요한 의료 분야에 매우 중요합니다. RLHF에 대한 자세한 내용은 인간 또는 AI 피드백에서 강화 학습을 통해 대규모 언어 모델 미세 조정(AWS 블로그 게시물)을 참조하세요.

구현 방법

전체 파라미터 업데이트에는 훈련 중 모든 모델 파라미터 업데이트가 포함됩니다. 이 접근 방식은 환자 기록, 실험실 결과 및 진화하는 지침을 심층적으로 통합해야 하는 임상 결정 지원 시스템에 가장 적합합니다. 단점으로는 데이터 세트가 크고 다양하지 않은 경우 높은 컴퓨팅 비용과 과적합 위험이 있습니다.

파라미터 효율적인 미세 조정(PEFT) 메서드는 파라미터의 하위 집합만 업데이트하여 과적합 또는 치명적인 언어 기능 손실을 방지합니다. 유형에는 저순위 적응(LoRA), 어댑터 및 접두사 튜닝이 포함됩니다. PEFT 메서드는 더 낮은 계산 비용, 더 빠른 훈련을 제공하며, 임상 결정 지원 모델을 새 병원의 프로토콜 또는 용어에 적용하는 등의 실험에 적합합니다. 주요 제한 사항은 전체 파라미터 업데이트에 비해 성능이 저하될 수 있다는 것입니다.

미세 조정 방법에 대한 자세한 내용은 Amazon SageMaker AI의 고급 미세 조정 방법(AWS 블로그 게시물)을 참조하세요.

미세 조정 데이터 세트 구축

미세 조정 데이터 세트의 품질과 다양성은 모델 성능, 안전 및 편향 방지에 매우 중요합니다. 다음은이 데이터 세트를 구축할 때 고려해야 할 세 가지 중요한 영역입니다.

  • 미세 조정 접근 방식을 기반으로 한 볼륨

  • 도메인 전문가의 데이터 주석

  • 데이터 세트의 다양성

다음 표와 같이 미세 조정을 위한 데이터 세트 크기 요구 사항은 수행 중인 미세 조정 유형에 따라 달라집니다.

미세 조정 전략

데이터 세트 크기

도메인 조정 사전 훈련

100,000개 이상의 도메인 텍스트

감독 미세 조정

레이블이 지정된 페어 10,000개 이상

인적 피드백에서 학습 강화

1,000개 이상의 전문가 기본 설정 페어

AWS Glue, Amazon EMRAmazon SageMaker Data Wrangler를 사용하여 데이터 추출 및 변환 프로세스를 자동화하여 소유한 데이터 세트를 큐레이션할 수 있습니다. 충분히 큰 데이터 세트를 큐레이션할 수 없는 경우를 AWS 계정 통해에 직접 데이터 세트를 검색하고 다운로드할 수 있습니다AWS Data Exchange. 타사 데이터 세트를 활용하기 전에 법률 고문에게 문의하세요.

의료 및 생물학적 데이터의 뉘앙스를 모델 출력에 통합하려면 의료 의사, 생물학자, 화학자와 같은 도메인 지식이 있는 전문가 주석자가 데이터 큐레이션 프로세스의 일부여야 합니다. Amazon SageMaker Ground Truth는 전문가가 데이터 세트에 주석을 달 수 있는 로우 코드 사용자 인터페이스를 제공합니다.

인구를 나타내는 데이터 세트는 편향을 방지하고 실제 결과를 반영하기 위한 의료 및 생명 과학 미세 조정 사용 사례에 필수적입니다. AWS Glue 대화형 세션 또는 Amazon SageMaker 노트북 인스턴스는 Jupyter 호환 노트북을 사용하여 데이터 세트를 반복적으로 탐색하고 변환을 미세 조정할 수 있는 강력한 방법을 제공합니다. 대화형 세션을 사용하면 로컬 환경에서 널리 사용되는 IDEs(통합 개발 환경)를 선택할 수 있습니다. 또는를 통해 AWS Glue 또는 Amazon SageMaker Studio 노트북으로 작업할 수 있습니다 AWS Management 콘솔.

모델 미세 조정

AWS 는 성공적인 미세 조정에 중요한 Amazon SageMaker AIAmazon Bedrock과 같은 서비스를 제공합니다.

SageMaker AI는 개발자와 데이터 과학자가 ML 모델을 신속하게 구축, 훈련 및 배포할 수 있도록 지원하는 완전관리형 기계 학습 서비스입니다. 미세 조정을 위한 SageMaker AI의 세 가지 유용한 기능은 다음과 같습니다.

  • SageMaker 훈련 - 광범위한 모델을 대규모로 효율적으로 훈련하는 데 도움이 되는 완전 관리형 ML 기능

  • SageMaker JumpStart - ML 작업을 위한 사전 훈련된 모델, 내장 알고리즘 및 솔루션 템플릿을 제공하기 위해 SageMaker 훈련 작업을 기반으로 구축된 기능

  • SageMaker HyperPod - 파운데이션 모델 및 LLMs의 분산 훈련을 위해 특별히 구축된 인프라 솔루션

Amazon Bedrock은 기본 제공 보안, 개인 정보 보호 및 확장성 기능을 갖춘 API를 통해 고성능 파운데이션 모델에 대한 액세스를 제공하는 완전 관리형 서비스입니다. 이 서비스는 사용 가능한 여러 기본 모델을 미세 조정할 수 있는 기능을 제공합니다. 자세한 내용은 Amazon Bedrock 설명서의 미세 조정 및 지속적인 사전 훈련을 위해 지원되는 모델 및 리전을 참조하세요.

두 서비스 중 하나를 사용하여 미세 조정 프로세스에 접근하는 경우 기본 모델, 미세 조정 전략 및 인프라를 고려하세요.

기본 모델 선택

Anthropic Claude, Meta Llama, Amazon Nova와 같은 폐쇄 소스 모델은 관리형 규정 준수로 강력한 out-of-the-box 성능을 제공하지만 Amazon Bedrock과 같은 관리형 APIs와 같은 공급자 지원 옵션으로 미세 조정 유연성을 제한합니다. 이는 특히 규제 대상 의료 사용 사례의 경우 사용자 지정 가능성을 제한합니다. 반대로 Meta Llama와 같은 오픈 소스 모델은 Amazon SageMaker AI 서비스 전반에서 완전한 제어와 유연성을 제공하므로 특정 데이터 또는 워크플로 요구 사항에 맞게 모델을 사용자 지정, 감사 또는 심층 조정해야 하는 경우에 이상적입니다.

미세 조정 전략

간단한 명령 튜닝은 Amazon Bedrock 모델 사용자 지정 또는 Amazon SageMaker JumpStart에서 처리할 수 있습니다. LoRA 또는 어댑터와 같은 복잡한 PEFT 접근 방식에는 Amazon Bedrock의 SageMaker 훈련 작업 또는 사용자 지정 미세 조정 기능이 필요합니다. SageMaker HyperPod는 매우 큰 모델에 대한 분산 훈련을 지원합니다.

인프라 규모 및 제어

Amazon Bedrock과 같은 완전관리형 서비스는 인프라 관리를 최소화하며 사용 편의성과 규정 준수를 우선시하는 조직에 적합합니다. SageMaker JumpStart와 같은 반관리형 옵션은 복잡성을 줄이면서 약간의 유연성을 제공합니다. 이러한 옵션은 신속한 프로토타입 생성 또는 사전 구축된 워크플로 사용에 적합합니다. 전체 제어 및 사용자 지정은 SageMaker 훈련 작업 및 HyperPod와 함께 제공되지만, 이러한 작업에는 더 많은 전문 지식이 필요하며 대규모 데이터세트에 맞게 확장해야 하거나 사용자 지정 파이프라인이 필요한 경우에 가장 적합합니다.

미세 조정된 모델 모니터링

의료 및 생명 과학에서 LLM 미세 조정을 모니터링하려면 여러 주요 성능 지표를 추적해야 합니다. 정확도는 기준 측정값을 제공하지만, 특히 잘못 분류하면 상당한 결과가 발생하는 애플리케이션에서는 정밀도 및 재현율과 균형을 이루어야 합니다. F1-score 의료 데이터 세트에서 흔히 발생할 수 있는 클래스 불균형 문제를 해결하는 데 도움이 됩니다. 자세한 내용은 이 안내서의 의료 및 생명과학 애플리케이션을 위한 LLMs 평가 섹션을 참조하세요.

보정 지표는 모델의 신뢰도 수준이 실제 확률과 일치하는지 확인하는 데 도움이 됩니다. 공정성 지표는 다양한 환자 인구통계에서 잠재적 편향을 감지하는 데 도움이 될 수 있습니다.

MLflow는 미세 조정 실험을 추적하는 데 도움이 되는 오픈 소스 솔루션입니다. MLflow는 Amazon SageMaker AI 내에서 기본적으로 지원되므로 훈련 실행의 지표를 시각적으로 비교할 수 있습니다. Amazon Bedrock의 미세 조정 작업의 경우 지표가 Amazon CloudWatch로 스트리밍되므로 CloudWatch 콘솔에서 지표를 시각화할 수 있습니다.