기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
의료 및 생명과학 애플리케이션을 위한 LLMs 평가
이 섹션에서는 의료 및 생명과학 사용 사례에서 대규모 언어 모델(LLMs)을 평가하기 위한 요구 사항 및 고려 사항에 대한 포괄적인 개요를 제공합니다.
편향을 완화하고 LLM 생성 응답의 정확성을 검증하려면 실측 데이터와 SME 피드백을 사용하는 것이 중요합니다. 이 섹션에서는 훈련 및 테스트 데이터를 수집하고 큐레이션하는 모범 사례를 설명합니다. 또한 가드레일을 구현하고 데이터 편향과 공정성을 측정하는 데 도움이 됩니다. 또한 텍스트 분류, 명명된 엔터티 인식, 텍스트 생성과 같은 일반적인 의료 자연어 처리(NLP) 작업과 관련 평가 지표에 대해서도 설명합니다.
또한 훈련 실험 단계 및 프로덕션 후 단계에서 LLM 평가를 수행하기 위한 워크플로를 제공합니다. 모델 모니터링 및 LLM 작업은이 평가 프로세스의 중요한 요소입니다.
의료 NLP 작업을 위한 훈련 및 테스트 데이터
Medical NLP 태스크는 일반적으로 의료 코포라(예: PubMed) 또는 환자 정보(예: 임상 환자 방문 노트)를 사용하여 인사이트를 분류, 요약 및 생성합니다. 의사, 의료 관리자 또는 기술자와 같은 의료 담당자는 전문 지식과 관점이 다양합니다. 이러한 의료진 간의 주관성으로 인해 훈련 및 테스트 데이터 세트가 작을수록 편향의 위험이 있습니다. 이러한 위험을 완화하려면 다음 모범 사례를 따르는 것이 좋습니다.
-
사전 훈련된 LLM 솔루션을 사용할 때는 적절한 양의 테스트 데이터가 있는지 확인합니다. 테스트 데이터는 실제 의료 데이터와 매우 유사해야 합니다. 작업에 따라 레코드의 범위는 20개에서 100개를 초과할 수 있습니다.
-
LLM을 미세 조정할 때 대상 의료 도메인의 다양한 SMEs에서 충분한 수의 레이블이 지정된(실측 정보) 레코드를 수집합니다. 일반적인 시작점은 100개 이상의 고품질 레코드입니다. 그러나 작업의 복잡성과 정확도 수락 기준을 고려할 때 더 많은 레코드가 필요할 수 있습니다.
-
의료 사용 사례에 필요한 경우 가드레일을 구현하고 데이터 편향과 공정성을 측정합니다. 예를 들어 LLM이 환자의 인종 프로필로 인한 오진을 방지하는지 확인합니다. 자세한 내용은 이 설명서의 보안 및 가드레일 섹션을 참조하세요.
Anthropic과 같은 많은 AI 연구 및 개발 회사는 이미 유해성을 방지하기 위해 파운데이션 모델에 가드레일을 구현했습니다. 유해성 감지를 사용하여 입력 프롬프트와 LLMs. 자세한 내용은 Amazon Comprehend 설명서의 유해성 감지 및 Amazon Bedrock 설명서의 가드레일을 참조하세요.
생성형 AI 작업에는 할루시네이션 위험이 있습니다. 분류와 같은 NLP 작업을 수행하여이 위험을 완화할 수 있습니다. 텍스트 유사성 지표와 같은 고급 기술을 사용할 수도 있습니다. BertScore
의료 NLP 작업에 대한 지표
훈련 및 테스트를 위해 실측 데이터 및 SME 제공 레이블을 설정한 후 정량화 가능한 지표를 생성할 수 있습니다. 스트레스 테스트 및 LLM 결과 검토와 같은 정성적 프로세스를 통해 품질을 확인하는 것은 빠른 개발에 유용합니다. 그러나 지표는 향후 LLM 운영을 지원하는 정량적 벤치마크 역할을 하고 각 프로덕션 릴리스의 성능 벤치마크 역할을 합니다.
의료 작업을 이해하는 것이 중요합니다. 지표는 일반적으로 다음 일반 NLP 작업 중 하나에 매핑됩니다.
-
텍스트 분류 - LLM은 입력 프롬프트 및 제공된 컨텍스트에 따라 텍스트를 하나 이상의 사전 정의된 범주로 분류합니다. 예를 들어, 통증 척도를 사용하여 통증 범주를 분류합니다. 텍스트 분류 지표의 예는 다음과 같습니다.
-
NER(명명된 엔터티 인식) - 텍스트 추출이라고도 하는 명명된 엔터티 인식은 비정형 텍스트에 언급된 명명된 엔터티를 미리 정의된 범주로 찾아 분류하는 프로세스입니다. 예를 들어 환자 레코드에서 약물 이름을 추출합니다. NER 지표의 예는 다음과 같습니다.
-
생성 - LLM은 프롬프트와 제공된 컨텍스트를 처리하여 새 텍스트를 생성합니다. 생성에는 요약 작업 또는 질문 응답 작업이 포함됩니다. 생성 지표의 예는 다음과 같습니다.