결과 해석 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

결과 해석

텍스트 분류 모델 비교에서 평가 지표를 분석하여 프로덕션 배포를 위한 데이터 기반 결정을 내립니다.

평가 지표 이해

평가는 모든 데이터세트에서 각 모델에 대한 주요 지표를 몇 가지 제공합니다.

정확도

올바른 예측의 비율을 측정하고 균형 잡힌 데이터세트에 가장 적합합니다. 그러나 데이터가 불균형하면 오해의 소지가 있을 수 있으며 한 클래스가 지배적일 때 인위적으로 높은 결과를 보일 수 있습니다.

정밀도

긍정(Positive) 예측의 몇 퍼센트가 올바른지 측정하여 모델이 거짓 긍정(False Positive)을 얼마나 잘 방지하는지 평가합니다. 이 지표의 범위는 0.0~1.0(높을수록 좋음)이며 거짓 긍정으로 비용이 많이 드는 경우 중요해집니다.

재현율

실제 긍정이 발견된 비율을 측정하여 모델이 모든 긍정 사례를 얼마나 잘 포착하는지 평가합니다. 범위는 0.0~1.0(높을수록 좋음)이며 긍정 누락으로 인해 비용이 많이 드는 경우 중요해집니다.

F1 점수

정밀도와 재현율의 조화 평균을 제공하여 두 지표의 균형을 0.0~1.0(높을수록 좋음) 범위의 단일 점수로 조정합니다.

Matthews 상관관계 계수(MCC)

전체 바이너리 분류 품질을 측정하고 불균형 데이터에 대한 최상의 지표 역할을 합니다. 범위는 -1.0~1.0이며, 값이 높을수록 성능이 더 좋음을 나타내고 0은 무작위 추측을 나타냅니다.

Area Under the Curve Receiver Operating Characteristic

모델이 클래스를 얼마나 잘 구분하는지 평가합니다. 범위는 0.0~1.0입니다. 1.0은 완벽한 분류를 나타내고 0.5는 무작위 추측을 나타냅니다.

평균 추론 시간

실시간 애플리케이션에 중요한 예측 속도를 측정합니다. 이 지표를 평가할 때는 속도와 일관성을 모두 고려하세요.

참고

모델을 선택할 때 정확도에만 의존하지 마세요. 불균형한 데이터세트의 경우 정밀도, 재현율 및 MCC는 실제 성능에 대한 보다 신뢰할 수 있는 지표를 제공합니다.

데이터세트 유형 간 성능 비교

균형 잡힌 데이터세트는 긍정(Positive) 및 부정(Negative) 예시가 동일하게 표현된 이상적인 조건에서 모델이 얼마나 잘 작동하는지 보여줍니다. 여기서 강력한 성능은 모델이 기본 텍스트 분류 패턴을 학습했음을 나타냅니다.

왜곡된 데이터세트는 모델이 프로덕션 시나리오에서 일반적인 실제 클래스 불균형을 처리하는 방법을 보여줍니다.

까다로운 데이터세트는 프로덕션 환경에 나타날 수 있는 모호한 사례 또는 엣지 사례에 대한 모델의 견고성을 테스트합니다.

모델 선택

이 체계적인 접근 방식을 사용하여 특정 사용 사례에 가장 적합한 모델을 선택합니다.

비즈니스 우선순위 정의

모델을 선택하기 전에 사용 사례에 가장 중요한 성능 요소를 결정합니다.

  1. 정확도 요구 사항과 허용 가능한 최소 성능 임곗값을 식별합니다.

  2. 실시간(<100ms) 처리가 필요한지, 배치 처리가 필요한지를 포함하여 지연 시간 제약 조건을 결정합니다.

  3. 추론 및 규모 조정을 위한 비용 고려 사항과 예산을 설정합니다.

  4. 데이터 특성을 분석하여 프로덕션 데이터가 균형 잡혔는지, 왜곡되었는지, 매우 가변적인지 파악합니다.

각 모델을 선택해야 하는 상황

평가 결과에 따라 사용 사례에 가장 적합한 모델을 선택합니다.

  • 고객 서비스 챗봇의 실시간 감정 분석, 콘텐츠 조정 시스템 또는 100ms 미만의 응답 시간이 중요한 애플리케이션과 같이 우수한 정확도와 함께 더 빠른 추론이 필요한 경우 DistilBERT를 선택합니다.

  • 정밀도가 가장 중요하고 배치 처리가 허용되는 법적 문서 분류, 의료 텍스트 분석 또는 규정 준수 애플리케이션과 같이 속도보다 최대한의 정확도가 더 중요한 경우 BERT를 선택합니다.

평가 데이터세트의 우선순위 지정

실제 사용 사례를 가장 잘 나타내는 데이터세트에 집중합니다.

  1. 실제 데이터와 가장 유사한 데이터세트에 더 높은 가중치를 부여합니다.

  2. 애플리케이션에서 엣지 사례의 중요성을 고려하고 그에 따라 까다로운 데이터세트 성능의 우선순위를 정합니다.

  3. 하나의 데이터세트 유형에만 초점을 맞추지 않고 여러 시나리오에서 최적화의 균형을 맞춥니다.

평가 결과를 이러한 우선순위와 비교하여 정확도, 속도 및 비용 요구 사항의 균형을 가장 잘 맞추는 모델을 선택합니다.

이제 원하는 모델을 선택했으므로 프로덕션 배포 준비가 되었습니다. 계속해서 대규모로 모델 배포로 이동하세요.