모델 성능 평가 및 비교 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 성능 평가 및 비교

평가 프레임워크를 사용하여 배포된 텍스트 분류 모델을 평가합니다. 프레임워크는 노트북 기반 접근 방식을 통해 지도 평가 모드와 비지도 평가 모드를 모두 지원합니다.

기본 제공 데이터세트 사용

대부분의 사용자는 레이블이 지정된 평가 데이터가 없으므로 이 자습서에서는 기본 제공 지도 평가 데이터세트를 사용하는 것이 좋습니다. 기본 제공 데이터세트는 다양한 시나리오에서 포괄적인 성능 분석을 제공합니다.

  • 균형 잡힌 데이터세트: 기준 성능에 대한 클래스 분포가 동일합니다.

  • 왜곡된 데이터세트: 실제 테스트를 위한 불균형한 클래스입니다.

  • 까다로운 데이터세트: 모델 견고성을 스트레스 테스트하기 위한 엣지 사례입니다.

평가는 정확도, 정밀도, 재현율, F1 점수, Matthews 상관관계 계수(MCC) 및 모델 비교를 위한 시각적 곡선이 있는 Area Under the Curve Receiver Operating Characteristic 점수를 포함한 주요 지표를 생성합니다.

사용자 지정 데이터 사용

레이블이 지정된 자체 데이터세트가 있는 경우 노트북에서 해당 데이터세트를 대체할 수 있습니다. 프레임워크는 데이터 형식에 자동으로 적응하고 동일한 포괄적인 지표를 생성합니다.

지원되는 데이터 형식:

  • CSV 형식: 두 개의 열: textlabel

  • 레이블 형식: "positive"/"negative", "LABEL_0"/"LABEL_1", "True"/"False", or "0"/"1"

  • 비지도: 신뢰도 분석을 위한 단일 text

평가 환경 설정

SageMaker Amazon SageMaker Studio에서 JupyterLab 스페이스를 생성하여 평가 노트북을 실행합니다.

  1. Studio의 홈 화면에서 JupyterLab을 선택합니다.

  2. 스페이스가 없는 경우:

    1. 스페이스 생성을 선택합니다.

    2. 설명적인 이름 이름을 입력합니다(예: TextModelEvaluation).

    3. 기본 인스턴스 유형을 유지합니다.

    4. 스페이스 실행을 선택합니다.

    5. 스페이스가 생성되면 JupyterLab 열기를 선택합니다.

평가 노트북에 액세스

zip 파일을 다운로드하여 로컬 머신에 추출합니다. 추출된 전체 폴더를 JupyterLab 스페이스에 업로드하여 모델 테스트를 시작합니다. 패키지에는 기본 평가 노트북, 샘플 데이터세트, 지원되는 Python 모듈 및 전체 평가 프레임워크에 대한 자세한 지침이 포함되어 있습니다.

참고

패키지를 추출한 후 README 파일에서 자세한 설정 지침 및 프레임워크 개요를 검토합니다.

결과 해석을 진행하여 평가 결과를 분석하고 데이터에 기반하여 모델을 선택하는 방법을 알아봅니다.