기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker AI 훈련 모델 평가
평가 프로세스의 목적은 벤치마크 또는 사용자 지정 데이터 세트를 기준으로 훈련된 모델 성능을 평가하는 것입니다. 평가 프로세스에는 일반적으로 훈련된 모델을 가리키는 평가 레시피를 생성하고, 평가 데이터 세트 및 지표를 지정하고, 평가를 위해 별도의 작업을 제출하고, 표준 벤치마크 또는 사용자 지정 데이터를 기준으로 평가하는 단계가 포함됩니다. 평가 프로세스는 Amazon S3 버킷에 저장된 성능 지표를 출력합니다.
참고
이 주제에 설명된 평가 프로세스는 오프라인 프로세스입니다. 모델은 실시간 또는 실시간 사용자 상호 작용을 통해 평가되지 않고 미리 정의된 답변이 있는 고정 벤치마크에 대해 테스트됩니다. 실시간 평가를 위해 Amazon Bedrock 런타임 API를 호출하여 모델을 Amazon Bedrock에 배포한 후 테스트할 수 있습니다. APIs
사전 조건
평가 훈련 작업을 시작하기 전에 다음 사항에 유의하세요.
-
성능을 평가하려는 SageMaker AI 훈련 Amazon Nova 모델입니다.
-
평가를 위한 기본 Amazon Nova 레시피입니다. 자세한 내용은 Amazon Nova 레시피 가져오기 단원을 참조하십시오.
사용 가능한 벤치마크 작업
Amazon Nova에 대한 SageMaker 모델 평가 기능을 사용하여 벤치마크 지표를 계산하는 방법을 보여주는 샘플 코드 패키지를 사용할 수 있습니다. 코드 패키지에 액세스하려면 sample-Nova-lighteval-custom-task
다음은 지원되는 사용 가능한 업계 표준 벤치마크 목록입니다. eval_task
파라미터에서 다음 벤치마크를 지정할 수 있습니다.
모델 평가에 사용할 수 있는 벤치마크
벤치마크 | 양식 | 설명 | Metrics | Strategy | 하위 작업 사용 가능 |
---|---|---|---|---|---|
mmlu |
텍스트 |
다중 작업 언어 이해 - 57개 주제에 대한 지식을 테스트합니다. |
정확도 |
zs_cot | 예 |
mmlu_pro | 텍스트 |
MMLU - 전문 하위 집합 - 법률, 의학, 회계 및 엔지니어링과 같은 전문 영역에 중점을 둡니다. |
정확도 | zs_cot | 아니요 |
bbh | 텍스트 |
고급 추론 작업 - 상위 수준의 인지 및 문제 해결 기술을 테스트하는 어려운 문제의 모음입니다. |
정확도 | fs_cot | 예 |
gpqa | 텍스트 |
일반 물리 질문 답변 - 물리 개념 및 관련 문제 해결 능력에 대한 이해를 평가합니다. |
정확도 | zs_cot | 아니요 |
math | 텍스트 |
수학적 문제 해결 - 대수학, 계산기, 단어 문제 등 여러 주제에서 수학적 추론을 측정합니다. |
exact_match | zs_cot | 예 |
strong_reject | 텍스트 |
품질 제어 작업 - 부적절하거나 유해하거나 잘못된 콘텐츠를 감지하고 거부하는 모델의 능력을 테스트합니다. |
deflection | zs | 예 |
ifeval | 텍스트 |
지침 준수 평가 - 모델이 지정된 지침을 얼마나 정확하게 따르고 사양에 맞는 작업을 완료하는지 측정합니다. |
정확도 | zs | 아니요 |
gen_qa | 텍스트 |
사용자 지정 데이터 세트 평가 - 벤치마킹을 위한 자체 데이터 세트를 제공하여 모델 출력을 ROUGE 및 BLEU와 같은 지표와 참조 답변과 비교할 수 있습니다. |
모두 | gen_qa | 아니요 |
mmmu | 다중 모달 |
대규모 다중 분야 다중 모달 이해(MMMU) - 30개 분야의 다중 선택 및 개방형 질문으로 구성된 대학 수준 벤치마크입니다. |
정확도 | zs_cot | 예 |
llm_judge | 텍스트 |
LLM-as-a-Judge 기본 설정 비교 - Nova Judge 모델을 사용하여 프롬프트에 대한 페어링된 응답(B와 A 비교) 간의 기본 설정을 결정하여 A보다 B가 선호될 확률을 계산합니다. |
모두 | 판사 | 아니요 |
평가별 구성
다음은 레시피의 주요 구성 요소에 대한 분석과 사용 사례에 맞게 수정하는 방법에 대한 지침입니다.
레시피 이해 및 수정
일반 실행 구성
run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: ""
-
name
: 평가 작업을 설명하는 이름입니다. -
model_type
: 사용할 Nova 모델 변형을 지정합니다. 이 필드를 수동으로 수정하지 마십시오. 옵션에는 다음이 포함됩니다.-
amazon.nova-micro-v1:0:128k
-
amazon.nova-lite-v1:0:300k
-
amazon.nova-pro-v1:0:300k
-
-
model_name_or_path
: 훈련 후 체크포인트의 기본 모델 경로 또는 s3 경로입니다. 옵션에는 다음이 포함됩니다.-
nova-micro/prod
-
nova-lite/prod
-
nova-pro/prod
-
사후 훈련된 체크포인트 경로의 S3 경로(
s3:customer-escrow-111122223333-smtj-<unique_id>/<training_run_name>
)참고
훈련 후 모델 평가
Nova SFT 훈련 작업 후 훈련 후 모델을 평가하려면 성공적인 훈련 작업을 실행한 후 다음 단계를 따르세요. 훈련 로그가 끝나면 "Training is complete"라는 로그 메시지가 표시됩니다. 또한 출력 버킷에서 체크포인트 위치가 포함된
manifest.json
파일을 찾을 수 있습니다. 이 파일은 출력 S3 위치의output.tar.gz
파일 내에 있습니다. 평가를 진행하려면 레시피 구성run.model_name_or_path
에서이 체크포인트를의 값으로 설정하여이 체크포인트를 사용합니다.
-
-
replica
: 분산 훈련에 사용할 컴퓨팅 인스턴스 수입니다. 다중 노드는 지원되지 않으므로 1로 설정합니다. -
data_s3_path
: 입력 데이터 세트 Amazon S3 경로입니다. 이 필드는 필수이지만 항상 비워 두어야 합니다.
평가 구성
evaluation: task: mmlu strategy: zs_cot subtask: abstract_algebra metric: accuracy
-
task
: 사용할 평가 벤치마크 또는 작업을 지정합니다. 지원되는 작업에는 다음이 포함됩니다.-
mmlu
-
mmlu_pro
-
bbh
-
gpqa
-
math
-
strong_reject
-
gen_qa
-
ifeval
-
mmmu
-
llm_judge
-
-
strategy
: 평가 접근 방식을 정의합니다.-
zs_cot
: 제로샷 사고 체인 - 명시적 예제 없이 step-by-step 추론을 장려하는 대규모 언어 모델을 프롬프트하는 접근 방식입니다. -
fs_cot
: Few-shot 사고 체인 - 모델에 새 문제를 해결하도록 요청하기 전에 step-by-step 추론의 몇 가지 예를 제공하는 접근 방식입니다. -
zs
: 제로샷 - 사전 훈련 예제 없이 문제를 해결하기 위한 접근 방식입니다. -
gen_qa
: 자체 데이터 세트를 가져오는 데 특정한 전략입니다. -
judge
: Nova LLM을 판사로 사용하는 전략.
-
-
subtask
: 선택 사항입니다. 평가 작업의 특정 구성 요소입니다. 사용 가능한 하위 작업의 전체 목록은 섹션을 참조하세요사용 가능한 하위 작업.-
사용 가능한 벤치마크 작업에서 지원되는 하위 작업을 확인합니다.
-
하위 작업 벤치마크가 없는 경우이 필드를 제거해야 합니다.
-
-
metric
: 사용할 평가 지표입니다.-
accuracy
: 정답의 백분율입니다. -
exact_match
: 수학 벤치마크의 경우는 입력 예측 문자열이 참조와 정확히 일치하는 속도를 반환합니다. -
deflection
: 강력한 거부 벤치마크의 경우는 기본 모델 및 차이 중요도 지표에 대한 상대 편향을 반환합니다. -
all
:gen_qa
의 경우 자체 데이터 세트 벤치마크를 가져오고 다음 지표를 반환합니다.-
rouge1
: 생성된 텍스트와 참조 텍스트 간의 유니그램(단일 단어) 중복을 측정합니다. -
rouge2
: 생성된 텍스트와 참조 텍스트 간의 바이그램(2개 연속 단어) 겹침을 측정합니다. -
rougeL
: 텍스트 간에 가장 긴 공통 하위 시퀀스를 측정하여 일치 항목의 간격을 허용합니다. -
exact_match
: 생성된 텍스트가 문자별로 참조 텍스트와 정확히 일치하는지 여부를 나타내는 이진 점수(0 또는 1)입니다. -
quasi_exact_match
: 정확히 일치하지만 관대하며 일반적으로 대소문자, 구두점 및 공백 차이를 무시합니다. -
f1_score
: 예측된 답변과 참조 답변 간의 단어 중첩을 측정하는 정밀도 및 재현율의 고조파 평균입니다. -
f1_score_quasi
: f1_score와 비슷하지만 사소한 차이를 무시하는 정규화된 텍스트 비교를 사용하여 일치가 더 관대합니다. -
bleu
: 번역 평가에 일반적으로 사용되는 생성된 텍스트와 참조 텍스트 간의 n그램 일치 정밀도를 측정합니다.
llm_judge
의 경우 자체 데이터 세트 벤치마크를 가져오고 다음 지표를 반환합니다.-
a_scores
:response_A
순방향 및 역방향 평가 패스의 성공 횟수입니다. -
a_scores_stderr
: 쌍별 판단response_A_scores
간의 표준 오류입니다. -
b_scores
:response_B
순방향 및 역방향 평가 패스의 성공 횟수를 측정합니다. -
a_scores_stderr
: 쌍별 판단response_B_scores
간의 표준 오류입니다. -
ties
:response_A
및response_B
가 동일한 것으로 평가되는 판단 수입니다. -
ties_stderr
: 쌍별 판단ties
간의 표준 오류입니다. -
inference_error
: 올바르게 평가할 수 없는 판단 수입니다. -
score
:에 대한 순방향 및 역방향 패스의 성공을 기반으로 점수를 집계합니다response_B
. -
score_stderr
:에 대한 순방향 및 역방향 패스의 성공을 기반으로 점수를 집계합니다response_B
. -
inference_error_stderr
: 쌍별 판단에서 집계 점수의 표준 오류입니다. -
winrate
: ™-Terry 확률을 사용하여response_A
계산하는 것보다 선호response_B
되는 확률입니다. -
lower_rate
: 부트스트랩 샘플링의 예상 승률 하한(2.5번째 백분위수)입니다. -
upper_rate
: 부트스트랩 샘플링의 예상 승률의 상한(97.5번째 백분위수)입니다.
-
-
추론 구성(선택 사항)
inference: max_new_tokens: 2048 top_k: -1 top_p: 1.0 temperature: 0
-
max_new_tokens
: 생성할 최대 토큰 수입니다. 정수여야 합니다. (LLM Judge에는 사용할 수 없음) -
top_k
: 고려할 확률이 가장 높은 토큰 수입니다. 정수여야 합니다. -
top_p
: 토큰 샘플링에 대한 누적 확률 임계값입니다. 1.0~0.0 사이의 부동 소수점이어야 합니다. -
temperature
: 토큰 선택의 무작위성(높음 = 더 많음)을 0으로 유지하여 결과를 결정적으로 만듭니다. 부동 소수점 유형, 최소값은 0입니다.
평가 레시피 예제
Amazon Nova는 네 가지 유형의 평가 레시피를 제공합니다. 모든 레시피는 Amazon SageMaker HyperPod 레시피 GitHub 리포지토리에서 사용할 수 있습니다
평가 레시피
이러한 레시피를 사용하면 포괄적인 텍스트 전용 벤치마크 제품군에서 Amazon Nova 모델의 기본 기능을 평가할 수 있습니다.
레시피 형식: xxx_ general_text_benchmark_eval.yaml
.
이러한 레시피를 사용하면 포괄적인 다중 모달리티 벤치마크 제품군에서 Amazon Nova 모델의 기본 기능을 평가할 수 있습니다.
레시피 형식: xxx_general_multi_modal_benchmark_eval.yaml
.
다중 모달 벤치마크 요구 사항
-
모델 지원 - nova-lite 및 nova-pro 기본 모델과 훈련 후 변형만 지원합니다.
이러한 레시피를 사용하면 벤치마킹을 위한 자체 데이터 세트를 가져오고 다양한 유형의 지표를 사용하여 모델 출력을 참조 답변과 비교할 수 있습니다.
레시피 형식: xxx_ bring_your_own_dataset_eval.yaml
.
자체 데이터 세트 요구 사항 가져오기
파일 형식:
-
평가 예제가 포함된 단일
gen_qa.jsonl
파일입니다. 파일 이름은 정확해야 합니다gen_qa.jsonl
. -
는 SageMaker 훈련 작업이 액세스할 수 있는 S3 위치에 데이터 세트를 업로드해야 합니다.
-
파일은 일반 Q&Q 데이터 세트에 필요한 스키마 형식을 따라야 합니다.
스키마 형식 - .jsonl
파일의 각 줄은 다음 필드가 있는 JSON 객체여야 합니다.
-
필수 필드입니다.
query
: 답변이 필요한 질문 또는 지침이 포함된 문자열입니다.response
: 예상 모델 출력을 포함하는 문자열입니다. -
선택적 필드입니다.
system
: 쿼리를 처리하기 전에 AI 모델의 동작, 역할 또는 특성을 설정하는 시스템 프롬프트가 포함된 문자열입니다.
입력 예
{ "system":"You are an English major with top marks in class who likes to give minimal word responses: ", "query":"What is the symbol that ends the sentence as a question", "response":"?" }{ "system":"You are a pattern analysis specialist who provides succinct answers: ", "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?", "response":"32" }{ "system":"You have great attention to detail and follow instructions accurately: ", "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry", "response":"of dry" }
사용자 지정 데이터 세트를 사용하려면 다음 필수 필드로 평가 레시피를 수정하고 콘텐츠를 변경하지 마세요.
evaluation: task: gen_qa strategy: gen_qa metric: all
제한 사항
-
평가당 하나의
.jsonl
파일만 허용됩니다. -
파일은 정의된 스키마를 엄격하게 따라야 합니다.
Nova LLM Judge는 사용자 지정 데이터 세트를 사용하여 한 모델의 응답 품질을 기준 모델의 응답과 비교할 수 있는 모델 평가 기능입니다. 프롬프트, 기준 응답 및 챌린저 응답이 포함된 데이터 세트를 수락한 다음 Nova Judge 모델을 사용하여 쌍별 비교를 통해 ™-Terryxxx_llm_judge _eval.yaml
.
Nova LLM 데이터 세트 요구 사항
파일 형식:
-
평가 예제가 포함된 단일
llm_judge.jsonl
파일입니다. 파일 이름은 정확해야 합니다llm_judge.jsonl
. -
는 SageMaker 훈련 작업이 액세스할 수 있는 S3 위치에 데이터 세트를 업로드해야 합니다.
-
파일은
llm_judge
데이터 세트에 필요한 스키마 형식을 따라야 합니다. -
입력 데이터 세트는 모든 레코드의 컨텍스트 길이가 12k 미만인지 확인해야 합니다.
스키마 형식 - .jsonl
파일의 각 줄은 다음 필드가 있는 JSON 객체여야 합니다.
-
필수 필드입니다.
prompt
: 생성된 응답에 대한 프롬프트가 포함된 문자열입니다.response_A
: 기준 응답을 포함하는 문자열입니다.response_B
: 대체 응답이 포함된 문자열을 기준 응답과 비교합니다.
입력 예
{ "prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less." } { "prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations." } { "prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts." }
사용자 지정 데이터 세트를 사용하려면 다음 필수 필드로 평가 레시피를 수정하고 콘텐츠를 변경하지 마세요.
evaluation: task: llm_judge strategy: judge metric: all
제한 사항
-
평가당 하나의
.jsonl
파일만 허용됩니다. -
파일은 정의된 스키마를 엄격하게 따라야 합니다.
-
Nova Judge 모델은 마이크로/라이트/프로 사양에서 동일합니다.
-
사용자 지정 판단 모델은 현재 지원되지 않습니다.
평가 훈련 작업 실행
다음 샘플 Jupyter 노트북을 사용하여 훈련 작업을 시작합니다. 자세한 내용은 SageMaker AI 예측기를 사용하여 훈련 작업 실행을 참조하세요.
참조 테이블
노트북을 실행하기 전에 다음 참조 테이블을 참조하여 이미지 URI 및 인스턴스 구성을 선택합니다.
이미지 URI 선택
레시피 | 이미지 URI |
---|---|
평가 이미지 URI |
708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest |
인스턴스 유형 및 개수 선택
모델 | 작업 유형 | 인스턴스 유형 | 권장 인스턴스 수 | 허용된 인스턴스 수 |
---|---|---|---|---|
Amazon Nova Micro | 평가(SFT/DPO) |
g5.12xlarge |
1 | 1 |
Amazon Nova Lite | 평가(SFT/DPO) |
g5.12xlarge |
1 | 1 |
Amazon Nova Pro | 평가(SFT/DPO) |
p5.48xlarge |
1 | 1 |
샘플 노트북
다음 샘플 노트북은 평가 훈련 작업을 실행하는 방법을 보여줍니다.
# install python SDK !pip install sagemaker import os import sagemaker,boto3 from sagemaker.inputs import TrainingInput from sagemaker.pytorch import PyTorch sagemaker_session = sagemaker.Session() role = sagemaker.get_execution_role() # Download recipe from https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/evaluation/nova to local # Assume the file name be `recipe.yaml` # Populate parameters # input_s3_uri = "
s3://<path>/input/
" # (Optional) Only used for multi-modal dataset or bring your own dataset s3 location output_s3_uri= "s3://<path>/output/
" # Output data s3 location, a zip containing metrics json and tensorboard metrics files will be stored to this location instance_type = "instace_type
" # ml.g5.16xlarge as example job_name = "your job name
" recipe_path = "recipe path
" # ./recipe.yaml as example image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest" # Do not change # (Optional) To bring your own dataset and LLM judge for evaluation # evalInput = TrainingInput( # s3_data=input_s3_uri, # distribution='FullyReplicated', # s3_data_type='S3Prefix' #) estimator = PyTorch( output_path=output_s3_uri, base_job_name=job_name, role=role, instance_type=instance_type, training_recipe=recipe_path, sagemaker_session=sagemaker_session, image_uri = image_uri ) estimator.fit() # If input dataset exist, pass in inputs # estimator.fit(inputs={"train": evalInput})
평가 결과 평가 및 분석
평가 작업이 성공적으로 완료되면 다음 단계를 사용하여 결과를 평가하고 분석할 수 있습니다.
결과를 평가하고 분석하려면 다음 단계를 따릅니다.
-
출력 위치 구조를 이해합니다. 결과는 지정된 Amazon S3 출력 위치에 압축 파일로 저장됩니다.
s3:
//your-bucket/output/benchmark-name/
└── job_name/ └── output/ └── output.tar.gz -
버킷에서
output.tar.gz
파일을 다운로드합니다. 콘텐츠를 추출하여 공개합니다. 를 제외한 모든 벤치마크에 존재합니다strong_reject
.run_name/ ├── eval_results/ │ └── results_[timestamp].json | └── details/ | └── model/ | └── <execution-date-time>/ | └──details_<task_name>_#_<datetime>.parquet └── tensorboard_results/ └── eval/ └── events.out.tfevents.[timestamp]
-
results_[timestamp].json
- 출력 지표 JSON 파일 -
details_<task_name>_#_<datetime>.parquet
- 추론 출력 파일 -
events.out.tfevents.[timestamp]
- TensorBoard 출력 파일
-
-
TensorBoard에서 결과를 봅니다. 평가 지표를 시각화하려면:
-
S3 버킷에 추출된 폴더 업로드
-
SageMaker TensorBoard로 이동
-
"S3 폴더"를 선택합니다.
-
S3 폴더 경로 추가
-
동기화가 완료될 때까지 기다립니다.
-
-
추론 출력을 분석합니다. llm_judge를 제외한 모든 평가 작업에는 추론 출력에 분석을 위한 다음 필드가 있습니다.
-
full_prompt
- 평가 작업에 사용되는 모델로 전송되는 전체 사용자 프롬프트입니다. -
gold
- 데이터 세트에 지정된 올바른 답변(들)이 포함된 필드입니다. -
metrics
- 개별 추론에서 평가된 지표가 포함된 필드입니다. 집계가 필요한 값은 개별 추론 출력에 값을 갖지 않습니다. -
predictions
- 지정된 프롬프트에 대한 모델 출력 목록이 포함된 필드입니다.
이러한 필드를 보면 지표 차이의 원인을 파악하고 사용자 지정 모델의 동작을 이해할 수 있습니다.
llm_judge
의 경우 추론 출력 파일에는 평가 쌍당 지표 필드 아래에 다음 필드가 포함됩니다.-
forward_output
- 순서대로 평가할 때 판단자의 원시 기본 설정(response_A, response_B). -
backward_output
- 역순으로 평가할 때 판단자의 원시 기본 설정(response_B, response_A). -
Pairwise metrics
-a_scores
, , 및를 포함하여 순방향 및 역방향 평가 페어별로 계산되는 지표b_scores
ties
inference-score
입니다score
.참고
와 같은 집계 지표
winrate
는 개별 판단이 아닌 요약 결과 파일에서만 사용할 수 있습니다.
-
평가 모범 사례 및 문제 해결
모범 사례
다음은 평가 프로세스의 몇 가지 모범 사례입니다.
-
출력 경로를 모델 및 벤치마크 유형별로 정리하여 유지합니다.
-
추적이 용이하도록 일관된 이름 지정 규칙을 유지합니다.
-
추출된 결과를 안전한 위치에 저장합니다.
-
TensorBoard 동기화 상태를 모니터링하여 데이터를 성공적으로 로드합니다.
문제 해결
CloudWatch 로그 그룹을 훈련 작업 오류 로그/aws/sagemaker/TrainingJobs
에 사용할 수 있습니다.
CUDA 메모리 부족 오류
문제:
모델 평가를 실행할 때 다음 오류가 발생합니다.
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate X MiB. GPU 0 has a total capacity of Y GiB of which Z MiB is free.
원인:
이 오류는 현재 인스턴스 유형에서 사용할 수 있는 것보다 더 많은 GPU 메모리가 필요한 모델을 로드하려고 할 때 발생합니다.
해결 방법:
GPU 메모리가 더 많은 인스턴스 유형을 선택합니다. 예를 들어 G5.12xlarge(96GiB GPU 메모리)를 사용하는 경우 G5.48xlarge(192GiB GPU 메모리)로 업그레이드
예방:
모델 평가를 실행하기 전에 다음을 수행합니다.
-
모델의 메모리 요구 사항 추정
-
선택한 인스턴스 유형에 충분한 GPU 메모리가 있는지 확인합니다.
-
모델 로드 및 추론에 필요한 메모리 오버헤드 고려
사용 가능한 하위 작업
다음은 MMLU(Massive Multitask Language Understanding), BBH(Big Bench Hard), 수학 및 MMMU(Massive Multi-discipline Multimodal Understanding)를 포함한 여러 도메인에서 모델 평가에 사용할 수 있는 하위 작업을 나열합니다. 이러한 하위 작업을 통해 특정 기능 및 지식 영역에서 모델의 성능을 평가할 수 있습니다.
MMLU
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
BBH
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
수학 연산
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]
MMMU
MATH_SUBTASKS = [ "Accounting", "Agriculture", "Architecture_and_Engineering", "Art", "Art_Theory", "Basic_Medical_Science", "Biology", "Chemistry", "Clinical_Medicine", "Computer_Science", "Design", "Diagnostics_and_Laboratory_Medicine", "Economics", "Electronics", "Energy_and_Power", "Finance", "Geography", "History", "Literature", "Manage", "Marketing", "Materials", "Math", "Mechanical_Engineering", "Music", "Pharmacy", "Physics", "Psychology", "Public_Health", "Sociology", ]