기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지식 기반을 사용하여 모델 추론을 위한 응답 생성 구성
특정 파운데이션 모델은 더 크고 복잡한 작업을 수행하고 더 작고 간단한 단계로 분류하는 모델 추론을 수행할 수 있습니다. 사고 체인(CoT) 추론이라고도 하는이 프로세스는 모델이 응답하기 전에 생각할 수 있는 기회를 제공하여 모델 정확도를 개선할 수 있습니다. 모델 추론은 다단계 분석, 수학 문제, 복잡한 추론 작업과 같은 작업에 가장 유용합니다. 자세한 내용은 모델 추론을 사용하여 모델 응답 향상 단원을 참조하십시오.
참고
이 페이지에서는 Amazon Bedrock 지식 기반에 대한 추론 구성을 사용하는 방법을 설명합니다. InvokeModel
API를 사용하여 직접 모델 호출에 대한 추론을 구성하는 방법에 대한 자세한 내용은 섹션을 참조하세요모델 추론을 사용하여 모델 응답 향상.
모델 추론이 활성화되면 정확도가 향상되고 인용 결과가 향상될 수 있지만 지연 시간이 증가할 수 있습니다. 다음은 Amazon Bedrock 지식 기반에서 추론 모델을 사용하여 데이터 소스를 쿼리하고 응답을 생성할 때 고려해야 할 몇 가지 사항입니다.
추론 모델
모델 추론은 다음 모델에 사용할 수 있습니다.
파운데이션 모델 | 모델 ID | 토큰 수 | 추론 구성 |
---|---|---|---|
Anthropic | anthropic.claude-opus-4-20250514-v1:0 | 이 모델에는 출력 토큰과 추론 토큰을 모두 포함하는 32,768개의 토큰이 있습니다. | 구성 가능한 토큰 예산을 사용하여이 모델에 대한 추론을 활성화하거나 비활성화할 수 있습니다. 기본적으로 추론은 비활성화되어 있습니다. |
Anthropic Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | 이 모델에는 출력 토큰과 추론 토큰을 모두 포함하는 65,536개의 토큰이 있습니다. | 구성 가능한 토큰 예산을 사용하여이 모델에 대한 추론을 활성화하거나 비활성화할 수 있습니다. 기본적으로 추론은 비활성화되어 있습니다. |
Anthropic Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 | 이 모델에는 출력 토큰과 추론 토큰을 모두 포함하는 65,536개의 토큰이 있습니다. | 구성 가능한 토큰 예산을 사용하여이 모델에 대한 추론을 활성화하거나 비활성화할 수 있습니다. 기본적으로 추론은 비활성화되어 있습니다. |
DeepSeek DeepSeek-R1 | deepseek.r1-v1:0 | 이 모델에는 출력 토큰과 추론 토큰을 모두 포함하는 8192개의 토큰이 있습니다. 사고 토큰 수는 구성할 수 없으며 최대 출력 토큰 수는 8192보다 크지 않아야 합니다. | 추론은이 모델에 대해 항상 활성화됩니다. 모델은 추론 기능 켜기 및 끄기를 지원하지 않습니다. |
Claude 3.7 Sonnet에 모델 추론 사용
참고
DeepSeek-R1 모델에서는 모델 추론이 항상 활성화됩니다. 모델은 추론 기능 켜기 및 끄기를 지원하지 않습니다.
Claude 3.7 Sonnet 모델을 사용하는 경우 RetrieveAndGenerate
API의 additionalModelRequestFields
파라미터를 사용하여 모델 추론을 활성화하거나 비활성화할 수 있습니다. 이 파라미터는 모든 키-값 페어를 허용합니다. 예를 들어 아래와 같이 reasoningConfig
필드를 추가하고 type
키를 사용하여 추론을 활성화하거나 비활성화할 수 있습니다.
{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }
일반적인 고려 사항
다음은 지식 기반에 추론 모델을 사용하기 위한 몇 가지 일반적인 고려 사항입니다.
-
추론 모델은 쿼리에 응답하는 데 최대 5분이 걸립니다. 모델이 쿼리에 응답하는 데 5분 이상 걸리면 시간 초과가 발생합니다.
-
5분 제한 시간을 초과하지 않도록 쿼리 및 응답 생성을 구성할 때 생성 단계에서만 모델 추론이 활성화됩니다. 오케스트레이션 단계는 모델 추론을 가질 수 없습니다.
-
추론 모델은 최대 8,192개의 토큰을 사용하여 쿼리에 응답할 수 있으며, 여기에는 출력 토큰과 사고 토큰이 모두 포함됩니다. 이 제한을 초과하는 최대 출력 토큰 수에 대한 요청이 있는 모든 요청에는 오류가 발생합니다.
API 고려 사항 검색 및 생성
다음은 추론 모델에 RetrieveAndGenerate
API를 사용할 때 고려해야 할 몇 가지 사항입니다.
-
기본적으로 Claude 3.7 Sonnet을 포함한 모든 모델에 대해 추론이 비활성화되면 온도가 0으로 설정됩니다. 추론이 활성화된 경우 온도를 1로 설정해야 합니다.
"inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } }
-
Claude 3.7 Sonnet 모델에 추론이 활성화된 경우 파라미터 Top P를 비활성화해야 합니다. 상위 P는 생성 중에 선택할 수 있는 토큰의 백분위수를 결정하는 추가 모델 요청 필드입니다. 기본적으로 다른 Anthropic Claude 모델의 Top P 값은 1입니다. Claude 3.7 Sonnet 모델의 경우이 값은 기본적으로 비활성화됩니다.
-
모델 추론을 사용하는 경우 지연 시간이 증가할 수 있습니다. 이 API 작업과
RetrieveAndGenerateStream
API 작업을 사용할 때 API로부터 응답을 받는 데 지연이 발생할 수 있습니다.