코어 추론
추론은 Amazon Nova 모델에 요청을 전송하고 생성된 응답을 수신하는 프로세스입니다. Amazon Nova 모델은 다음과 같은 두 가지 API 옵션을 통한 추론을 지원합니다.
-
Converse API(Converse, ConverseStream): 여러 모델에서 일관된 인터페이스를 제공하므로 모델 사이를 전환하거나 여러 모델로 작동되는 애플리케이션을 더 쉽게 빌드할 수 있습니다. 대부분의 사용 사례에 권장됩니다.
-
Invoke API(InvokeModel, InvokeModelWithResponseStream): 요청 페이로드는 각 모델의 네이티브 형식에 맞게 특별히 구성됩니다. 요청 본문에 제공된 프롬프트 및 추론 파라미터를 사용하여 추론을 실행합니다.
두 API는 모두 다음을 포함하여 동일한 핵심 기능을 지원합니다.
-
멀티턴 대화
-
멀티모달 입력(텍스트, 이미지, 비디오, 오디오)
-
도구 사용
-
가드레일
-
스트리밍 응답
요청 구조는 바이트 데이터(문서, 이미지, 비디오 및 오디오)가 인코딩되는 방식만 다르고 두 API 사이에서 거의 동일합니다. reasoningConfig 및 TopK와 같이 Amazon Nova 모델에 고유한 모델 요청 파라미터의 경우 이러한 파라미터는 additionalModelRequestFields 내 추가 inferenceConfig 객체 안에 배치됩니다. InvokeModel 및 InvokeModelWithResponseStream에 대한 최상위 파라미터입니다.
참고
코드 샘플 및 문제 해결에서 Nova 2 모델을 사용하는 코드 샘플 목록을 검토합니다.
Amazon Nova 모델을 사용하려면 modelId를 다음 중 하나로 설정합니다.
모델 |
모델 ID |
|---|---|
| Nova 2 Lite |
|
Nova 2 Sonic |
|
Nova Multimodal Embeddings |
amazon.nova-2-multimodal-embeddings-v1:0 |
중요: 제한 시간 구성
중요
Amazon Nova 추론 요청을 완료하는 데 최대 60분이 걸릴 수 있습니다. 클라이언트 제한 시간 설정을 적절히 구성합니다.
다음 예제는 Python 코드입니다. 사용자는 해당 SDK의 API 문서에서 원하는 SDK 언어 버전에 대한 설명서를 확인할 수 있습니다.
from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )
코어 추론 주제
이 섹션에서는 다음과 같은 주제를 다룹니다.
-
Converse API 사용: 대부분의 Bedrock 모델에서 호환성을 제공하는 일관된 인터페이스
-
Invoke API 사용: Nova 모델에 고유하며 다른 Bedrock 모델에 이식할 수 없는 인터페이스
-
응답 스트리밍: 실시간 응답 생성
-
Amazon Nova 임베딩 사용: 텍스트 임베딩 기능
-
온디맨드 추론: 종량제 기반 추론 모델