View a markdown version of this page

코어 추론 - Amazon Nova

코어 추론

추론은 Amazon Nova 모델에 요청을 전송하고 생성된 응답을 수신하는 프로세스입니다. Amazon Nova 모델은 다음과 같은 두 가지 API 옵션을 통한 추론을 지원합니다.

  • Converse API(Converse, ConverseStream): 여러 모델에서 일관된 인터페이스를 제공하므로 모델 사이를 전환하거나 여러 모델로 작동되는 애플리케이션을 더 쉽게 빌드할 수 있습니다. 대부분의 사용 사례에 권장됩니다.

  • Invoke API(InvokeModel, InvokeModelWithResponseStream): 요청 페이로드는 각 모델의 네이티브 형식에 맞게 특별히 구성됩니다. 요청 본문에 제공된 프롬프트 및 추론 파라미터를 사용하여 추론을 실행합니다.

두 API는 모두 다음을 포함하여 동일한 핵심 기능을 지원합니다.

  • 멀티턴 대화

  • 멀티모달 입력(텍스트, 이미지, 비디오, 오디오)

  • 도구 사용

  • 가드레일

  • 스트리밍 응답

요청 구조는 바이트 데이터(문서, 이미지, 비디오 및 오디오)가 인코딩되는 방식만 다르고 두 API 사이에서 거의 동일합니다. reasoningConfigTopK와 같이 Amazon Nova 모델에 고유한 모델 요청 파라미터의 경우 이러한 파라미터는 additionalModelRequestFields 내 추가 inferenceConfig 객체 안에 배치됩니다. InvokeModelInvokeModelWithResponseStream에 대한 최상위 파라미터입니다.

참고

코드 샘플 및 문제 해결에서 Nova 2 모델을 사용하는 코드 샘플 목록을 검토합니다.

Amazon Nova 모델을 사용하려면 modelId를 다음 중 하나로 설정합니다.

모델

모델 ID

Nova 2 Lite
  • global.amazon.nova-2-lite-v1:0

  • us.amazon.nova-2-lite-v1:0

Nova 2 Sonic

  • global.amazon.nova-2-sonic-v1:0

  • us.amazon.nova-2-sonic-v1:0

Nova Multimodal Embeddings

amazon.nova-2-multimodal-embeddings-v1:0

중요: 제한 시간 구성

중요

Amazon Nova 추론 요청을 완료하는 데 최대 60분이 걸릴 수 있습니다. 클라이언트 제한 시간 설정을 적절히 구성합니다.

다음 예제는 Python 코드입니다. 사용자는 해당 SDK의 API 문서에서 원하는 SDK 언어 버전에 대한 설명서를 확인할 수 있습니다.

from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )

코어 추론 주제

이 섹션에서는 다음과 같은 주제를 다룹니다.

  • Converse API 사용: 대부분의 Bedrock 모델에서 호환성을 제공하는 일관된 인터페이스

  • Invoke API 사용: Nova 모델에 고유하며 다른 Bedrock 모델에 이식할 수 없는 인터페이스

  • 응답 스트리밍: 실시간 응답 생성

  • Amazon Nova 임베딩 사용: 텍스트 임베딩 기능

  • 온디맨드 추론: 종량제 기반 추론 모델