Amazon Bedrock에서 추론이 작동하는 방식
모델에 입력을 제출하면 모델이 뒤에 오는 토큰의 가능한 시퀀스를 예측하고 그 시퀀스를 출력으로 반환합니다. Amazon Bedrock은 선택한 파운데이션 모델로 추론을 실행할 수 있는 기능을 제공합니다. 추론을 실행할 때 다음 입력을 제공합니다.
-
프롬프트 - 응답을 생성하기 위해 모델에 제공하는 입력입니다. 프롬프트를 작성하는 방법에 대한 자세한 내용은 프롬프트 엔지니어링 개념 섹션을 참조하세요. 프롬프트 인젝션 공격을 방어하는 방법에 대한 자세한 내용은 프롬프트 인젝션 보안 섹션을 참조하세요.
-
모델 - 프롬프트에 대해 추론을 실행하도록 모델에 요청합니다. 선택한 모델은 사용자가 처리할 수 있는 입력 및 출력 토큰의 수와 속도를 정의하는 처리량 수준도 지정합니다. 다음 유형의 모델에 요청할 수 있습니다.
-
기본 모델 - 추론을 실행할 파운데이션 모델입니다. 요청은 단일 AWS 리전으로 전송됩니다. 모델 ID에 대해서는 Amazon Bedrock에서 지원되는 파운데이션 모델 섹션을 참조하세요. Amazon Bedrock에서 사용할 수 있는 파운데이션 모델에 대한 자세한 내용은 Amazon Bedrock 파운데이션 모델 정보 섹션을 참조하세요.
-
추론 프로파일 - 추론을 실행할 파운데이션 모델입니다. 여러 AWS 리전의 모델로 요청이 이루어집니다. 추론 프로파일 ID에 대해서는 추론 프로파일에 지원되는 리전 및 모델 섹션을 참조하세요.
참고
모델은 리전 및 API 메서드별로 기본 모델 및 추론 프로파일 가용성이 다릅니다. 자세한 내용은 파운데이션 모델 참조의 Amazon Bedrock에서 지원되는 파운데이션 모델 및 개별 모델 페이지를 참조하세요.
-
프로비저닝된 처리량 - 전용 처리량을 구매한 파운데이션 모델입니다. 자세한 내용은 프로비저닝된 처리량 섹션을 참조하세요.
-
사용자 지정 모델 - 모델 사용자 지정을 통해 가중치가 수정된 파운데이션 모델입니다. 자세한 내용은 모델을 사용자 지정하여 사용 사례에 맞게 성능 개선 섹션을 참조하세요.
-
-
추론 파라미터 - 모델 응답을 제한하거나 영향을 미치도록 조정할 수 있는 값 집합입니다. 추론 파라미터에 대한 자세한 내용은 추론 파라미터를 사용하여 응답 생성에 영향을 주는 방법 및 파운데이션 모델의 추론 요청 파라미터 및 응답 필드 섹션을 참조하세요.
다양한 AWS 리전에서 모델 간접 호출
모델을 간접적으로 호출할 때 호출할 AWS 리전을 선택합니다. 수행할 수 있는 요청의 빈도와 크기에 대한 할당량은 리전에 따라 다릅니다. Amazon Bedrock 서비스 할당량에서 다음 할당량을 검색하여 이러한 할당량을 찾을 수 있습니다.
-
${Model}에 대한 분당 온디맨드 모델 추론 요청 -
${Model}에 대한 분당 온디맨드 InvokeModel 토큰 \
파운데이션 모델 자체 대신 추론 프로파일을 간접적으로 호출할 수도 있습니다. 추론 프로파일은 추론 프로파일이 모델 간접 호출 요청을 라우팅할 수 있는 하나 이상의 리전과 모델을 정의합니다. 여러 리전이 포함된 추론 프로파일을 간접적으로 호출하면 처리량을 늘릴 수 있습니다. 자세한 내용은 교차 리전 추론을 통한 처리량 증대 섹션을 참조하세요. 추론 프로파일로 수행할 수 있는 요청의 빈도 및 크기에 대한 할당량을 보려면 Amazon Bedrock 서비스 할당량에서 다음 할당량을 검색합니다.
-
${Model}에 대한 분당 교차 리전 InvokeModel 요청 -
${Model}에 대한 분당 교차 리전 InvokeModel 토큰 -
${Model}에 대한 분당 글로벌 교차 리전 InvokeModel 요청 -
${Model}에 대한 분당 글로벌 교차 리전 InvokeModel 토큰
리전에 대한 요청은 동일한 상위 리전을 공유하는 로컬 영역에서 처리될 수 있습니다. 예를 들어 미국 동부(버지니아 북부)(us-east-1)에 대한 요청은 미국 애틀랜타(us-east-1-atl-2a)와 같이 연결된 모든 로컬 영역에서 처리될 수 있습니다.
교차 리전 추론을 사용할 때도 동일한 원칙이 적용됩니다. 예를 들어 미국 Anthropic Claude 3 Haiku 추론 프로파일에 대한 요청은 미국 시애틀(us-west-2-sea-1a)과 같이 미국에 상위 리전이 있는 모든 로컬 영역에서 처리될 수 있습니다. 새 로컬 영역이 AWS에 추가되면 해당 교차 리전 추론의 엔드포인트에도 추가됩니다.
로컬 엔드포인트 및 연결된 상위 리전의 목록을 보려면 AWS 로컬 영역 위치
Amazon Bedrock에서 교차 리전 추론 프로파일을 간접적으로 호출하면 요청은 소스 리전에서 시작되고 해당 프로파일에 정의된 대상 리전 중 하나로 자동으로 라우팅되어 성능을 최적화합니다. 글로벌 교차 리전 추론 프로파일의 대상 리전에는 모든 상용 리전이 포함됩니다.
AWS가 사용자의 요청을 처리할 수 있는 상용 리전을 추가함에 따라 특정 모델에 대한 글로벌 교차 리전 추론 프로파일은 시간이 지나면서 변경될 수 있습니다. 그러나 추론 프로파일이 지리(예: 미국, EU 또는 APAC)에 연결된 경우 대상 리전 목록은 변경되지 않습니다. AWS는 새 리전을 통합하는 새 추론 프로파일을 생성할 수 있습니다. 설정의 ID를 새 ID로 변경하여 이러한 추론 프로파일을 사용하도록 시스템을 업데이트할 수 있습니다.
참고
교차 리전 추론 프로파일의 대상 리전에는 AWS 계정 또는 조직 수준에서 명시적으로 활성화해야 하는 리전인 옵트인 리전이 포함될 수 있습니다. 자세한 내용은 계정에서 AWS 리전 활성화 또는 비활성화를 참조하세요. 교차 리전 추론 프로파일을 사용하는 경우 계정의 해당 리전에 옵트인하지 않은 경우에도 추론 요청을 프로파일의 대상 리전으로 라우팅할 수 있습니다.
서비스 제어 정책(SCP)과 AWS Identity and Access Management(IAM) 정책은 함께 작동하여 교차 리전 추론이 허용되는 위치를 제어합니다. SCP를 사용하면 Amazon Bedrock이 추론에 사용할 수 있는 리전을 제어할 수 있으며, IAM 정책을 사용하면 추론을 실행할 권한이 있는 사용자 또는 역할을 정의할 수 있습니다. 교차 리전 추론 프로파일의 대상 리전이 SCP에서 차단된 경우 다른 리전이 허용된 상태로 남아 있더라도 요청이 실패합니다. 교차 리전 추론을 통한 효율적인 작업을 보장하기 위해 SCP 및 IAM 정책을 업데이트하여 선택한 추론 프로파일에 포함된 모든 대상 리전에서 필요한 모든 Amazon Bedrock 추론 작업(예: bedrock:InvokeModel* 또는 bedrock:CreateModelInvocationJob)을 허용할 수 있습니다. 자세한 내용은 https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/