

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Capacidade, limites e otimização de custos
<a name="capacity-limits-cost-optimization"></a>

O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.

# Níveis de serviço para otimizar o desempenho e o custo
<a name="service-tiers-inference"></a>

O Amazon Bedrock oferece quatro níveis de serviço para inferência de modelos: Reservado, Prioritário, Padrão e Flex. Com os níveis de serviço, você pode otimizar a disponibilidade, o custo e o desempenho.

## Nível reservado
<a name="w2aac26b5b5"></a>

O nível Reservado oferece a capacidade de reservar capacidade computacional priorizada para seus aplicativos de missão crítica que não toleram nenhum tempo de inatividade. Você tem a flexibilidade de alocar diferentes tokens-per-minute capacidades de entrada e saída para atender aos requisitos exatos de sua carga de trabalho e custo de controle. Quando seu aplicativo precisa de mais tokens-per-minute capacidade do que a que você reservou, o serviço transborda automaticamente para o nível Standard, garantindo operações ininterruptas. O nível reservado tem como meta 99,5% de tempo de atividade para a resposta do modelo. Os clientes podem reservar capacidade por 1 mês ou 3 meses de duração. Os clientes pagam um preço fixo por 1K tokens-per-minute e são cobrados mensalmente.

Para obter acesso ao nível reservado, entre em contato com a equipe da sua conta da AWS.

**nota**  
O faturamento continua até que você exclua a reserva de nível reservado com a ajuda do seu Conta da AWS gerente.

## Nível prioritário
<a name="w2aac26b5b7"></a>

O nível Priority oferece os tempos de resposta mais rápidos com um preço superior ao preço padrão sob demanda. É mais adequado para aplicativos de missão crítica com fluxos de trabalho de negócios voltados para o cliente que não garantem reserva de capacidade 24 horas por dia, 7 dias por semana. O nível prioritário não exige reserva prévia. Você pode simplesmente definir o parâmetro opcional “service\$1tier” como “priority” para aproveitar a priorização no nível da solicitação. As solicitações de nível prioritário são priorizadas em relação às solicitações de nível Standard e Flex.

## Nível padrão
<a name="w2aac26b5b9"></a>

O nível Standard fornece desempenho consistente para tarefas diárias de IA, como geração de conteúdo, análise de texto e processamento rotineiro de documentos. Por padrão, todas as solicitações de inferência são roteadas para o nível Padrão quando o parâmetro “service\$1tier” está ausente. Você também pode definir o parâmetro opcional “service\$1tier” como “default” para que sua solicitação de inferência seja atendida com o nível Standard.

## Nível flexível
<a name="w2aac26b5c11"></a>

Para cargas de trabalho que podem lidar com tempos de processamento mais longos, o nível Flex oferece processamento econômico com um desconto no preço. Isso ajuda você a otimizar o custo de cargas de trabalho, como avaliações de modelos, resumo de conteúdo e fluxos de trabalho agentes. Você pode definir o parâmetro opcional “service\$1tier” como “flex” para que sua solicitação de inferência seja atendida com o nível Flex e aproveite o desconto no preço.

## Usando o recurso de nível de serviço
<a name="w2aac26b5c13"></a>

Para acessar a capacidade do nível de serviço, você pode definir o parâmetro opcional “service\$1tier” como “reservado”, “prioritário”, “padrão” ou “flexível” ao chamar a API de tempo de execução do Amazon Bedrock.

```
"service_tier" : "reserved | priority | default | flex"
```

Sua cota sob demanda para um modelo é compartilhada entre os níveis de serviço “prioritário”, “padrão” e “flexível”. Sua reserva de capacidade de nível “reservada” é separada da sua cota sob demanda. A configuração do nível de serviço para uma solicitação atendida é visível na resposta da API e nos CloudTrail eventos da AWS. Você também pode visualizar as métricas do nível de serviço no Amazon CloudWatch Metrics em ModelId ServiceTier, ResolvedServiceTier, e, onde ResolvedServiceTier mostra o nível real que atendeu às suas solicitações.

Para ter mais informações sobre preços, consulte a [página de preços](https://aws.amazon.com/bedrock/pricing/).

Modelos e regiões compatíveis com o nível de serviço reservado:


|  |  |  |  | 
| --- |--- |--- |--- |
| Provedor | Modelo | Modelo IDs | Regiões | 
| Anthropic | Claude Sonnet 4.6 | global.anthropic.claude-sonnet-4-6us.anthropic.claude-sonnet-4-6eu.anthropic.claude-sonnet-4-6 | ap-northeast-1 | 
| ap-northeast-2 | 
| ap-northeast-3 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-south-1 | 
| ap-southeast-3 | 
| ap-south-2 | 
| ap-southeast-4 | 
| ca-central-1 | 
| eu-west-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| me-south-1 | 
| ap-southeast-7 | 
| af-south-1 | 
| me-central-1 | 
| ap-southeast-5 | 
| mx-central-1 | 
| il-central-1 | 
| ap-east-2 | 
| ca-west-1 | 
| Anthropic | Claude Opus 4.6 | global.anthropic.claude-opus-4-6-v1br.anthropic.claude-opus-4-6-v1eu.anthropic.claude-opus-4-6-v1 | af-south-1 | 
| ap-east-2 | 
| ap-northeast-1 | 
| ap-northeast-2 | 
| ap-northeast-3 | 
| ap-south-1 | 
| ap-south-2 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ap-southeast-4 | 
| ap-southeast-5 | 
| ap-southeast-7 | 
| ca-central-1 | 
| ca-west-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| il-central-1 | 
| me-central-1 | 
| me-south-1 | 
| mx-central-1 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| Anthropic | Claude Sonnet 4.5 | global.anthropic.claude-sonnet-4-5-20250929-v 1:0us.anthropic.claude-sonnet-4-5-20250929-v 1:0eu.anthropic.claude-sonnet-4-5-20250929-v 1:0us-gov.anthropic.claude-sonnet-4-5-20250929-v 1:0 | ap-northeast-1 | 
| ap-northeast-2 | 
| ap-northeast-3 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-south-1 | 
| ap-southeast-3 | 
| ap-south-2 | 
| ap-southeast-4 | 
| ca-central-1 | 
| eu-west-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| us-gov-west-1 | 
| Anthropic | Claude Opus 4.5 | global.anthropic.claude-opus-4-5-20251101-v 1:0br.anthropic.claude-opus-4-5-20251101-v 1:0eu.anthropic.claude-opus-4-5-20251101-v 1:0 | ap-northeast-1 | 
| ap-northeast-2 | 
| ap-northeast-3 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-south-1 | 
| ap-southeast-3 | 
| ap-south-2 | 
| ap-southeast-4 | 
| ca-central-1 | 
| eu-west-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| Anthropic | Claude Haiku 4.5 | global.anthropic.claude-haiku-4-5-20251001-v 1:0us.anthropic.claude-haiku-4-5-20251001-v 1:0eu.anthropic.claude-haiku-4-5-20251001-v 1:0 | ap-northeast-1 | 
| ap-northeast-2 | 
| ap-northeast-3 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-south-1 | 
| ap-southeast-3 | 
| ap-south-2 | 
| ap-southeast-4 | 
| ca-central-1 | 
| eu-west-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 

**nota**  
O comprimento de contexto de 1M para o Sonnet 4.5 não é suportado pelo nível reservado.

Modelos e regiões compatíveis com os níveis de serviço Priority e Flex:


|  |  |  |  | 
| --- |--- |--- |--- |
| Provedor | Modelo | ID do modelo | Regiões | 
| OpenAI | gpt-oss-120b | openai.gpt-oss-120b-1:0 | us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-west-1 | 
| eu-west-2 | 
| sa-east-1 | 
| OpenAI | gpt-oss-20b | openai.gpt-oss-20b-1:0 | us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-west-1 | 
| eu-west-2 | 
| sa-east-1 | 
| OpenAI | GPT OSS Safeguard 20B | openai. gpt-oss-safeguard-20b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| OpenAI | GPT OSS Safeguard 120B | openai. gpt-oss-safeguard-120b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Qwen | Qen3 235B A2B 2507 | qwen.qwen3-235b-a22b-2507-v 1:0 | us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-west-2 | 
| Qwen | Instrução do codificador Qwen3 480B A35B | codificador qwen.qwen3-480b-a35b-v 1:0 | us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-north-1 | 
| eu-west-2 | 
| Qwen | Codificador Qwen3-30B-A3B Instruct | qwen.qwen3-coder-30b-a3b-v 1:0 | us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-west-1 | 
| eu-west-2 | 
| sa-east-1 | 
| Qwen | Qwen3 32B (denso) | qwen.qwen3-32b-v 1:0 | us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-west-1 | 
| eu-west-2 | 
| sa-east-1 | 
| Qwen | Qwen3 Next 80B A3B | qwen.qwen3-next-80b-a3b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Qwen | Qwen3 VL 235B A22B | qwen.qwen3-vl-235b-a22b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| DeepSeek | DeepSeek-V3.1 | deepseek.v3-v 1:0 | us-east-2 | 
| us-west-2 | 
| ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-3 | 
| eu-north-1 | 
| eu-west-2 | 
| Amazon | Nova Premier | amazônia. nova-premier-v1:0 | us-east-1\$1 | 
| us-east-2\$1 | 
| us-west-2\$1 | 
| Amazon | Nova Pro | amazônia. nova-pro-v1:0 | us-east-1 | 
| us-east-2\$1 | 
| nós-oeste-1\$1 | 
| us-west-2\$1 | 
| ap-leste-2\$1 | 
| ap-nordeste-1\$1 | 
| ap-nordeste-2\$1 | 
| ap-south-1\$1 | 
| ap-sudeste-1\$1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ap-sudeste-4\$1 | 
| ap-sudeste-5\$1 | 
| ap-sudeste-7\$1 | 
| eu-central-1\$1 | 
| eu-norte-1\$1 | 
| eu-sul-1\$1 | 
| eu-sul-2\$1 | 
| eu-west-1\$1 | 
| eu-west-2 | 
| eu-west-3\$1 | 
| il-central-1\$1 | 
| me-central-1 | 
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v 1:0 | ap-east-2 | 
| ap-northeast-1 | 
| ap-northeast-2 | 
| ap-south-1 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ap-southeast-4 | 
| ap-southeast-5 | 
| ap-southeast-7 | 
| ca-central-1 | 
| ca-west-1 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| il-central-1 | 
| me-central-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| Amazon | Prévia do Nova 2 Pro | amazon.nova-2-pro-preview-20251202-v 1:0 | ap-east-2 | 
| ap-northeast-1 | 
| ap-northeast-2 | 
| ap-south-1 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ap-southeast-4 | 
| ap-southeast-5 | 
| ap-southeast-7 | 
| ca-central-1 | 
| ca-west-1 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| il-central-1 | 
| me-central-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| Amazon | Nova Lite 2 Omni | amazon.nova-2- 1 lite-omni-v | ap-east-2 | 
| ap-northeast-1 | 
| ap-northeast-2 | 
| ap-south-1 | 
| ap-southeast-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ap-southeast-4 | 
| ap-southeast-5 | 
| ap-southeast-7 | 
| ca-central-1 | 
| ca-west-1 | 
| eu-central-1 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| il-central-1 | 
| me-central-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-1 | 
| us-west-2 | 
| Google | Gemma 3 4B | google.gemma-3-4b-it | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Google | Gemma 3 12B | google.gemma-3-12b-pt | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Google | Gemma 3 27B | google.gemma-3-27b-pt | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| IA Minimax | Minimax M2 | minimax.minimax-m2 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Magistral Small 1.2 | mistral.magistral-small-2509 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Voxtral Mini 1.0 | mistral.voxtral-mini-3b-2507 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Voxtral Small 1.0 | mistral.voxtral-small-24b-2507 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Ministral 3B 3.0 | instrução mistral.ministral-3-3b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Ministral 8B 3.0 | instrução mistral.ministral-3-8b | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Ministerial 14B 3.0 | mistral.ministral-3-14b-instruction | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Mistral | Mistral Large 3 | mistral.mistral-large-3-675b-instruction | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Kimi AI | Kimi K2 Pensando | moonshot.kimi-k2-thinking | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Nvidia | NVIDIA Nemotron Nano 2 | nvidia.nemotron-nano-9b-v2 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 
| Nvidia | NVIDIA Nemotron Nano 2 VL | nvidia.nemotron-nano-12b-v2 | ap-northeast-1 | 
| ap-south-1 | 
| ap-southeast-2 | 
| ap-southeast-3 | 
| ca-central-1 | 
| eu-central-1 | 
| eu-central-2 | 
| eu-north-1 | 
| eu-south-1 | 
| eu-south-2 | 
| eu-west-1 | 
| eu-west-2 | 
| eu-west-3 | 
| sa-east-1 | 
| us-east-1 | 
| us-east-2 | 
| us-west-2 | 

 \$1A inferência do modelo pode ser fornecida usando várias regiões. 

Para controlar o acesso aos níveis de serviço, consulte [Controle o acesso aos níveis de serviço](security_iam_id-based-policy-examples-agent.md#security_iam_id-based-policy-examples-service-tiers)

## Opções de capacidade
<a name="capacity-options"></a>


| Tipo de capacidade | Caso de uso | Características principais | 
| --- | --- | --- | 
| Sob demanda: Flex | Cargas de trabalho esporádicas e de baixo volume |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Sob demanda: Padrão | Cargas de trabalho de produção regulares |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Sob demanda: prioridade | Aplicativos de alta prioridade e sensíveis à latência |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Nível reservado | Cargas de trabalho consistentes e de alto volume |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Batch | Processamento em grande escala non-time-sensitive |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Inferência entre regiões | Alta disponibilidade, tráfego intenso |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## Limites e cotas
<a name="limits-quotas"></a>

### Limites sob demanda (por nível)
<a name="on-demand-limits"></a>


| Tier | Faixa de RPM | Intervalo TPM | Risco de limitação | 
| --- | --- | --- | --- | 
| Flexionar | 10-100 | 5K-50K | Alto | 
| Standard | 100-500 | 50K-150K | Médio | 
| Prioridade | Mais de 500 a 1000 | 150K-300K\$1 | Baixo | 
+ Capacidade de explosão: disponível em todos os níveis para picos curtos
+ Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço
+ Específico do modelo: os limites reais variam de acordo com o modelo de fundação

### Limites de nível reservado
<a name="reserved-tier-limits"></a>
+ Compromisso mínimo: 1 unidade modelo
+ Número máximo de unidades: específico da conta e da região
+ Limites de tokens de entrada/saída: com base nas unidades compradas
+ Sem limitação de RPM dentro da capacidade adquirida

### Limites de processamento em lote
<a name="batch-processing-limits"></a>
+ Tamanho do trabalho: até 10.000 registros por lote
+ Tamanho do arquivo: máximo de 200 MB de arquivo de entrada
+ Tempo de processamento: janela de conclusão de 24 horas
+ Trabalhos simultâneos: cotas específicas da região

### Inferência entre regiões
<a name="cross-region-inference-limits"></a>
+ Herda limites de nível sob demanda por região
+ Sem sobrecarga de cota adicional
+ Roteamento automático (sem gerenciamento manual de limites)

## Otimização de custo
<a name="cost-optimization"></a>

### Estrutura de decisão
<a name="decision-framework"></a>


| Cenário | Opção recomendada | Por que | 
| --- | --- | --- | 
| Desenvolvimento/teste | Flexionar | Menor custo, aceitável para não produção | 
| Produção padrão | Standard | Melhor equilíbrio entre custo e desempenho | 
| Aplicativos essenciais voltados para o usuário | Prioridade | Confiabilidade e desempenho acima do custo | 
| Carga estável de alto volume | Nível reservado | Economia de 30 a 50% com compromisso | 
| Processamento de dados em massa | Batch | 50% de desconto, cargas de trabalho não urgentes | 
| Tempo de atividade essencial | Inferência entre regiões | Disponibilidade > custo | 

### Estratégias de otimização
<a name="optimization-strategies"></a>

**Escolha o nível sob demanda certo**
+ Comece com o Standard para a maioria das cargas de trabalho
+ Faça o downgrade para o Flex para ambientes dev/test 
+ Atualize para Prioridade somente quando a limitação afetar os usuários
+ Monitore CloudWatch as métricas de aceleração para embasar as decisões

**Transição para o nível reservado**
+ Quando a carga consistente excede 40% dos custos sob demanda
+ Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)
+ Use o compromisso de 1 mês inicialmente
+ O nível reservado pode funcionar junto com qualquer nível sob demanda

**Aproveite o Batch para**
+ Geração de dados de treinamento
+ Backlogs de moderação de conteúdo
+ Geração de relatórios
+ Pipelines de enriquecimento de dados

**Combine abordagens**
+ Nível reservado para tráfego de linha de base
+ Padrão sob demanda para rajadas moderadas
+ Prioridade sob demanda para períodos críticos de pico
+ Batch para processamento off-line
+ Somente entre regiões para failover

**Monitoramento de custos**
+ Compare os custos dos níveis: Flex < Standard < Priority
+ Rastreie tokens por solicitação (otimize solicitações)
+ Use CloudWatch métricas para utilização e limitação
+ Defina alarmes de cobrança para picos inesperados
+ Analise mensalmente a utilização do nível reservado
+ Avalie as atualizações de nível somente quando ocorrer limitação

# Processar vários prompts com inferência em lote
<a name="batch-inference"></a>

Com a inferência em lote, é possível enviar vários prompts e gerar respostas de forma assíncrona. Você pode formatar seus dados de entrada usando o formato `InvokeModel` ou `Converse` API. A inferência em lote ajuda você a processar um grande número de solicitações de forma eficaz, enviando uma única solicitação e gerando as respostas em um bucket do Amazon S3. Depois de definir as entradas do modelo em arquivos que você cria, carregue os arquivos em um bucket do S3. Envie uma solicitação de inferência em lote e especifique o bucket do S3. Quando o trabalho for concluído, será possível recuperar os arquivos de saída do S3. É possível usar a inferência em lote para melhorar a performance da inferência de modelos em grandes conjuntos de dados.

**nota**  
A inferência em lote não é compatível com modelos provisionados.

Consulte os seguintes recursos para obter informações gerais sobre inferência em lote:
+ Para ver os preços da inferência em lote, consulte os [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing/).
+ Para ver as cotas de inferência em lote, consulte [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) no Referência geral da AWS.
+ Para receber notificações quando os trabalhos de inferência em lote forem concluídos ou mudarem de estado em vez da pesquisa, consulte. [Monitore as mudanças no estado de trabalho do Amazon Bedrock usando a Amazon EventBridgeMonitore as alterações do evento](monitoring-eventbridge.md)

**Topics**
+ [Regiões e modelos compatíveis com inferência em lote](batch-inference-supported.md)
+ [Pré-requisitos para inferência em lote](batch-inference-prereq.md)
+ [Crie um trabalho de inferência em lote](batch-inference-create.md)
+ [Monitorar trabalhos de inferência em lote](batch-inference-monitor.md)
+ [Interromper um trabalho de inferência em lote](batch-inference-stop.md)
+ [Visualizar os resultados de um trabalho de inferência em lote](batch-inference-results.md)
+ [Exemplo de código para inferência em lote](batch-inference-example.md)
+ [Enviar um lote de prompts com a API Batch da OpenAI](inference-openai-batch.md)

# Regiões e modelos compatíveis com inferência em lote
<a name="batch-inference-supported"></a>

A seguinte lista fornece links para informações gerais sobre a compatibilidade regional e com modelos no Amazon Bedrock:
+ Para obter uma lista de códigos e endpoints de região compatíveis com o Amazon Bedrock, consulte [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bedrock_region).
+ Para obter uma lista do modelo Amazon Bedrock IDs a ser usado ao chamar operações de API do Amazon Bedrock, consulte. [Modelos de base compatíveis no Amazon Bedrock](models-supported.md)
+ Para obter uma lista do perfil de inferência do Amazon Bedrock IDs a ser usado ao chamar as operações da API do Amazon Bedrock, consulte. [Perfis de inferência entre regiões permitidos](inference-profiles-support.md#inference-profiles-support-system)

A inferência em lote pode ser usada com diferentes tipos de modelos. A lista a seguir descreve o suporte para diferentes tipos de modelos Amazon Bedrock:
+ **Suporte ao modelo de região única** — lista as regiões que oferecem suporte ao envio de solicitações de inferência para um modelo básico em uma AWS região. Para obter uma tabela completa dos modelos disponíveis no Amazon Bedrock, consulte[Modelos de base compatíveis no Amazon Bedrock](models-supported.md).
+ **Suporte ao perfil de inferência entre regiões** — Lista as regiões que oferecem suporte ao uso de um perfil de inferência entre regiões, que oferece suporte ao envio de solicitações de inferência para um modelo básico em várias AWS regiões dentro de uma área geográfica. Um perfil de inferência tem um prefixo antes do ID do modelo que indica sua área geográfica (por exemplo,,`us.`). `apac` Para obter mais informações sobre os perfis de inferência disponíveis no Amazon Bedrock, consulte. [Regiões e modelos que compatíveis com perfis de inferência](inference-profiles-support.md)
+ **Suporte a modelos personalizados** — lista regiões que oferecem suporte ao envio de solicitações de inferência para um modelo personalizado. Para obter mais informações sobre personalização de modelos, consulte[Personalizar o modelo para melhorar a performance para o caso de uso](custom-models.md).

A tabela a seguir resume o suporte à inferência em lote:


| Fornecedor | Modelo | ID do modelo | Suporte ao modelo de região única | Suporte ao perfil de inferência entre regiões | Suporte a modelos personalizados | 
| --- | --- | --- | --- | --- | --- | 
| Amazon | Incorporações multimodais do Amazon Nova | amazon.nova-2- 1:0 multimodal-embeddings-v |  us-east-1  |  | N/D | 
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v 1:0 | N/D |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 ca-central-1 ca-west-1 eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 il-central-1 me-central-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Amazon | Nova Lite | amazônia. nova-lite-v1:0 |  me-central-1 us-east-1 us-gov-west-1  |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 ca-central-1 ca-west-1 eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3 il-central-1 me-central-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Amazon | Nova Micro | amazônia. nova-micro-v1:0 |  us-east-1 us-gov-west-1  |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-5 ap-southeast-7 eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3 il-central-1 me-central-1 us-east-1 us-east-2 us-west-2  | N/D | 
| Amazon | Nova Premier | amazônia. nova-premier-v1:0 | N/D |  us-east-1 us-east-2 us-west-2  | N/D | 
| Amazon | Nova Pro | amazônia. nova-pro-v1:0 |  ap-southeast-3 me-central-1 us-east-1 us-gov-west-1  |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3 il-central-1 me-central-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Amazon | Incorporador Multimodal do Titan G1 | amazônia. titan-embed-image-v1 |  ap-south-1 ap-southeast-2 ca-central-1 eu-central-1 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  |  |  us-east-1 us-west-2  | 
| Amazon | Incorporador de Texto do Titan v2 | amazônia. titan-embed-text-v2:0 |  ap-northeast-1 ap-northeast-2 ca-central-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-2 sa-east-1 us-east-1 us-west-2  |  | N/D | 
| Anthropic | Claude 3 Haiku | anthropic.claude-3-haiku-20240307-v1:0 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 ca-central-1 eu-central-1 eu-central-2 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  | N/D | N/D | 
| Anthropic | Claude 3 Opus | anthropic.claude-3-opus-20240229-v 1:0 |  us-west-2  |  us-east-1  | N/D | 
| Anthropic | Claude 3 Sonnet | anthropic.claude-3-sonnet-20240229-v1:0 |  ap-northeast-2 ap-south-1 ap-southeast-2 ca-central-1 eu-central-1 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-west-2  | N/D | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-west-2  |  us-east-1  | N/D | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v1:0 |  ap-northeast-1 ap-northeast-2 ap-southeast-1 eu-central-1 us-east-1 us-east-2 us-west-2  |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-west-2  | N/D | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |  us-west-2  |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 us-east-1 us-east-2 us-west-2  | N/D | 
| Anthropic | Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v 1:0 | N/D |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 eu-central-1 eu-north-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2  | N/D | 
| Anthropic | Claude Haiku 4.5 | anthropic.claude-haiku-4-5-20251001-v1:0 | N/D |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ca-central-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Anthropic | Claude Opus 4.5 | antropic.claude-opus-4-5-20251101-v 1:0 | N/D |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ca-central-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Anthropic | Claude Opus 4.6 | antropic.claude-opus-4-6-v1 | N/D |  af-south-1 ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 ca-central-1 ca-west-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 il-central-1 me-central-1 me-south-1 mx-central-1 sa-east-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Anthropic | Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | N/D |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3 il-central-1 me-central-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Anthropic | Claude Sonnet 4.5 | anthropic.claude-sonnet-4-5-20250929-v1:0 | N/D |  af-south-1 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ca-central-1 ca-west-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 me-south-1 mx-central-1 sa-east-1 us-east-1 us-east-2 us-gov-east-1 us-gov-west-1 us-west-1 us-west-2  | N/D | 
| Anthropic | Soneto de Claude 4.6 | antropic.claude-sonnet-4-6 |  eu-west-2  |  af-south-1 ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5 ap-southeast-7 ca-central-1 ca-west-1 eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3 il-central-1 me-central-1 me-south-1 mx-central-1 sa-east-1 us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| DeepSeek | DeepSeek V3.2 | deepseek.v3.2 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-north-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| DeepSeek | DeepSeek-V3.1 | deepseek.v3-v 1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-north-1 eu-west-2 us-east-2 us-west-2  |  | N/D | 
| Google | Gemma 3 12B IT | google.gemma-3-12b-pt |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Google | Gemma 3 27B PT | google.gemma-3-27b-pt |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Google | Gemma 3 4B IT | google.gemma-3-4b-it |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Meta | Llama 3.1 405B Instruct | meta.llama3-1-405 1:0 b-instruct-v |  us-west-2  |  | N/D | 
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70 1:0 b-instruct-v |  us-west-2  |  us-east-1 us-west-2  | N/D | 
| Meta | Llama 3.1 8B Instruct | meta.llama3-1-8 1:0 b-instruct-v |  us-west-2  |  us-east-1 us-west-2  | N/D | 
| Meta | Instrução Llama 3.2 11B | meta.llama3-2-11 1:0 b-instruct-v |  |  us-east-1 us-west-2  | N/D | 
| Meta | Instrução Llama 3.2 1B | meta.llama3-2-1b-instruct-v: 0 |  |  eu-central-1 eu-west-1 eu-west-3 us-east-1 us-west-2  | N/D | 
| Meta | Instrução Llama 3.2 3B | meta.llama3-2-3 1:0 b-instruct-v |  |  eu-central-1 eu-west-1 eu-west-3 us-east-1 us-west-2  | N/D | 
| Meta | Llama 3.2 90B Instruct | meta.llama3-2-90 1:0 b-instruct-v |  |  us-east-1 us-west-2  | N/D | 
| Meta | Llama 3.3 70B Instruct | meta.llama3-3-70 1:0 b-instruct-v |  us-east-2  |  us-east-1 us-east-2 us-west-2  | N/D | 
| Meta | Llama 4 Maverick 17B Instruct | b-instruct-vmeta.llama4-maverick-17 1:0 |  |  us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| Meta | Llama 4 Scout 17B Instruct | b-instruct-vmeta.llama4-scout-17 1:0 |  |  us-east-1 us-east-2 us-west-1 us-west-2  | N/D | 
| MiniMax | MiniMax M2 | minimax.minimax-m2 |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| MiniMax | MiniMax M2.1 | minimax.minimax-m2.1 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Devstral 2 123B | mistral.devstral-2-123b |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Magistral Small 2509 | mistral.magistral-small-2509 |  ap-northeast-1 ap-south-1 ap-southeast-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Ministerial 14B 3.0 | mistral.ministral-3-14b-instruction |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Ministerial 3 8B | instrução mistral.ministral-3-8b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Ministerial 3B | instrução mistral.ministral-3-3b |  ap-northeast-1 ap-south-1 ap-southeast-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Mistral Large (24.07) | mistral.mistral-large-2407-v1:0 |  us-west-2  | N/D | N/D | 
| Mistral AI | Mistral Large 3 | mistral.mistral-large-3-675b-instruction |  ap-northeast-1 ap-south-1 ap-southeast-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Mistral Small (24.02) | mistral.mistral-small-2402-v1:0 |  us-east-1  | N/D | N/D | 
| Mistral AI | Voxtral Mini 3B 2507 | mistral.voxtral-mini-3b-2507 |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Mistral AI | Voxtral Small 24B 2507 | mistral.voxtral-small-24b-2507 |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| IA do Moonshot | Kimi K2 Pensando | moonshot.kimi-k2-thinking |  ap-northeast-1 ap-south-1 ap-southeast-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| IA do Moonshot | Kimi K2.5 | moonshotai.kimi-k2.5 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-north-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| NVIDIA | NVIDIA Nemotron Nano 12B v2 VL BF16 | nvidia.nemotron-nano-12b-v2 |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| NVIDIA | NVIDIA Nemotron Nano 9B v2 | nvidia.nemotron-nano-9b-v2 |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| NVIDIA | Nemotron Nano 3 30B | nvidia.nemotron-nano-3-30b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| OpenAI | GPT OSS Safeguard 120B | openai. gpt-oss-safeguard-120b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| OpenAI | GPT OSS Safeguard 20B | openai. gpt-oss-safeguard-20b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| OpenAI | gpt-oss-120b | openai.gpt-oss-120b-1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-gov-west-1 us-west-2  | N/D | N/D | 
| OpenAI | gpt-oss-20b | openai.gpt-oss-20b-1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-gov-west-1 us-west-2  | N/D | N/D | 
| Qwen | Qen3 235B A2B 2507 | qwen.qwen3-235b-a22b-2507-v 1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-2 us-east-2 us-west-2  | N/D | N/D | 
| Qwen | Qwen3 32B (denso) | qwen.qwen3-32b-v 1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Qwen | Instrução do codificador Qwen3 480B A35B | codificador qwen.qwen3-480b-a35b-v 1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-north-1 eu-west-2 us-east-2 us-west-2  | N/D | N/D | 
| Qwen | Codificador Qwen3 Next | qwen.qwen3-coder-next |  ap-southeast-2 eu-west-2 us-east-1  | N/D | N/D | 
| Qwen | Qwen3 Next 80B A3B | qwen.qwen3-next-80b-a3b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Qwen | Qwen3 VL 235B A22B | qwen.qwen3-vl-235b-a22b |  ap-northeast-1 ap-south-1 ap-southeast-2 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Qwen | Codificador Qwen3-30B-A3B Instruct | qwen.qwen3-coder-30b-a3b-v 1:0 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Z.AI | GLM 4,7 | zai.glm-4.7 |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-north-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 
| Z.AI | GLM 4.7 Flash | zai.glm-4.7-flash |  ap-northeast-1 ap-south-1 ap-southeast-2 ap-southeast-3 eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-2 sa-east-1 us-east-1 us-east-2 us-west-2  | N/D | N/D | 

# Pré-requisitos para inferência em lote
<a name="batch-inference-prereq"></a>

Para executar a inferência em lote, atenda aos seguintes pré-requisitos:

1. Preparar o conjunto de dados e carregar em um bucket do Amazon S3.

1. Criar um bucket do S3 para os dados de saída.

1. Configurar permissões relacionadas à inferência em lote para as identidades relevantes do IAM.

1. (Opcional) Configurar uma VPC para proteger os dados no S3 ao executar a inferência em lote. É possível ignorar esta etapa se não for necessário usar uma VPC.

Para saber como cumprir esses pré-requisitos, consulte os seguintes tópicos:

**Topics**
+ [Formatar e carregar os dados de inferência](batch-inference-data.md)
+ [Permissões obrigatórias para a inferência em lote](batch-inference-permissions.md)
+ [Proteger trabalhos de inferência em lote usando uma VPC](batch-vpc.md)

# Formatar e carregar os dados de inferência
<a name="batch-inference-data"></a>

Você deve adicionar seus dados de inferência em lote a um local do S3 que você escolherá ou especificará ao enviar um trabalho de invocação de modelo. O local do S3 deve conter os seguintes itens:
+ Pelo menos um arquivo JSONL que define as entradas do modelo. Um JSONL que contém linhas de objetos JSON. Seu arquivo JSONL deve terminar com a extensão .jsonl e estar no seguinte formato:

  ```
  { "recordId" : "alphanumeric string", "modelInput" : {JSON body} }
  ...
  ```

  Cada linha contém um objeto JSON com um `recordId` campo e um `modelInput` campo. O formato do objeto `modelInput` JSON depende do tipo de invocação do modelo que você escolhe ao [criar o trabalho de inferência em lote](batch-inference-create.md). Se você usar o `InvokeModel` tipo (padrão), o formato deverá corresponder ao `body` campo do modelo usado na `InvokeModel` solicitação (consulte[Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md)). Se você usar o `Converse` tipo, o formato deverá corresponder ao corpo da solicitação da API [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html).
**nota**  
Se você omitir o campo `recordId`, o Amazon Bedrock o adicionará na saída.
Não é garantido que a ordem dos registros no arquivo JSONL de saída corresponda à ordem dos registros no arquivo JSONL de entrada.
Especifique o modelo que deseja usar ao criar o [trabalho de inferência em lote](batch-inference-create.md).
+ (Se o conteúdo de entrada contiver um local do Amazon S3) Alguns modelos permitem que você defina o conteúdo da entrada como um local do S3. Consulte [Exemplo de entrada de vídeo para o Amazon Nova](#batch-inference-data-ex-s3).
**Atenção**  
Ao usar o S3 URIs em seus prompts, todos os recursos devem estar no mesmo bucket e pasta do S3. O `InputDataConfig` parâmetro deve especificar o caminho da pasta contendo todos os recursos vinculados (como vídeos ou imagens), não apenas um `.jsonl` arquivo individual. Observe que os caminhos do S3 diferenciam maiúsculas de minúsculas, portanto, certifique-se de URIs corresponder à estrutura exata da pasta.

Suas entradas devem estar de acordo com as cotas de inferência em lote. É possível pesquisas essas seguintes cotas em [Cotas de serviço do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock):
+ **Número mínimo de registros por trabalho de inferência em lote**: o número mínimo de registros (objetos JSON) nos arquivos JSONL no trabalho.
+ **Registros por arquivo de entrada por trabalho de inferência em lote**: o número máximo de registros (objetos JSON) em um único arquivo JSONL no trabalho.
+ **Registros por trabalho de inferência em lote**: o número máximo de registros (objetos JSON) nos arquivos JSONL no trabalho.
+ **Tamanho do arquivo de entrada de inferência em lote**: o tamanho máximo de um único arquivo na tarefa.
+ **Tamanho do trabalho de inferência em lote**: o tamanho máximo cumulativo de todos os arquivos de entrada.

Para entender melhor como configurar suas entradas de inferência em lote, consulte os seguintes exemplos:

## Exemplo de entrada de texto para o Claude 3 Haiku da Anthropic
<a name="batch-inference-data-ex-text"></a>

Se você planeja executar a inferência em lote usando o formato da [API Messages](model-parameters-anthropic-claude-messages.md) do modelo Claude 3 Haiku da Anthropic, é possível fornecer um arquivo JSONL que contém o seguinte objeto JSON como uma das linhas:

```
{
    "recordId": "CALL0000001", 
    "modelInput": {
        "anthropic_version": "bedrock-2023-05-31", 
        "max_tokens": 1024,
        "messages": [ 
            { 
                "role": "user", 
                "content": [
                    {
                        "type": "text", 
                        "text": "Summarize the following call transcript: ..." 
                    } 
                ]
            }
        ]
    }
}
```

## Exemplo de entrada de vídeo para o Amazon Nova
<a name="batch-inference-data-ex-s3"></a>

Se você planeja executar inferência em lote em entradas de vídeo usando modelos os Amazon Nova Lite ou Amazon Nova Pro, existe a opção de definir o vídeo em bytes ou como um local do S3 no arquivo JSONL. Por exemplo, é possível ter um bucket do S3 cujo caminho é `s3://batch-inference-input-bucket` e contém os seguintes arquivos:

```
s3://batch-inference-input-bucket/
├── videos/
│   ├── video1.mp4
│   ├── video2.mp4
│   ├── ...
│   └── video50.mp4
└── input.jsonl
```

Um exemplo de registro do arquivo `input.jsonl` seria o seguinte:

```
{
    "recordId": "RECORD01",
    "modelInput": {
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
                    },
                    {
                        "video": {
                            "format": "mp4",
                            "source": {
                                "s3Location": {
                                    "uri": "s3://batch-inference-input-bucket/videos/video1.mp4",
                                    "bucketOwner": "111122223333"
                                }
                            }
                        }
                    }
                ]
            }
        ]
    }
}
```

Ao criar o trabalho de inferência em lote, você deve especificar o caminho da pasta `s3://batch-inference-input-bucket` em seu `InputDataConfig` parâmetro. A inferência em lote processará o `input.jsonl` arquivo nesse local, junto com todos os recursos referenciados (como os arquivos de vídeo na `videos` subpasta).

Os seguintes recursos fornecem mais informações sobre o envio de entradas de vídeo para inferência em lote:
+ Para saber como validar o Amazon URIs S3 em uma solicitação de entrada, consulte o blog de análise de URL do [Amazon S3](https://aws.amazon.com/blogs/devops/s3-uri-parsing-is-now-available-in-aws-sdk-for-java-2-x/).
+ Para obter mais informações sobre como configurar registros de invocação para compreensão de vídeo com o Nova, consulte as diretrizes de [estímulo à Amazon Nova visão](https://docs.aws.amazon.com/nova/latest/userguide/prompting-vision-prompting.html).

## Exemplo de entrada Converse
<a name="batch-inference-data-ex-converse"></a>

Se você definir o tipo de invocação do modelo como `Converse` ao criar o trabalho de inferência em lote, o `modelInput` campo deverá usar o formato de solicitação da API Converse. O exemplo a seguir mostra um registro JSONL para um trabalho de inferência em lote da Converse:

```
{
    "recordId": "CALL0000001",
    "modelInput": {
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "text": "Summarize the following call transcript: ..."
                    }
                ]
            }
        ],
        "inferenceConfig": {
            "maxTokens": 1024
        }
    }
}
```

Para ver a lista completa dos campos compatíveis com o corpo da solicitação do Converse, consulte [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) na referência da API.

O tópico a seguir descreve como configurar as permissões de acesso e inferência em lote do S3 para que uma identidade possa realizar inferência em lote.

# Permissões obrigatórias para a inferência em lote
<a name="batch-inference-permissions"></a>

Para realizar a inferência em lote, configure permissões para as seguintes identidades do IAM:
+ A identidade do IAM que criará e gerenciará trabalhos de inferência em lote.
+ O [perfil de serviço](security-iam-sr.md) de inferência em lote que o Amazon Bedrock assume para realizar ações em seu nome.

Para saber como configurar permissões para cada identidade, navegue pelos seguintes tópicos:

**Topics**
+ [Permissões necessária para uma identidade do IAM enviar e gerenciar trabalhos de inferência em lote](#batch-inference-permissions-user)
+ [Permissões necessárias para um perfil de serviço realizar inferência em lote](#batch-inference-permissions-service)

## Permissões necessária para uma identidade do IAM enviar e gerenciar trabalhos de inferência em lote
<a name="batch-inference-permissions-user"></a>

Para que uma identidade do IAM use esse recurso, configure-a com as permissões necessárias. Para fazer isso, execute um dos seguintes procedimentos:
+ Para permitir que uma identidade realize todas as ações do Amazon Bedrock, anexe a [AmazonBedrockFullAccess](security-iam-awsmanpol.md#security-iam-awsmanpol-AmazonBedrockFullAccess)política à identidade. Se fizer isso, você poderá ignorar este tópico. Essa opção é menos segura.
+ Como prática recomendada de segurança, você deve conceder somente as ações necessárias a uma identidade. Este tópico descreve as permissões necessárias para esse recurso.

Para restringir as permissões somente às ações usadas para inferência em lote, anexe a seguinte política baseada em identidade a uma identidade do IAM:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "BatchInference",
            "Effect": "Allow",
            "Action": [  
                "bedrock:ListFoundationModels",
                "bedrock:GetFoundationModel",
                "bedrock:ListInferenceProfiles",
                "bedrock:GetInferenceProfile",
                "bedrock:ListCustomModels",
                "bedrock:GetCustomModel",
                "bedrock:TagResource", 
                "bedrock:UntagResource", 
                "bedrock:ListTagsForResource",
                "bedrock:CreateModelInvocationJob",
                "bedrock:GetModelInvocationJob",
                "bedrock:ListModelInvocationJobs",
                "bedrock:StopModelInvocationJob"
            ],
            "Resource": "*"
        }
    ]   
}
```

------

Para restringir ainda mais as permissões, você pode omitir ações ou especificar chaves de recurso e de condição que devem ser usadas para filtrar permissões. Para ter mais informações sobre ações, recursos e chaves de condição, consulte os tópicos a seguir na *Referência de autorização do serviço*.
+ [Ações definidas pelo Amazon Bedrock](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-actions-as-permissions): saiba mais sobre as ações, os tipos de recurso para os quais é possível definir um escopo de ação no campo `Resource` e as chaves de condição nas quais você pode filtrar as permissões no campo `Condition`.
+ [Tipos de recursos definidos pelo Amazon Bedrock](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-resources-for-iam-policies): saiba mais sobre os tipos de recurso no Amazon Bedrock.
+ [Chaves de condição para o Amazon Bedrock](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-policy-keys): saiba mais sobre as chaves de condição no Amazon Bedrock.

A seguinte política é um exemplo que reduz o escopo das permissões para inferência em lote para possibilitar que somente o usuário com o ID de conta `123456789012` crie trabalhos de inferência em lote na região `us-west-2` usando o modelo Claude 3 Haiku da Anthropic:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "CreateBatchInferenceJob",
            "Effect": "Allow",
            "Action": [
                "bedrock:CreateModelInvocationJob"
            ],
            "Resource": [
                "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-3-haiku-20240307-v1:0",
                "arn:aws:bedrock:us-west-2:123456789012:model-invocation-job/*"
            ]
        }
    ]
}
```

------

## Permissões necessárias para um perfil de serviço realizar inferência em lote
<a name="batch-inference-permissions-service"></a>

A inferência em lote é realizada por um [perfil de serviço](security-iam-sr.md) que assume sua identidade para realizar ações em seu nome. Você pode criar um perfil de serviço das seguintes maneiras:
+ Permita que o Amazon Bedrock crie automaticamente um perfil de serviço com as permissões necessárias para você usando o Console de gerenciamento da AWS. É possível selecionar essa opção ao criar um trabalho de inferência em lote.
+ Crie uma função de serviço personalizada para o Amazon Bedrock usando AWS Identity and Access Management e anexando as permissões necessárias. Ao enviar o trabalho de inferência em lote, especifique esse perfil. Para ter mais informações sobre como criar um perfil de serviço para inferência em lote, consulte [Criar um perfil de serviço personalizado de inferência em lote](batch-iam-sr.md). Para ter mais informações sobre como criar perfis de serviço, consulte [Criar um perfil para delegar permissões a um serviço da AWS service (Serviço da AWS)](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-service.html) no “Guia do usuário do IAM”.

**Importante**  
Se o bucket do S3 no qual você [carregou seus dados para inferência em lote](batch-inference-data.md) estiver em um diferenteConta da AWS, você deverá configurar uma política de bucket do S3 para permitir que a função de serviço acesse os dados. É necessário configurar essa política, mesmo que use o console para criar um perfil de serviço. Para saber como configurar uma política de bucket do S3 para recursos do Amazon Bedrock, consulte [Anexar uma política de bucket a um bucket do Amazon S3 para permitir acesso de outra conta](s3-bucket-access.md#s3-bucket-access-cross-account).
Os modelos básicos no Amazon Bedrock são recursos AWS gerenciados que não podem ser usados com condições de política do IAM que exigem a propriedade do cliente. Esses modelos são de propriedade e operados porAWS, e não podem ser de propriedade de clientes individuais. Qualquer condição de política do IAM que verifique os recursos de propriedade do cliente (como condições usando tags de recursos, ID da organização ou outros atributos de propriedade) falhará quando aplicada aos modelos básicos, potencialmente bloqueando o acesso legítimo a esses serviços.  
Por exemplo, se sua apólice incluir uma `aws:ResourceOrgID` condição como esta:  

  ```
  {
    "Condition": {
      "StringEqualsIgnoreCase": {
        "aws:ResourceOrgID": ["o-xxxxxxxx"]
      }
    }
  }
  ```
Seu trabalho de inferência em lote falhará com`AccessDeniedException`. Remova a `aws:ResourceOrgID` condição ou crie declarações de política separadas para os modelos da fundação.

# Proteger trabalhos de inferência em lote usando uma VPC
<a name="batch-vpc"></a>

Quando executa um trabalho de inferência em lote, o trabalho acessa o bucket do Amazon S3 para baixar os dados de entrada e gravar os dados de saída. Para controlar o acesso aos dados, é recomendável usar uma nuvem privada virtual (VPC) com a [Amazon VPC](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html). É possível proteger ainda mais os dados configurando a VPC para que os dados não fiquem disponíveis pela internet e, em vez disso, criar um endpoint da VPC de interface com [AWS PrivateLink](https://docs.aws.amazon.com/vpc/latest/privatelink/what-is-privatelink.html) para estabelecer uma conexão privada com os dados. Para obter mais informações sobre como o Amazon VPC e a AWS PrivateLink integração com o Amazon Bedrock, consulte. [Proteja os dados usando a Amazon VPC e o AWS PrivateLink](usingVPC.md)

Execute as etapas a seguir a fim de configurar e usar uma VPC para os prompts de entrada e as respostas do modelo de saída para os trabalhos de inferência em lote.

**Topics**
+ [Configurar a VPC para proteger os dados durante a inferência em lote](#batch-vpc-setup)
+ [Anexar as permissões da VPC a uma função de inferência em lote](#batch-vpc-role)
+ [Adicionar a configuração da VPC ao enviar um trabalho de inferência em lote](#batch-vpc-config)

## Configurar a VPC para proteger os dados durante a inferência em lote
<a name="batch-vpc-setup"></a>

Para configurar uma VPC, siga as etapas em [Configurar uma VPC](usingVPC.md#create-vpc). É possível proteger ainda mais a VPC configurando um endpoint de VPC do S3 e usando políticas do IAM baseadas em recurso para restringir o acesso ao bucket do S3 que contém os dados de inferência em lote, seguindo as etapas em [(Exemplo) Restringir o acesso aos dados do Amazon S3 usando a VPC](vpc-s3.md).

## Anexar as permissões da VPC a uma função de inferência em lote
<a name="batch-vpc-role"></a>

Depois de concluir a configuração da VPC, anexe as permissões a seguir ao [perfil de serviço de inferência em lote](batch-iam-sr.md) para permitir que ele acesse a VPC. Modifique essa política para permitir acesso apenas aos recursos da VPC necessários para o trabalho. Substitua *subnet-ids* e *security-group-id* pelos valores da sua VPC.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "1",
            "Effect": "Allow",
            "Action": [
                "ec2:DescribeNetworkInterfaces",
                "ec2:DescribeVpcs",
                "ec2:DescribeDhcpOptions",
                "ec2:DescribeSubnets",
                "ec2:DescribeSecurityGroups"
            ],
            "Resource": [
                "*"
            ]
        },
        {
            "Sid": "2",
            "Effect": "Allow",
            "Action": [
                "ec2:CreateNetworkInterface"
            ],
            "Resource": [
                "arn:aws:ec2:us-east-1:123456789012:network-interface/*",
                "arn:aws:ec2:us-east-1:123456789012:subnet/${{subnet-id}}",
                "arn:aws:ec2:us-east-1:123456789012:security-group/${{security-group-id}}"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/BedrockManaged": [
                        "true"
                    ]
                },
                "ArnEquals": {
                    "aws:RequestTag/BedrockModelInvocationJobArn": [
                        "arn:aws:bedrock:us-east-1:123456789012:model-invocation-job/*"
                    ]
                }
            }
        },
        {
            "Sid": "3",
            "Effect": "Allow",
            "Action": [
                "ec2:CreateNetworkInterfacePermission",
                "ec2:DeleteNetworkInterface",
                "ec2:DeleteNetworkInterfacePermission"
            ],
            "Resource": [
                "*"
            ],
            "Condition": {
                "StringEquals": {
                    "ec2:Subnet": [
                        "arn:aws:ec2:us-east-1:123456789012:subnet/${{subnet-id}}"
                    ]
                },
                "ArnEquals": {
                    "ec2:ResourceTag/BedrockModelInvocationJobArn": [
                        "arn:aws:bedrock:us-east-1:123456789012:model-invocation-job/*"
                    ]
                }
            }
        },
        {
            "Sid": "4",
            "Effect": "Allow",
            "Action": [
                "ec2:CreateTags"
            ],
            "Resource": "arn:aws:ec2:us-east-1:123456789012:network-interface/*",
            "Condition": {
                "StringEquals": {
                    "ec2:CreateAction": [
                        "CreateNetworkInterface"
                    ]
                },
                "ForAllValues:StringEquals": {
                    "aws:TagKeys": [
                        "BedrockManaged",
                        "BedrockModelInvocationJobArn"
                    ]
                }
            }
        }
    ]
}
```

------

## Adicionar a configuração da VPC ao enviar um trabalho de inferência em lote
<a name="batch-vpc-config"></a>

Depois de configurar a VPC e as funções e permissões necessárias, conforme descrito nas seções anteriores, é possível criar um trabalho de inferência em lote que usa essa VPC.

**nota**  
Atualmente, ao criar um trabalho de inferência em lote, só é possível usar uma VPC por meio da API.

Quando você especifica as sub-redes VPC e os grupos de segurança para um trabalho, o Amazon Bedrock cria *interfaces de rede elásticas* (ENIs) associadas aos seus grupos de segurança em uma das sub-redes. ENIs permita que o trabalho do Amazon Bedrock se conecte aos recursos em sua VPC. Para obter informações sobre isso ENIs, consulte [Elastic Network Interfaces](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_ElasticNetworkInterfaces.html) no Guia do *usuário da Amazon VPC*. Etiquetas Amazon Bedrock com ENIs as quais ele cria `BedrockManaged` e `BedrockModelInvocationJobArn` etiquetas.

Recomendamos que você forneça pelo menos uma sub-rede em cada zona de disponibilidade.

Você pode usar grupos de segurança para estabelecer regras para controlar o acesso do Amazon Bedrock aos recursos da VPC.

Ao enviar uma [CreateModelInvocationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateModelInvocationJob.html)solicitação, você pode incluir um `VpcConfig` como parâmetro de solicitação para especificar as sub-redes VPC e os grupos de segurança a serem usados, como no exemplo a seguir.

```
"vpcConfig": { 
    "securityGroupIds": [
        "sg-0123456789abcdef0"
    ],
    "subnets": [
        "subnet-0123456789abcdef0",
        "subnet-0123456789abcdef1",
        "subnet-0123456789abcdef2"
    ]
}
```

# Crie um trabalho de inferência em lote
<a name="batch-inference-create"></a>

Depois de configurar um bucket do Amazon S3 com arquivos para executar a inferência do modelo, é possível criar um trabalho de inferência em lote. Antes de começar, verifique se você configurou os arquivos de acordo com as instruções descritas em [Formatar e carregar os dados de inferência](batch-inference-data.md).

**nota**  
Para enviar um trabalho de inferência em lote usando uma VPC, use a API. Selecione a guia API para saber como incluir a configuração da VPC.

Para saber como criar um trabalho de inferência em lote, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

**Como criar um trabalho de inferência em lote**

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. No painel de navegação à esquerda, selecione **Inferência em lote**.

1. Na seção **Trabalhos de inferência em lote**, escolha **Criar trabalho.**

1. Na seção **Detalhes do trabalho**, forneça um **Nome de trabalho** ao trabalho de inferência em lote e selecione um modelo a ser usado para o trabalho de inferência em lote escolhendo **Selecionar** modelo.

1. Na seção **Tipo de invocação do modelo**, escolha o formato da API para seus dados de entrada. Escolha **InvokeModel**se seus dados de entrada usam formatos de solicitação específicos do modelo ou escolha **Converse se** seus dados de entrada usam o formato da API Converse. O padrão é **InvokeModel**.

1. Na seção **Dados de entrada**, escolha **Procurar no S3** e selecione o local do S3 que contém os arquivos para o trabalho de inferência em lote. A inferência em lote processa todos os arquivos JSONL e os arquivos de conteúdo que os acompanham nesse local do S3, seja o local uma pasta do S3 ou um único arquivo JSONL.
**nota**  
Se os dados de entrada estiverem em um bucket do S3 que pertença a uma conta diferente daquela da qual você está enviando o trabalho, use a API para enviar o trabalho de inferência em lote. Para saber como fazer isso, selecione a guia API acima.

1. Na seção **Dados de saída**, escolha **Procurar no S3** e selecione um local no S3 para armazenar os arquivos de saída do seu trabalho de inferência em lote. Por padrão, os dados de saída serão criptografados por um Chave gerenciada pela AWS. Para escolher uma chave do KMS personalizada, selecione **Personalizar configurações de criptografia (avançado)** e escolha uma chave. Para obter mais informações sobre a criptografia dos recursos do Amazon Bedrock e a configuração de uma chave do KMS personalizada, consulte [Criptografia de dados](data-encryption.md).
**nota**  
Se planejar gravar dados de saída em um bucket do S3 que pertença a uma conta diferente daquela da qual você está enviando o trabalho, use a API para enviar o trabalho de inferência em lote. Para saber como fazer isso, selecione a guia API acima.

1. Na seção **Acesso ao serviço** selecione uma das seguintes opções:
   + **Usar um perfil de serviço existente**: selecione um perfil de serviço na lista suspensa. Para obter mais informações sobre como configurar um perfil personalizado com as permissões apropriadas, consulte [Permissões obrigatórias para a inferência em lote](batch-inference-permissions.md).
   + **Criar e usar um novo perfil de serviço**: insira um nome para o perfil de serviço.

1. (Opcional) Para associar tags ao trabalho de inferência em lote, expanda a seção **Tags** e adicione uma chave e um valor opcional para cada tag. Para obter mais informações, consulte [Marcação de recursos do Amazon Bedrock](tagging.md).

1. Escolha **Criar trabalho de inferência em lote**.

------
#### [ API ]

Para criar um trabalho de inferência em lote, envie uma [CreateModelInvocationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateModelInvocationJob.html)solicitação com um endpoint do [plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp).

Os seguintes campos são obrigatórios:


****  

| Campo | Caso de uso | 
| --- | --- | 
| jobName | Para especificar um nome para o trabalho. | 
| roleArn | Para especificar o nome do recurso da Amazon (ARN) do perfil de serviço com permissões para criar e gerenciar o trabalho. Para obter mais informações, consulte [Criar um perfil de serviço personalizado de inferência em lote](batch-iam-sr.md). | 
| modelId | Para especificar o ID ou o ARN do modelo a ser usado na inferência. | 
| inputDataConfig | Para especificar o local do S3 que contém os dados de entrada. A inferência em lote processa todos os arquivos JSONL e os arquivos de conteúdo que os acompanham nesse local do S3, seja o local uma pasta do S3 ou um único arquivo JSONL. Para obter mais informações, consulte [Formatar e carregar os dados de inferência](batch-inference-data.md). | 
| outputDataConfig | Para especificar o local do S3 no qual gravar as respostas do modelo. | 

Os seguintes campos são opcionais:


****  

| Campo | Caso de uso | 
| --- | --- | 
| modelInvocationType | Para especificar o formato da API dos dados de entrada. Defina Converse para usar o formato da API Converse ou InvokeModel (padrão) para usar formatos de solicitação específicos do modelo. Para obter mais informações sobre o formato de solicitação Converse, consulte [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html). | 
| timeoutDurationInHoras | Para especificar a duração em horas após a qual o trabalho atingirá o tempo limite. | 
| tags | Para especificar qualquer tag a ser associada ao trabalho. Para obter mais informações, consulte [Marcação de recursos do Amazon Bedrock](tagging.md). | 
| vpcConfig | Para especificar a configuração da VPC a ser usada para proteger os dados durante o trabalho. Para obter mais informações, consulte [Proteger trabalhos de inferência em lote usando uma VPC](batch-vpc.md). | 
| clientRequestToken | Para garantir que a solicitação de API seja concluída apenas uma vez. Para obter mais informações, consulte [Ensuring idempotency](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 

A resposta retorna um `jobArn` que pode ser usado para fazer referência ao trabalho ao executar outras chamadas de API relacionadas à inferência em lote.

------

# Monitorar trabalhos de inferência em lote
<a name="batch-inference-monitor"></a>

Além das configurações definidas para um trabalho de inferência em lote, você também pode monitorar seu progresso vendo seu status. Para obter mais informações sobre os possíveis status de um trabalho, consulte o `status` campo em [ModelInvocationJobSummary](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ModelInvocationJobSummary.html).

Você também pode acompanhar o status de um trabalho comparando o número total de registros e o número de registros que já foram processados. Esses números podem ser encontrados no arquivo `manifest.json.out` no bucket do Amazon S3. Para obter mais informações, consulte [Visualizar os resultados de um trabalho de inferência em lote](batch-inference-results.md). Para saber como baixar um objeto do S3, consulte [Como baixar objetos](https://docs.aws.amazon.com/AmazonS3/latest/userguide/download-objects.html).

**dica**  
Em vez de pesquisar o status do trabalho, você pode usar EventBridge a Amazon para receber notificações automáticas quando um trabalho de inferência em lote for concluído ou mudar de estado. Para obter mais informações, consulte [Monitore as mudanças no estado de trabalho do Amazon Bedrock usando a Amazon EventBridgeMonitore as alterações do evento](monitoring-eventbridge.md).

Para saber como visualizar detalhes de trabalhos de inferência em lote, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

**Como visualizar informações sobre trabalhos de inferência em lote**

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. No painel de navegação à esquerda, selecione **Inferência em lote**.

1. Na seção **Trabalhos de inferência em lote**, escolha um trabalho.

1. Na página de detalhes do trabalho, é possível visualizar informações sobre a configuração do trabalho e monitorar seu progresso visualizando seu **Status**.

------
#### [ API ]

Para obter informações sobre um trabalho de inferência em lote, envie uma [GetModelInvocationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetModelInvocationJob.html)solicitação com um [endpoint do plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e forneça o ID ou ARN do trabalho no campo. `jobIdentifier`

Para listar informações sobre vários trabalhos de inferência em lote, envie uma [ListModelInvocationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListModelInvocationJobs.html)solicitação com um endpoint do [plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp). É possível especificar os seguintes parâmetros opcionais:

A resposta para `GetModelInvocationJob` e `ListModelInvocationJobs` inclui um `modelInvocationType` campo que indica se o trabalho usa o formato `InvokeModel` ou a `Converse` API.


****  

| Campo | Descrição breve | 
| --- | --- | 
| maxResults | O número máximo de resultados a serem apresentados em uma resposta. | 
| nextToken | Se houver mais resultados do que o número especificado no campo maxResults, a resposta exibirá um valor de nextToken. Para ver o próximo lote de resultados, envie o valor de nextToken em outra solicitação. | 

Para listar todas as tags de um trabalho, envie uma [ListTagsForResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListTagsForResource.html)solicitação com um [endpoint do plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e inclua o Amazon Resource Name (ARN) do trabalho.

------

# Interromper um trabalho de inferência em lote
<a name="batch-inference-stop"></a>

Para saber como interromper um trabalho de inferência em lote em andamento, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

**Como interromper um trabalho de inferência em lote**

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console do Amazon Bedrock. Em seguida, abra o console do Amazon Bedrock em [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock).

1. No painel de navegação à esquerda, selecione **Inferência em lote**.

1. Selecione um trabalho para acessar a página de detalhes do trabalho ou selecione o botão de opção ao lado de um trabalho.

1. Escolha **Interromper o trabalho**.

1. Revise a mensagem e escolha **Interromper o trabalho** para confirmar.
**nota**  
Você recebe cobrança por tokens que já foram processados.

------
#### [ API ]

Para interromper um trabalho de inferência em lote, envie uma solicitação [StopModelInvocationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_StopModelInvocationJob.html) com um [endpoint do ambiente de gerenciamento do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e forneça o ID ou ARN do trabalho no campo `jobIdentifier`.

Se o trabalho for interrompido com êxito, você receberá uma resposta HTTP 200.

------

# Visualizar os resultados de um trabalho de inferência em lote
<a name="batch-inference-results"></a>

Quando um trabalho de inferência em lote estiver `Completed`, é possível extrair os resultados do trabalho de inferência em lote dos arquivos no bucket do Amazon S3 especificado durante a criação do trabalho. Para saber como baixar um objeto do S3, consulte [Como baixar objetos](https://docs.aws.amazon.com/AmazonS3/latest/userguide/download-objects.html). O bucket do S3 contém os seguintes arquivos:

1. O Amazon Bedrock gerará um arquivo JSONL de saída para cada arquivo JSONL de entrada. Os arquivos de saída contêm as saídas do modelo para cada entrada no formato a seguir. Um objeto `error` substitui o campo `modelOutput` em todas as linhas em que houve erro na inferência. O formato do objeto `modelOutput` JSON depende do tipo de invocação do modelo. Para `InvokeModel` trabalhos, o formato corresponde ao `body` campo na `InvokeModel` resposta (consulte[Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md)). Para `Converse` trabalhos, o formato corresponde ao corpo da resposta da API [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html).

   ```
   { "recordId" : "string", "modelInput": {JSON body}, "modelOutput": {JSON body} }
   ```

   O exemplo a seguir mostra um arquivo de saída possível.

   ```
   { "recordId" : "3223593EFGH", "modelInput" : {"inputText": "Roses are red, violets are"}, "modelOutput" : {"inputTextTokenCount": 8, "results": [{"tokenCount": 3, "outputText": "blue\n", "completionReason": "FINISH"}]}}
   { "recordId" : "1223213ABCD", "modelInput" : {"inputText": "Hello world"}, "error" : {"errorCode" : 400, "errorMessage" : "bad request" }}
   ```

1. Um arquivo `manifest.json.out` com um resumo do trabalho de inferência em lote.

   ```
   {
       "totalRecordCount" : number, 
       "processedRecordCount" : number,
       "successRecordCount": number,
       "errorRecordCount": number,
       "inputTokenCount": number,
       "outputTokenCount" : number
   }
   ```

   Os campos são descritos abaixo:
   + totalRecordCount — O número total de registros enviados ao trabalho de inferência em lote.
   + processedRecordCount — O número de registros processados no trabalho de inferência em lote.
   + successRecordCount — O número de registros processados com sucesso pelo trabalho de inferência em lote.
   + errorRecordCount — O número de registros no trabalho de inferência em lote que causaram erros.
   + inputTokenCount — O número total de tokens de entrada enviados ao trabalho de inferência em lote.
   + outputTokenCount — O número total de tokens de saída gerados pelo trabalho de inferência em lote.

# Exemplo de código para inferência em lote
<a name="batch-inference-example"></a>

O exemplo de código neste capítulo mostra como criar um trabalho de inferência em lote, visualizar informações sobre ele e interrompê-lo. Este exemplo usa o formato `InvokeModel` da API. Para obter informações sobre como usar o formato de `Converse` API, consulte[Formatar e carregar os dados de inferência](batch-inference-data.md).

Selecione uma linguagem para ver um exemplo de código dela:

------
#### [ Python ]

Crie um arquivo JSONL chamado *abc.jsonl* e inclua um objeto JSON para cada registro que contenha pelo menos o número mínimo de registros (consulte o **número mínimo de registros por trabalho de inferência em lote** para ver). *\$1Model\$1* [Cotas do Amazon Bedrock](quotas.md) Neste exemplo, você usará o modelo Claude 3 Haiku da Anthropic. O exemplo a seguir mostra a primeira entrada JSON no arquivo:

```
{
    "recordId": "CALL0000001", 
    "modelInput": {
        "anthropic_version": "bedrock-2023-05-31", 
        "max_tokens": 1024,
        "messages": [ 
            { 
                "role": "user", 
                "content": [
                    {
                        "type": "text", 
                        "text": "Summarize the following call transcript: ..." 
                    } 
                ]
            }
        ]
    }
}
... 
# Add records until you hit the minimum
```

Crie um bucket do S3 chamado *amzn-s3-demo-bucket-input* e faça o upload do arquivo nele. Em seguida, crie um bucket S3 chamado *amzn-s3-demo-bucket-output* para gravar seus arquivos de saída. Execute o seguinte trecho de código para enviar um trabalho e obter *jobArn* a resposta:

```
import boto3

bedrock = boto3.client(service_name="bedrock")

inputDataConfig=({
    "s3InputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket-input/abc.jsonl"
    }
})

outputDataConfig=({
    "s3OutputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket-output/"
    }
})

response=bedrock.create_model_invocation_job(
    roleArn="arn:aws:iam::123456789012:role/MyBatchInferenceRole",
    modelId="anthropic.claude-3-haiku-20240307-v1:0",
    jobName="my-batch-job",
    inputDataConfig=inputDataConfig,
    outputDataConfig=outputDataConfig
)

jobArn = response.get('jobArn')
```

Retorne o `status` do trabalho.

```
bedrock.get_model_invocation_job(jobIdentifier=jobArn)['status']
```

Liste trabalhos de inferência em lote que*Failed*.

```
bedrock.list_model_invocation_jobs(
    maxResults=10,
    statusEquals="Failed",
    sortOrder="Descending"
)
```

Interrompa o trabalho que começou.

```
bedrock.stop_model_invocation_job(jobIdentifier=jobArn)
```

------

# Enviar um lote de prompts com a API Batch da OpenAI
<a name="inference-openai-batch"></a>

É possível executar um trabalho de inferência em lote usando a [API Create batch da OpenAI](https://platform.openai.com/docs/api-reference/batch) com modelos da OpenAI do Amazon Bedrock.

Você pode chamar a API Create batch da OpenAI das seguintes maneiras:
+ Faça uma solicitação HTTP com um endpoint do Amazon Bedrock Runtime.
+ Use uma solicitação de SDK da OpenAI com um endpoint do Amazon Bedrock Runtime.

Escolha um tópico para saber mais:

**Topics**
+ [Modelos e regiões compatíveis para a API Batch da OpenAI](#inference-openai-batch-supported)
+ [Pré-requisitos para usar a API Batch da OpenAI](#inference-openai-batch-prereq)
+ [Criar um trabalho em lote da OpenAI](#inference-openai-batch-create)
+ [Recuperar um trabalho em lote da OpenAI](#inference-openai-batch-retrieve)
+ [Listar trabalhos em lote da OpenAI](#inference-openai-batch-list)
+ [Cancelar um trabalho em lote da OpenAI](#inference-openai-batch-cancel)

## Modelos e regiões compatíveis para a API Batch da OpenAI
<a name="inference-openai-batch-supported"></a>

Você pode usar a API OpenAI Create batch com todos os OpenAI modelos compatíveis com o Amazon Bedrock e nas AWS regiões que oferecem suporte a esses modelos. Para ter mais informações sobre modelos e regiões compatíveis, consulte [Modelos de base compatíveis no Amazon Bedrock](models-supported.md).

## Pré-requisitos para usar a API Batch da OpenAI
<a name="inference-openai-batch-prereq"></a>

Para ver os pré-requisitos para usar as operações da API Batch da OpenAI, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ OpenAI SDK ]
+ **Autenticação**: o SDK da OpenAI só permite autenticação com uma chave de API do Amazon Bedrock. Gere uma chave de API do Amazon Bedrock para autenticar sua solicitação. Para saber mais sobre as chaves de API do Amazon Bedrock e como gerá-las, consulte a seção Chaves de API no capítulo Build.
+ **Endpoint** — Encontre o endpoint que corresponde à AWS região a ser usada nos [endpoints e cotas do Amazon Bedrock Runtime](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt). Se você usa um AWS SDK, talvez precise especificar apenas o código da região e não o endpoint inteiro ao configurar o cliente.
+ **Acesso ao modelo**: solicite acesso a um modelo do Amazon Bedrock que comporte esse recurso. Para obter mais informações, consulte [Gerencie o acesso ao modelo usando SDK e CLI](model-access.md#model-access-modify).
+ **Instalar um SDK da OpenAI**: para ter mais informações, consulte [Libraries](https://platform.openai.com/docs/libraries) na documentação da OpenAI.
+ **Arquivo JSONL em lote carregado no S3**: siga as etapas em [Prepare your batch file](https://platform.openai.com/docs/guides/batch#1-prepare-your-batch-file) na documentação da OpenAI para preparar seu arquivo em lote com o formato correto. Em seguida, faça upload dele em um bucket do Amazon S3.
+ **Permissões do IAM**: verifique se você tem as seguintes identidades do IAM com as permissões adequadas:
  + Uma identidade do IAM com a qual você se autentica pode realizar operações de API relacionadas à inferência em lote. Para obter mais informações, consulte [Permissões necessária para uma identidade do IAM enviar e gerenciar trabalhos de inferência em lote](batch-inference-permissions.md).
  + O perfil de serviço de inferência em lote usado por você pode assumir sua identidade, invocar o modelo da OpenAI que você usa e ter acesso ao seu arquivo JSONL em lote no S3. Para obter mais informações, consulte [Perfis de serviço](security-iam-sr.md).

------
#### [ HTTP request ]
+ **Autenticação** — Você pode se autenticar com suas AWS credenciais ou com uma chave de API Amazon Bedrock.

  Configure suas AWS credenciais ou gere uma chave de API Amazon Bedrock para autenticar sua solicitação.
  + Para saber mais sobre como configurar suas AWS credenciais, consulte [Acesso programático com credenciais de AWS segurança](https://docs.aws.amazon.com/IAM/latest/UserGuide/security-creds-programmatic-access.html).
  + Para saber mais sobre as chaves de API do Amazon Bedrock e como gerá-las, consulte a seção Chaves de API no capítulo Build.
+ **Endpoint** — Encontre o endpoint que corresponde à AWS região a ser usada nos [endpoints e cotas do Amazon Bedrock Runtime](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt). Se você usa um AWS SDK, talvez precise especificar apenas o código da região e não o endpoint inteiro ao configurar o cliente.
+ **Acesso ao modelo**: solicite acesso a um modelo do Amazon Bedrock que comporte esse recurso. Para obter mais informações, consulte [Gerencie o acesso ao modelo usando SDK e CLI](model-access.md#model-access-modify).
+ **Arquivo JSONL em lote carregado no S3**: siga as etapas em [Prepare your batch file](https://platform.openai.com/docs/guides/batch#1-prepare-your-batch-file) na documentação da OpenAI para preparar seu arquivo em lote com o formato correto. Em seguida, faça upload dele em um bucket do Amazon S3.
+ **Permissões do IAM**: verifique se você tem as seguintes identidades do IAM com as permissões adequadas:
  + Uma identidade do IAM com a qual você se autentica pode realizar operações de API relacionadas à inferência em lote. Para obter mais informações, consulte [Permissões necessária para uma identidade do IAM enviar e gerenciar trabalhos de inferência em lote](batch-inference-permissions.md).
  + O perfil de serviço de inferência em lote usado por você pode assumir sua identidade, invocar o modelo da OpenAI que você usa e ter acesso ao seu arquivo JSONL em lote no S3. Para obter mais informações, consulte [Perfis de serviço](security-iam-sr.md).

------

## Criar um trabalho em lote da OpenAI
<a name="inference-openai-batch-create"></a>

Para ver detalhes da API Create batch da OpenAI, consulte os seguintes recursos na documentação da OpenAI:
+ [Create batch](https://platform.openai.com/docs/api-reference/batch/create): detalha a solicitação e a resposta.
+ [The request output object](https://platform.openai.com/docs/api-reference/batch/request-output): detalha os campos da saída gerada do trabalho em lote. Consulte essa documentação ao interpretar os resultados em seu bucket do S3.

**Formular a solicitação**  
Ao formular a solicitação de inferência em lote, observe os seguintes campos e valores específicos do Amazon Bedrock:

**Cabeçalhos de solicitação**
+ X-Amzn-Bedrock-RoleArn (obrigatório) — O Amazon Resource Name (ARN) da função do serviço de inferência em lote. Para obter mais informações, consulte [Criar um perfil de serviço personalizado de inferência em lote](batch-iam-sr.md).
+ X-Amzn-Bedrock-ModelId (obrigatório) — O ID do modelo básico a ser usado na inferência. Para obter mais informações, consulte [Modelos de base compatíveis no Amazon Bedrock](models-supported.md).
+ X-Amzn-Bedrock-OutputEncryptionKeyId (opcional) — O ID de uma chave KMS que você deseja usar para criptografar os arquivos S3 de saída. Para obter mais informações, consulte [Especificação da criptografia do lado do servidor com AWS KMS (SSE-KMS](https://docs.aws.amazon.com/AmazonS3/latest/userguide/specifying-kms-encryption.html)).
+ X-Amzn-Bedrock-Tags (opcional) — Um dicionário de chaves e valores que indicam tags a serem anexadas à saída. Para obter mais informações, consulte [Marcação de recursos do Amazon Bedrock](tagging.md).

**Parâmetros do corpo da solicitação:**
+ endpoint: deve ser `v1/chat/completions`.
+ input\$1file\$1id: especifique o URI do S3 do arquivo JSONL em lote.

**Encontrar os resultados gerados**  
A resposta da criação inclui um ID de lote. Os resultados e o registro em log de erros do trabalho de inferência em lote são gravados na pasta do S3 que contém o arquivo de entrada. Os resultados estarão em uma pasta com o mesmo nome do ID do lote, como na estrutura de pasta a seguir:

```
---- {batch_input_folder}
        |---- {batch_input}.jsonl
        |---- {batch_id}
	           |---- {batch_input}.jsonl.out
	           |---- {batch_input}.jsonl.err
```

Para ver exemplos de uso da API Create batch da OpenAI com métodos diferentes, escolha a guia referente ao método de sua preferência e siga as etapas:

------
#### [ OpenAI SDK (Python) ]

Para criar um trabalho em lote com o SDK da OpenAI, faça o seguinte:

1. Importe o SDK da OpenAI e configure o cliente com os seguintes campos:
   + `base_url`: prefixe o endpoint do Amazon Bedrock Runtime como `/openai/v1`, conforme o seguinte formato:

     ```
     https://${bedrock-runtime-endpoint}/openai/v1
     ```
   + `api_key`: especifique uma chave de API do Amazon Bedrock.
   + `default_headers`: se precisar incluir algum cabeçalho, você pode incluí-lo como pares de chave-valor nesse objeto. Ou você pode especificar cabeçalhos em `extra_headers` ao fazer uma chamada de API específica.

1. Use o método [batches.create()](https://platform.openai.com/docs/api-reference/batch/create) com o cliente.

Antes de executar o exemplo a seguir, substitua os espaços reservados nos campos a seguir:
+ api\$1key — Substitua pela sua chave *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* de API real.
+ X-Amzn-BedrockRoleArn — *arn:aws:iam::123456789012:role/BatchServiceRole* Substitua pela função real do serviço de inferência em lote que você configurou.
+ input\$1file\$1id — *s3://amzn-s3-demo-bucket/openai-input.jsonl* Substitua pelo URI real do S3 para o qual você carregou seu arquivo JSONL em lote.

O exemplo chama a API OpenAI Create batch job na `us-west-2` e inclui uma parte dos metadados.

```
from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1", 
    api_key="$AWS_BEARER_TOKEN_BEDROCK", # Replace with actual API key
    default_headers={
        "X-Amzn-Bedrock-RoleArn": "arn:aws:iam::123456789012:role/BatchServiceRole" # Replace with actual service role ARN
    }
)

job = client.batches.create(
    input_file_id="s3://amzn-s3-demo-bucket/openai-input.jsonl", # Replace with actual S3 URI
    endpoint="/v1/chat/completions",
    completion_window="24h",
    metadata={
        "description": "test input"
    },
    extra_headers={
        "X-Amzn-Bedrock-ModelId": "openai.gpt-oss-20b-1:0",
    }
)
print(job)
```

------
#### [ HTTP request ]

Para criar um preenchimento de chat com uma solicitação HTTP, faça o seguinte:

1. Use o método POST e o URL prefixando o endpoint do Amazon Bedrock Runtime como `/openai/v1/batches`, conforme o seguinte formato:

   ```
   https://${bedrock-runtime-endpoint}/openai/v1/batches
   ```

1. Especifique suas AWS credenciais ou uma chave de API do Amazon Bedrock no cabeçalho. `Authorization`

Antes de executar o exemplo abaixo, substitua os espaços reservados nos seguintes campos:
+ Autorização — *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* Substitua pela sua chave de API real.
+ X-Amzn-BedrockRoleArn — *arn:aws:iam::123456789012:role/BatchServiceRole* Substitua pela função real do serviço de inferência em lote que você configurou.
+ input\$1file\$1id — *s3://amzn-s3-demo-bucket/openai-input.jsonl* Substitua pelo URI real do S3 para o qual você carregou seu arquivo JSONL em lote.

O exemplo a seguir chama a API Create chat completion na `us-west-2` e inclui uma parte dos metadados:

```
curl -X POST 'https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1/batches' \
    -H 'Authorization: Bearer $AWS_BEARER_TOKEN_BEDROCK' \  
    -H 'Content-Type: application/json' \
    -H 'X-Amzn-Bedrock-ModelId: openai.gpt-oss-20b-1:0' \
    -H 'X-Amzn-Bedrock-RoleArn: arn:aws:iam::123456789012:role/BatchServiceRole' \  
    -d '{    
    "input_file_id": "s3://amzn-s3-demo-bucket/openai-input.jsonl",    
    "endpoint": "/v1/chat/completions",    
    "completion_window": "24h",
    "metadata": {"description": "test input"}  
}'
```

------

## Recuperar um trabalho em lote da OpenAI
<a name="inference-openai-batch-retrieve"></a>

Para ver detalhes da solicitação e da resposta da API Retrieve batch da OpenAI, consulte [Retrieve batch](https://platform.openai.com/docs/api-reference/batch/retrieve).

Ao fazer a solicitação, você especifica o ID do trabalho em lote para o qual deseja obter informações. A resposta exibe informações sobre um trabalho em lote, como o nome dos arquivos de saída e de erro, que podem ser pesquisados nos buckets do S3.

Para ver exemplos de uso da API Retrieve batch da OpenAI com métodos diferentes, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ OpenAI SDK (Python) ]

Para recuperar um trabalho em lote com o SDK da OpenAI, faça o seguinte:

1. Importe o SDK da OpenAI e configure o cliente com os seguintes campos:
   + `base_url`: prefixe o endpoint do Amazon Bedrock Runtime como `/openai/v1`, conforme o seguinte formato:

     ```
     https://${bedrock-runtime-endpoint}/openai/v1
     ```
   + `api_key`: especifique uma chave de API do Amazon Bedrock.
   + `default_headers`: se precisar incluir algum cabeçalho, você pode incluí-lo como pares de chave-valor nesse objeto. Ou você pode especificar cabeçalhos em `extra_headers` ao fazer uma chamada de API específica.

1. Use o método [batches.retrieve()](https://platform.openai.com/docs/api-reference/batch/create) com o cliente e especifique o ID do lote para o qual as informações serão recuperadas.

Antes de executar o exemplo a seguir, substitua os espaços reservados nos campos a seguir:
+ api\$1key — Substitua pela sua chave *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* de API real.
+ batch\$1id — Substitua pela sua *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* chave de API real.

O exemplo chama a API OpenAI Retrieve batch job `us-west-2` em um trabalho em lote cujo ID é*batch\$1abc123*.

```
from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1", 
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)

job = client.batches.retrieve(batch_id="batch_abc123") # Replace with actual ID

print(job)
```

------
#### [ HTTP request ]

Para recuperar um trabalho em lote com uma solicitação HTTP direta, faça o seguinte:

1. Use o método GET e especifique a URL prefixando o endpoint do Amazon Bedrock Runtime como `/openai/v1/batches/${batch_id}`, conforme o seguinte formato:

   ```
   https://${bedrock-runtime-endpoint}/openai/v1/batches/batch_abc123
   ```

1. Especifique suas AWS credenciais ou uma chave de API do Amazon Bedrock no cabeçalho. `Authorization`

Antes de executar o exemplo abaixo, substitua os espaços reservados nos seguintes campos:
+ Autorização — *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* Substitua pela sua chave de API real.
+ batch\$1abc123: no caminho, substitua esse valor pelo ID real do trabalho em lote.

O exemplo a seguir chama a API OpenAI Retrieve batch em um trabalho `us-west-2` em lotes cujo ID é*batch\$1abc123*.

```
curl -X GET 'https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1/batches/batch_abc123' \
    -H 'Authorization: Bearer $AWS_BEARER_TOKEN_BEDROCK'
```

------

## Listar trabalhos em lote da OpenAI
<a name="inference-openai-batch-list"></a>

Para ver detalhes da solicitação e da resposta da API List batches da OpenAI, consulte [List batches](https://platform.openai.com/docs/api-reference/batch/list). A resposta exibe uma série de informações sobre seus trabalhos em lote.

Ao fazer a solicitação, você pode incluir parâmetros de consulta para filtrar os resultados. A resposta exibe informações sobre um trabalho em lote, como o nome dos arquivos de saída e de erro, que podem ser pesquisados nos buckets do S3.

Para ver exemplos de uso da API List batches da OpenAI com métodos diferentes, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ OpenAI SDK (Python) ]

Para listar trabalhos em lote com o SDK da OpenAI, faça o seguinte:

1. Importe o SDK da OpenAI e configure o cliente com os seguintes campos:
   + `base_url`: prefixe o endpoint do Amazon Bedrock Runtime como `/openai/v1`, conforme o seguinte formato:

     ```
     https://${bedrock-runtime-endpoint}/openai/v1
     ```
   + `api_key`: especifique uma chave de API do Amazon Bedrock.
   + `default_headers`: se precisar incluir algum cabeçalho, você pode incluí-lo como pares de chave-valor nesse objeto. Ou você pode especificar cabeçalhos em `extra_headers` ao fazer uma chamada de API específica.

1. Use o método [batches.list()](https://platform.openai.com/docs/api-reference/batch/list) com o cliente. É possível incluir qualquer um dos parâmetros opcionais.

Antes de executar o exemplo a seguir, substitua os espaços reservados nos campos a seguir:
+ api\$1key — Substitua pela sua chave *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* de API real.

O exemplo chama a API List batch da OpenAI na `us-west-2` e especifica o limite de dois resultados a serem exibidos.

```
from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1", 
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)

job = client.batches.list(limit=2)

print(job)
```

------
#### [ HTTP request ]

Para listar trabalhos em lote com uma solicitação HTTP direta, faça o seguinte:

1. Use o método GET e especifique a URL prefixando o endpoint do Amazon Bedrock Runtime como `/openai/v1/batches`, conforme o seguinte formato:

   ```
   https://${bedrock-runtime-endpoint}/openai/v1/batches
   ```

   Você pode incluir qualquer um dos parâmetros de consulta opcionais.

1. Especifique suas AWS credenciais ou uma chave de API do Amazon Bedrock no cabeçalho. `Authorization`

Antes de executar o exemplo abaixo, substitua os espaços reservados nos seguintes campos:
+ Autorização — *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* Substitua pela sua chave de API real.

O exemplo a seguir chama a API List batch da OpenAI na `us-west-2` e especifica o limite de dois resultados a serem exibidos.

```
curl -X GET 'https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1/batches?limit=2' \
    -H 'Authorization: Bearer $AWS_BEARER_TOKEN_BEDROCK' \
```

------

## Cancelar um trabalho em lote da OpenAI
<a name="inference-openai-batch-cancel"></a>

Para ver detalhes da solicitação e da resposta da API Cancel batch da OpenAI, consulte [Cancel batch](https://platform.openai.com/docs/api-reference/batch/cancel). A resposta exibe informações sobre o trabalho em lote cancelado.

Ao fazer a solicitação, você especifica o ID do trabalho em lote que deseja cancelar.

Para ver exemplos de uso da API Cancel batch da OpenAI com métodos diferentes, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ OpenAI SDK (Python) ]

Para cancelar um trabalho em lote com o SDK da OpenAI, faça o seguinte:

1. Importe o SDK da OpenAI e configure o cliente com os seguintes campos:
   + `base_url`: prefixe o endpoint do Amazon Bedrock Runtime como `/openai/v1`, conforme o seguinte formato:

     ```
     https://${bedrock-runtime-endpoint}/openai/v1
     ```
   + `api_key`: especifique uma chave de API do Amazon Bedrock.
   + `default_headers`: se precisar incluir algum cabeçalho, você pode incluí-lo como pares de chave-valor nesse objeto. Ou você pode especificar cabeçalhos em `extra_headers` ao fazer uma chamada de API específica.

1. Use o método [batches.cancel()](https://platform.openai.com/docs/api-reference/batch/cancel) com o cliente e especifique o ID do lote para o qual as informações serão recuperadas.

Antes de executar o exemplo a seguir, substitua os espaços reservados nos campos a seguir:
+ api\$1key — Substitua pela sua chave *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* de API real.
+ batch\$1id — Substitua pela sua *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* chave de API real.

O exemplo chama a API de OpenAI cancelamento de trabalhos em lotes `us-west-2` em um trabalho em lotes cujo ID é*batch\$1abc123*.

```
from openai import OpenAI

client = OpenAI(
    base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1", 
    api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)

job = client.batches.cancel(batch_id="batch_abc123") # Replace with actual ID

print(job)
```

------
#### [ HTTP request ]

Para cancelar um trabalho em lote com uma solicitação HTTP direta, faça o seguinte:

1. Use o método POST e o URL prefixando o endpoint do Amazon Bedrock Runtime como `/openai/v1/batches/${batch_id}/cancel`, conforme o seguinte formato:

   ```
   https://${bedrock-runtime-endpoint}/openai/v1/batches/batch_abc123/cancel
   ```

1. Especifique suas AWS credenciais ou uma chave de API do Amazon Bedrock no cabeçalho. `Authorization`

Antes de executar o exemplo abaixo, substitua os espaços reservados nos seguintes campos:
+ Autorização — *\$1AWS\$1BEARER\$1TOKEN\$1BEDROCK* Substitua pela sua chave de API real.
+ batch\$1abc123: no caminho, substitua esse valor pelo ID real do trabalho em lote.

O exemplo a seguir chama a API OpenAI Cancel batch `us-west-2` em um trabalho em lotes cujo ID é*batch\$1abc123*.

```
curl -X GET 'https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1/batches/batch_abc123/cancel' \
    -H 'Authorization: Bearer $AWS_BEARER_TOKEN_BEDROCK'
```

------

# Aumentar o throughput com inferência entre regiões
<a name="cross-region-inference"></a>

Com a inferência entre regiões, você pode escolher um perfil de inferência entre regiões vinculado a uma área geográfica específica (como EUA ou UE) ou escolher um perfil de inferência global. Quando você escolhe um perfil de inferência vinculado a uma geografia específica, o Amazon Bedrock seleciona automaticamente o comercial ideal Região da AWS dentro dessa geografia para processar sua solicitação de inferência. Com perfis de inferência globais, o Amazon Bedrock seleciona automaticamente a Região da AWS comercial ideal para processar a solicitação, o que otimiza os recursos disponíveis e aumenta o throughput do modelo.

Os dois tipos de inferência entre regiões funcionam por meio de [perfis de inferência](inference-profiles.md), que definem um modelo básico (FM) e Regiões da AWS para o qual as solicitações podem ser encaminhadas. Ao executar a inferência de modelos no modo sob demanda, as solicitações podem ser restringidas por cotas de serviço ou em horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS

Você também pode aumentar o throughput de um modelo comprando [throughput provisionado](prov-throughput.md). Atualmente, os perfis de inferência não comportam throughput provisionado.

Para ver as regiões e os modelos com os quais você pode usar perfis de inferência para executar inferência entre regiões, consulte [Regiões e modelos que compatíveis com perfis de inferência](inference-profiles-support.md).

**Topics**
+ [Escolha entre inferência geográfica e global entre regiões](#cross-region-inference-comparison)
+ [Considerações gerais](#cross-region-inference-general-considerations)
+ [Inferência geográfica entre regiões](geographic-cross-region-inference.md)
+ [Inferência global entre regiões](global-cross-region-inference.md)

## Escolha entre inferência geográfica e global entre regiões
<a name="cross-region-inference-comparison"></a>

O Amazon Bedrock fornece dois tipos de perfis de inferência entre regiões, cada um projetado para diferentes casos de uso e requisitos de conformidade:


| Recurso | Inferência geográfica entre regiões | Inferência global entre regiões | Recomendação | 
| --- | --- | --- | --- | 
| Residência de dados | Dentro dos limites geográficos (EUA, UE, APAC, etc.) | Qualquer região AWS comercial suportada em todo o mundo | Escolha Geographic para requisitos de conformidade | 
| Throughput | Maior do que uma única região | Maior disponível | Escolha Global para obter o máximo desempenho | 
| Custo | Preço padrão | Aproximadamente 10% de economia | Escolha Global para otimização de custos | 
| Requisitos de SCP | Permitir todas as regiões de destino no perfil | Permitir "aws:RequestedRegion": "unspecified" | Configure com base em suas políticas organizacionais | 
| Mais adequado para | Organizações com regulamentos de residência de dados | Organizações que priorizam custo e desempenho | Avalie suas necessidades de conformidade e desempenho | 

Escolha a inferência geográfica entre regiões quando você tiver requisitos de residência de dados e precisar garantir que o processamento de dados permaneça dentro de limites geográficos específicos. Escolha a inferência global entre regiões quando quiser o máximo de produtividade e economia de custos sem restrições geográficas.

## Considerações gerais
<a name="cross-region-inference-general-considerations"></a>

Observe as seguintes informações sobre inferência entre regiões:
+ Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região na qual você chama um perfil de inferência. Para obter mais informações sobre preços, consulte [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing/).
+ A inferência entre regiões pode encaminhar solicitações para as Regiões da AWS quais não estão habilitadas manualmente em seu. Conta da AWS A ativação manual de regiões não é necessária para que a inferência entre regiões funcione.
+ Todos os dados transmitidos durante as operações entre regiões permanecem na AWS rede e não atravessam a Internet pública. Os dados são criptografados em trânsito entre eles Regiões da AWS.
+ Todas as solicitações de inferência entre regiões são registradas CloudTrail na sua região de origem. Procure o `additionalEventData.inferenceRegion` campo para identificar onde as solicitações foram processadas.
+ AWS Os serviços desenvolvidos pelo Amazon Bedrock também podem usar o CRIS. Consulte a documentação do serviço específico para obter detalhes.

# Inferência geográfica entre regiões
<a name="geographic-cross-region-inference"></a>

A inferência geográfica entre regiões mantém o processamento de dados dentro dos limites geográficos especificados (EUA, UE, APAC etc.), ao mesmo tempo em que fornece maior taxa de transferência do que a inferência de uma única região. Essa opção é ideal para organizações com requisitos de residência de dados e normas de conformidade.

## Considerações sobre inferência geográfica entre regiões
<a name="geographic-cris-considerations"></a>

Observe as seguintes informações sobre a inferência geográfica entre regiões:
+ As solicitações de inferência entre regiões para um perfil de inferência vinculado a uma região geográfica (por exemplo, EUA, UE e APAC) são mantidas dentro do Regiões da AWS que faz parte da geografia em que os dados residem originalmente. Por exemplo, uma solicitação feita nos EUA é mantida Regiões da AWS nos EUA. Embora os dados permaneçam armazenados somente na região de origem, os prompts de entrada e os resultados de saída podem sair da sua região de origem durante a inferência entre regiões. Todos os dados serão transmitidos criptografados pela rede segura da Amazon.
+ Para ver as cotas padrão de throughput entre regiões ao usar perfis de inferência vinculados a uma área geográfica (como EUA, UE e APAC), consulte os valores em **Solicitações de inferência do modelo entre regiões por minuto por \$1\$1Model\$1** e **Tokens de inferência do modelo entre regiões por minuto por \$1\$1Model\$1** em [Cotas de serviços do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock) no *Guia de referência geral da AWS *.

## Requisitos de política do IAM para inferência geográfica entre regiões
<a name="geographic-cris-iam-setup"></a>

Para permitir que um usuário ou função do IAM invoque um perfil de inferência geográfica entre regiões, você precisa permitir o acesso aos seguintes recursos:

1. O perfil de inferência entre regiões específico da geografia (esses perfis têm prefixos geográficos como,,) `us` `eu` `apac`

1. O modelo de fundação na região de origem

1. O modelo básico em todas as regiões de destino listadas no perfil geográfico

O exemplo de política a seguir concede as permissões necessárias para usar o modelo básico Claude Sonnet 4.5 com um perfil de inferência geográfica entre regiões para os EUA, onde está a região de origem `us-east-1` e as regiões de destino, e: `us-east-1` `us-east-2` `us-west-2`

```
{
    "Version": "2012-10-17"		 	 	 ,
    "Statement": [
        {
            "Sid": "GrantGeoCrisInferenceProfileAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:us-east-1:<ACCOUNT_ID>:inference-profile/us.anthropic.claude-sonnet-4-5-20250929-v1:0"
            ]
        },
        {
            "Sid": "GrantGeoCrisModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-sonnet-4-5-20250929-v1:0",
                "arn:aws:bedrock:us-east-2::foundation-model/anthropic.claude-sonnet-4-5-20250929-v1:0",
                "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-sonnet-4-5-20250929-v1:0"
            ],
            "Condition": {
                "StringEquals": {
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:us-east-1:<ACCOUNT_ID>:inference-profile/us.anthropic.claude-sonnet-4-5-20250929-v1:0"
                }
            }
        }
    ]
}
```

A primeira declaração concede acesso à `bedrock:InvokeModel` API ao perfil de inferência geográfica entre regiões para solicitações originadas da região solicitante. A segunda declaração concede acesso à `bedrock:InvokeModel` API ao modelo básico na região solicitante e em todas as regiões de destino listadas no perfil de inferência.

## Requisitos da política de controle de serviços para inferência geográfica entre regiões
<a name="geographic-cris-scp-setup"></a>

Muitas organizações implementam controles de acesso regionais por meio de Service Control Policies in AWS Organizations para segurança e conformidade. Se a política de segurança da sua organização costuma SCPs bloquear regiões não utilizadas, você deve garantir que as condições de SCP específicas da sua região permitam o acesso a todas as regiões de destino listadas no perfil de inferência geográfica entre regiões da sua região de origem.

Para inferência geográfica entre regiões, você precisa entender a relação entre sua região de origem (onde você faz a chamada de API) e as regiões de destino (onde as solicitações podem ser encaminhadas). Verifique a documentação do perfil de inferência para identificar todas as regiões de destino da sua região de origem e, em seguida, assegure-se de SCPs permitir o acesso a todas essas regiões de destino.

Por exemplo, se você estiver ligando de us-east-1 (região de origem) usando o perfil geográfico US Anthropic Claude Sonnet 4.5, as solicitações podem ser encaminhadas para us-east-1, us-east-2 e us-west-2 (regiões de destino). Se um SCP restringir o acesso somente a us-east-1, a inferência entre regiões falhará ao tentar rotear para us-east-2 ou us-west-2. Portanto, você precisa permitir todas as três regiões de destino em seu SCP, independentemente da região de onde você está ligando.

Ao configurar a exclusão SCPs de regiões, lembre-se de que bloquear qualquer região de destino no perfil de inferência impedirá que a inferência entre regiões funcione adequadamente, mesmo que sua região de origem permaneça acessível. Para obter os requisitos de SCP para inferência global entre regiões, consulte. [Requisitos da política de controle de serviços para inferência global entre regiões](global-cross-region-inference.md#global-cris-scp-setup)

Para melhorar a segurança, considere usar a `bedrock:InferenceProfileArn` condição para limitar o acesso a perfis de inferência específicos. Isso permite que você conceda acesso às regiões necessárias e, ao mesmo tempo, restrinja quais perfis de inferência podem ser usados.

## Use inferência geográfica entre regiões
<a name="geographic-cris-usage"></a>

Para usar a inferência geográfica entre regiões, você inclui um [perfil de inferência](inference-profiles.md) ao executar a inferência do modelo das seguintes maneiras:
+ **Inferência de modelo sob demanda** — especifique o ID do perfil de inferência como o `modelId` ao enviar uma solicitação [InvokeModel[InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html), [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) ou. [ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html) Um perfil de inferência define uma ou mais regiões para as quais ele pode encaminhar solicitações de inferência provenientes da região de origem. O uso da inferência entre regiões aumenta o throughput e o desempenho roteando dinamicamente as solicitações de invocação de modelos entre as regiões definidas no perfil de inferência. Fatores de roteamento no tráfego, na demanda e na utilização de recursos do usuário. Para obter mais informações, consulte [Envie prompts e gere respostas com a inferência de modelo](inference.md).
+ **Inferência em lote** — envie solicitações de forma assíncrona com a inferência em lote especificando o ID do perfil de inferência como o ao enviar uma solicitação. `modelId` [CreateModelInvocationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateModelInvocationJob.html) O uso de um perfil de inferência permite que você utilize a computação em várias Regiões da AWS e obtenha tempos de processamento mais rápidos para seus trabalhos em lote. Quando o trabalho for concluído, será possível recuperar os arquivos de saída do bucket do Amazon S3 na região de origem.
+ **Agentes**: especifique a ID do perfil de inferência no campo `foundationModel` em uma solicitação [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateAgent.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateAgent.html). Para obter mais informações, consulte [Criar e configurar o agente manualmente](agents-create.md).
+ **Geração de respostas da base de conhecimento**: é possível usar a inferência entre regiões ao gerar uma resposta depois de consultar uma base de conhecimento. Para obter mais informações, consulte [Testar a base de conhecimento com consultas e respostas](knowledge-base-test.md).
+ **Avaliação de modelo**: é possível enviar um perfil de inferência como um modelo para avaliação ao enviar um trabalho de avaliação de modelo. Para obter mais informações, consulte [Avaliar o desempenho dos recursos do Amazon Bedrock](evaluation.md).
+ **Gerenciamento de prompts**: é possível usar a inferência entre regiões ao gerar uma resposta a um prompt criado no Gerenciamento de Prompts. Para obter mais informações, consulte [Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock](prompt-management.md).
+ **Fluxos de prompts**: é possível usar a inferência entre regiões ao gerar uma resposta a um prompt definido em linha em um nó de prompt em um fluxo de prompts. Para obter mais informações, consulte [Crie um fluxo de trabalho end-to-end generativo de IA com o Amazon Bedrock Flows](flows.md).

Para saber como usar um perfil de inferência para enviar solicitações de invocação de modelo entre regiões, consulte [Use um perfil de inferência na invocação de modelos](inference-profiles-use.md).

Para saber mais sobre a inferência entre regiões, consulte [Getting started with cross-region inference in Amazon Bedrock](https://aws.amazon.com/blogs/machine-learning/getting-started-with-cross-region-inference-in-amazon-bedrock/).

Para obter informações detalhadas sobre a inferência global entre regiões, incluindo a configuração do IAM e o gerenciamento de cotas de serviço, consulte. [Inferência global entre regiões](global-cross-region-inference.md)

# Inferência global entre regiões
<a name="global-cross-region-inference"></a>

A inferência global entre regiões estende a inferência entre regiões além dos limites geográficos, permitindo o roteamento de solicitações de inferência para empresas comerciais suportadas em todo o Regiões da AWS mundo, otimizando os recursos disponíveis e permitindo maior produtividade do modelo.

## Benefícios da inferência global entre regiões
<a name="global-cris-benefits"></a>

A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece várias vantagens em relação aos perfis tradicionais de inferência geográfica entre regiões:
+ **Rendimento aprimorado durante o pico de demanda** — A inferência global entre regiões fornece maior resiliência durante os períodos de pico de demanda ao rotear automaticamente as solicitações para a capacidade disponível. Regiões da AWS Esse roteamento dinâmico acontece perfeitamente, sem configuração ou intervenção adicional dos desenvolvedores. Ao contrário das abordagens tradicionais, que podem exigir um balanceamento complexo de carga do lado do cliente Regiões da AWS, a inferência global entre regiões trata os picos de tráfego automaticamente. Isso é particularmente importante para aplicativos essenciais para os negócios, nos quais o tempo de inatividade ou o desempenho degradado podem ter impactos financeiros ou de reputação significativos.
+ **Custo-benefício** — A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece aproximadamente 10% de economia nos preços dos tokens de entrada e saída em comparação com a inferência geográfica entre regiões. O preço é calculado com base no Região da AWS qual a solicitação é feita (fonte Região da AWS). Isso significa que as organizações podem se beneficiar de uma maior resiliência com custos ainda mais baixos. Esse modelo de preços torna a inferência global entre regiões uma solução econômica para organizações que buscam otimizar suas implantações generativas de IA. Ao melhorar a utilização de recursos e permitir maior produtividade sem custos adicionais, ele ajuda as organizações a maximizar o valor de seu investimento no Amazon Bedrock.
+ **Monitoramento simplificado** — Ao usar a inferência global entre regiões, CloudTrail continue registrando as entradas de registro em sua fonte Região da AWS, simplificando a observabilidade CloudWatch e o gerenciamento. Mesmo que suas solicitações sejam processadas em diferentes partes do Regiões da AWS mundo, você mantém uma visão centralizada dos padrões de desempenho e uso do seu aplicativo por meio de suas ferramentas de AWS monitoramento familiares.
+ **Flexibilidade de cota sob demanda** — Com a inferência global entre regiões, suas cargas de trabalho não são mais limitadas pela capacidade regional individual. Em vez de ficarem restritas à capacidade disponível em uma área específica Região da AWS, suas solicitações podem ser roteadas dinamicamente pela infraestrutura AWS global. Isso fornece acesso a um conjunto muito maior de recursos, tornando menos complicado lidar com cargas de trabalho de alto volume e picos repentinos de tráfego.

## Considerações sobre inferência global entre regiões
<a name="global-cris-considerations"></a>

Observe as seguintes informações sobre a inferência global entre regiões:
+ Os perfis de inferência globais entre regiões fornecem maior throughput do que um perfil de inferência vinculado a uma determinada área geográfica. Um perfil de inferência vinculado a uma determinada área geográfica oferece maior throughput do que a inferência em uma única região.
+ Para ver as cotas padrão de throughput entre regiões ao usar perfis de inferência globais, consulte os valores em **Solicitações de inferência do modelo entre regiões por minuto por \$1\$1Model\$1** e **Tokens de inferência do modelo entre regiões por minuto por \$1\$1Model\$1** em [Cotas de serviços do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock) no *Guia de referência geral da AWS *.

  **Você pode solicitar, visualizar e gerenciar cotas para o Global Cross-Region Inference Profile a partir do console [Service Quotas ou](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas) usando comandos da AWS CLI na sua região de origem.**

## Requisitos de política do IAM para inferência global entre regiões
<a name="global-cris-iam-setup"></a>

Para permitir a inferência global entre regiões para seus usuários, você deve aplicar uma política de IAM em três partes à função. Veja a seguir um exemplo de política do IAM para fornecer controle granular. Você pode substituir `<REQUESTING REGION>` no exemplo de política pela Região da AWS que você está operando.

```
{
    "Version": "2012-10-17"		 	 	 ,
    "Statement": [
        {
            "Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "unspecified",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        }
    ]
}
```

A primeira parte da política concede acesso ao perfil de inferência regional em sua solicitação Região da AWS. A segunda parte fornece acesso ao recurso Regional FM. A terceira parte concede acesso ao recurso FM global, que permite a capacidade de roteamento entre regiões.

Ao implementar essas políticas, certifique-se de que todos os três recursos Amazon Resource Names (ARNs) estejam incluídos em suas declarações do IAM:
+ O perfil de inferência regional ARN segue o padrão. `arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME` Isso é usado para dar acesso ao perfil de inferência global na fonte Região da AWS.
+ O FM regional usa`arn:aws:bedrock:REGION::foundation-model/MODEL-NAME`. Isso é usado para dar acesso ao FM na fonte Região da AWS.
+ O FM global exige`arn:aws:bedrock:::foundation-model/MODEL-NAME`. Isso é usado para dar acesso ao FM em diferentes países Regiões da AWS.

O ARN FM global não tem nenhuma conta Região da AWS ou conta especificada, o que é intencional e necessário para a funcionalidade entre regiões.

### Desativar a inferência global entre regiões
<a name="global-cris-iam-disable"></a>

Você pode escolher entre duas abordagens principais para implementar políticas de negação no CRIS global para funções específicas do IAM, cada uma com diferentes casos de uso e implicações:
+ **Remover uma política do IAM** — O primeiro método envolve a remoção de uma ou mais das três políticas necessárias do IAM das permissões do usuário. Como o CRIS global exige que todas as três políticas funcionem, a remoção de uma política resultará em acesso negado.
+ **Implemente uma política de negação** — A segunda abordagem é implementar uma política de negação explícita que vise especificamente os perfis globais de inferência do CRIS. Esse método fornece uma documentação clara de sua intenção de segurança e garante que, mesmo que alguém acidentalmente adicione as políticas de permissão necessárias posteriormente, a negação explícita tenha precedência. A política de negação deve usar uma `StringEquals` condição que corresponda ao padrão`"aws:RequestedRegion": "unspecified"`. Esse padrão visa especificamente perfis de inferência com o `global` prefixo.

Ao implementar políticas de negação, é crucial entender que o CRIS global muda a forma como o `aws:RequestedRegion` campo se comporta. As políticas de negação tradicionais Região da AWS que usam `StringEquals` condições com Região da AWS nomes específicos, como, não `"aws:RequestedRegion": "us-west-2"` funcionarão conforme o esperado com o CRIS global porque o serviço define esse campo como sendo o destino Região da AWS real. `global` No entanto, conforme mencionado anteriormente, `"aws:RequestedRegion": "unspecified"` resultará no efeito de negação.

## Requisitos da política de controle de serviços para inferência global entre regiões
<a name="global-cris-scp-setup"></a>

Para inferência global entre regiões, se a política de segurança da sua organização costuma SCPs bloquear regiões não utilizadas, você deve atualizar as condições de SCP específicas da região para permitir o acesso com. `"aws:RequestedRegion": "unspecified"` Essa condição é específica para a inferência global entre regiões do Amazon Bedrock e garante que as solicitações possam ser encaminhadas para todas as regiões comerciais suportadas. AWS 

O exemplo a seguir, o SCP bloqueia todas as chamadas de AWS API fora das regiões aprovadas, ao mesmo tempo que permite chamadas de inferência entre regiões globais do Amazon Bedrock que são usadas `"unspecified"` como região para roteamento global:

```
{
    "Version": "2012-10-17"		 	 	 ,
    "Statement": [
        {
            "Sid": "DenyAllOutsideApprovedRegions",
            "Effect": "Deny",
            "Action": "*",
            "Resource": "*",
            "Condition": {
                "StringNotEquals": {
                    "aws:RequestedRegion": [
                        "us-east-1",
                        "us-east-2",
                        "us-west-2",
                        "unspecified"
                    ]
                }
            }
        }
    ]
}
```

### Desativar a inferência global entre regiões
<a name="global-cris-disable"></a>

Organizações com requisitos de residência ou conformidade de dados devem avaliar se a inferência global entre regiões se encaixa em sua estrutura de conformidade, já que as solicitações podem ser processadas em outras regiões comerciais compatíveis AWS . Para desativar explicitamente a inferência global entre regiões, implemente a seguinte política de SCP:

```
{
    "Effect": "Deny",
    "Action": "bedrock:*",
    "Resource": "*",
    "Condition": {
        "StringEquals": {
            "aws:RequestedRegion": "unspecified"
        },
        "ArnLike": {
            "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*"
        }
    }
}
```

Esse SCP nega explicitamente a inferência global entre regiões porque `"aws:RequestedRegion"` é `"unspecified"` e a `"ArnLike"` condição têm como alvo perfis de inferência com o prefixo no ARN. `global`

### AWS Implementação da Control Tower
<a name="control-tower-scp"></a>

A edição manual SCPs gerenciada pelo AWS Control Tower é fortemente desencorajada, pois pode causar desvio. Em vez disso, use os mecanismos fornecidos pelo Control Tower para gerenciar essas exceções. Os princípios fundamentais envolvem estender os controles de negação de região existentes ou habilitar regiões e, em seguida, aplicar uma política de bloqueio condicional personalizada.

Para obter step-by-step orientações detalhadas sobre a implementação da inferência entre regiões com a Control Tower, consulte a postagem do blog Habilite a [inferência entre regiões do Amazon Bedrock](https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/) em ambientes com várias contas. Isso abrange estender a negação de região existente SCPs, habilitar regiões negadas com personalização e usar SCPs Customizations for AWS Control Tower (cFct) para implantar personalização como infraestrutura SCPs como código.

## Aumento do limite de solicitações para inferência global entre regiões
<a name="global-cris-quotas"></a>

Ao usar perfis globais de inferência do CRIS, você pode usar o CRIS global de mais de 20 fontes suportadas. Regiões da AWS Como esse será um limite global, as solicitações para visualizar, gerenciar ou aumentar as cotas para perfis globais de inferência entre regiões devem ser feitas por meio do console Service Quotas ou da Interface de AWS Linha de Comando (AWS CLI) na fonte solicitada. Região da AWS

Conclua as etapas a seguir para solicitar um aumento de limite:

1. Faça login no console Service Quotas em sua AWS conta.

1. No painel de navegação, escolha **Serviços da AWS **.

1. Na lista de serviços, encontre e escolha **Amazon Bedrock**.

1. Na lista de cotas do Amazon Bedrock, use o filtro de pesquisa para encontrar as cotas globais específicas do CRIS. Por exemplo:
   + Tokens de inferência do modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1

1. Selecione a cota que você deseja aumentar.

1. Escolha **Solicitar aumento no nível da conta**.

1. Insira o novo valor de cota desejado.

1. Escolha **Solicitar** para enviar sua solicitação.

Ao calcular o aumento de cota necessário, lembre-se de levar em consideração a taxa de burndown, definida como a taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de limitação. Os modelos a seguir têm uma **taxa de queima de 5x para tokens de saída (1 token de saída consome 5 tokens de suas cotas**):
+ Claude Opus 4 antrópico
+ Soneto Antrópico de Claude 4.5
+ Soneto antrópico de Claude 4
+ Soneto antrópico Claude 3.7

Para todos os outros modelos, a taxa de burndown é de **1:1** (um token de saída consome um token da sua cota). Para tokens de entrada, a proporção entre token e cota é de 1:1. O cálculo do número total de tokens por solicitação é o seguinte:

`Input token count + Cache write input tokens + (Output token count x Burndown rate)`

## Use a inferência global entre regiões
<a name="global-cris-usage"></a>

Para usar a inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic, os desenvolvedores devem concluir as seguintes etapas principais:
+ **Use o ID do perfil de inferência global** — Ao fazer chamadas de API para o Amazon Bedrock, especifique o ID do perfil de inferência Claude Sonnet 4.5 global da Anthropic (`global.anthropic.claude-sonnet-4-5-20250929-v1:0`) em vez de um ID de modelo específico. Região da AWS
+ **Configure as permissões do IAM** — conceda permissões apropriadas do IAM para acessar o perfil de inferência e FMs o destino Regiões da AWS potencial.

A inferência global entre regiões é compatível com:
+ Inferência de modelo sob demanda
+ Inferência em lote
+ Agentes
+ Avaliação de modelos
+ gerenciamento de prompts
+ Fluxos imediatos

**nota**  
É possível usar o perfil de inferência global para inferência de modelos sob demanda, inferência em lote, agentes, avaliação de modelo, Gerenciamento de Prompts e fluxos de prompts.

## Implemente a inferência global entre regiões
<a name="global-cris-implementation"></a>

A implementação da inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic é simples, exigindo apenas algumas alterações no código de seu aplicativo existente. Veja a seguir um exemplo de como atualizar seu código em Python:

```
import boto3
import json
bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')
model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0"  
response = bedrock.converse(
    messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}],
    modelId=model_id,
)

print("Response:", response['output']['message']['content'][0]['text'])
print("Token usage:", response['usage'])
print("Total tokens:", response['usage']['totalTokens'])
```

# Configurar um recurso de invocação de modelo usando perfis de inferência
<a name="inference-profiles"></a>

*Perfis de inferência* são um recurso no Amazon Bedrock que define um modelo e uma ou mais regiões para as quais o perfil de inferência pode encaminhar solicitações de invocação de modelo. Você pode usar perfis de inferência para as seguintes tarefas:
+ **Rastreie métricas de uso** — configure CloudWatch registros e envie solicitações de invocação de modelo com um perfil de inferência de aplicativo para coletar métricas de uso para invocação de modelo. Você pode examinar essas métricas ao visualizar informações sobre o perfil de inferência e usá-las para fundamentar suas decisões. Para obter mais informações sobre como configurar CloudWatch registros, consulte[Monitore a invocação do modelo usando CloudWatch Logs e Amazon S3](model-invocation-logging.md).
+ **Usar tags para monitorar custos**: anexe tags a um perfil de inferência de aplicação para rastrear os custos ao enviar solicitações de invocação de modelo sob demanda. Para obter mais informações sobre como usar tags para alocação de custos, consulte [Organização e controle de custos usando tags de alocação de AWS custos](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/cost-alloc-tags.html) no guia do AWS Billing usuário.
+ **Inferência entre regiões**: aumente o throughput usando um perfil de inferência que inclua várias Regiões da AWS. O perfil de inferência distribuirá as solicitações de invocação do modelo nessas regiões para aumentar o throughput e o desempenho. Para ter mais informações sobre inferência entre regiões, consulte [Aumentar o throughput com inferência entre regiões](cross-region-inference.md).

O Amazon Bedrock oferece os seguintes tipos de perfil de inferência:
+ **Perfis de inferência entre regiões (definidos pelo sistema)**: perfis de inferência predefinidos no Amazon Bedrock que incluem várias regiões para às quais as solicitações de um modelo podem ser encaminhadas.
+ **Perfis de inferência de aplicação**: perfis de inferência que um usuário cria para monitorar custos e usar modelos. É possível criar um perfil de inferência que roteie as solicitações de invocação de modelo para uma ou várias regiões:
  + Para criar um perfil de inferência que rastreie os custos e o uso de um modelo em uma região, especifique o modelo de base na região para a qual você deseja que o perfil de inferência encaminhe as solicitações.
  + Para criar um perfil de inferência que rastreie os custos e o uso de um modelo em várias regiões, especifique o perfil de inferência entre regiões (definido pelo sistema) que defina o modelo e as regiões para as quais você deseja que o perfil de inferência encaminhe as solicitações.

É possível usar perfis de inferência com os seguintes recursos para encaminhar solicitações a várias regiões e monitorar o uso e o custo das solicitações de invocação feitas com esses recursos:
+ [Inferência de modelo — Use um perfil de inferência ao executar a invocação do modelo escolhendo um perfil de inferência em um playground no console Amazon Bedrock ou especificando o ARN do perfil de inferência ao chamar as operações,, Converse e. [InvokeModel[InvokeModelWithResponseStream[ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) Para obter mais informações, consulte [Envie prompts e gere respostas com a inferência de modelo](inference.md).
+ Incorporação de vetores e geração de respostas da base de conhecimento: use um perfil de inferência ao gerar uma resposta depois de consultar uma base de conhecimento ou ao analisar informações não textuais em uma fonte de dados. Para obter mais informações, consulte [Testar a base de conhecimento com consultas e respostas](knowledge-base-test.md) e [Opções de análise para a fonte de dados](kb-advanced-parsing.md).
+ Avaliação de modelo: é possível enviar um perfil de inferência como um modelo para avaliação ao enviar um trabalho de avaliação de modelo. Para obter mais informações, consulte [Avaliar o desempenho dos recursos do Amazon Bedrock](evaluation.md).
+ Gerenciamento de prompts: é possível usar um perfil de inferência entre regiões ao gerar uma resposta a um prompt criado por você no Gerenciamento de Prompts. Para obter mais informações, consulte [Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock](prompt-management.md).
+ Fluxos: é possível usar um perfil de inferência entre regiões ao gerar uma resposta a um prompt definido em linha em um nó de prompt em um fluxo. Para obter mais informações, consulte [Crie um fluxo de trabalho end-to-end generativo de IA com o Amazon Bedrock Flows](flows.md).

O preço de uso de um perfil de inferência é calculado com base no preço do modelo na região na qual você chama o perfil de inferência. Para obter mais informações sobre preços, consulte [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing/).

Para obter mais detalhes sobre o throughput que um perfil de inferência entre regiões pode oferecer, consulte [Aumentar o throughput com inferência entre regiões](cross-region-inference.md).

**Topics**
+ [Regiões e modelos que compatíveis com perfis de inferência](inference-profiles-support.md)
+ [Pré-requisitos para perfis de inferência](inference-profiles-prereq.md)
+ [Criar um perfil de inferência de aplicação](inference-profiles-create.md)
+ [Modificar as tags para um perfil de inferência de aplicação](inference-profiles-modify.md)
+ [Visualizar informações sobre um perfil de inferência](inference-profiles-view.md)
+ [Use um perfil de inferência na invocação de modelos](inference-profiles-use.md)
+ [Excluir um perfil de inferência de aplicação](inference-profiles-delete.md)

# Regiões e modelos que compatíveis com perfis de inferência
<a name="inference-profiles-support"></a>

Para obter uma lista de códigos e endpoints de região compatíveis com o Amazon Bedrock, consulte [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bedrock_region). Este tópico descreve os perfis de inferência predefinidos que você pode usar e as regiões e modelos que permitem perfis de inferência de aplicação.

**Topics**
+ [Perfis de inferência entre regiões permitidos](#inference-profiles-support-system)
+ [Regiões e modelos compatíveis com perfis de inferência de aplicação](#inference-profiles-support-user)

## Perfis de inferência entre regiões permitidos
<a name="inference-profiles-support-system"></a>

É possível realizar [inferência entre regiões](cross-region-inference.md) com perfis de inferência entre regiões (definidos pelo sistema). A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, é possível distribuir o tráfego entre várias Regiões da AWS.

Os perfis de inferência entre regiões (definidos pelo sistema) são nomeados de acordo com o modelo com os quais são compatíveis e são definidos pelas regiões com as quais são compatíveis. Para entender como um perfil de inferência entre regiões lida com suas solicitações, analise as seguintes definições:
+ **Região de origem**: a região na qual você faz a solicitação de API que especifica o perfil de inferência.
+ **Região de destino**: uma região em que o serviço Amazon Bedrock pode encaminhar a solicitação de sua região de origem.

Quando você invoca um perfil de inferência entre regiões no Amazon Bedrock, sua solicitação se origina de uma região de origem e é automaticamente encaminhada a uma das regiões de destino definidas nesse perfil, otimizando o desempenho. As regiões de destino para perfis de inferência globais entre regiões incluem todas as regiões comerciais.

**nota**  
As regiões de destino em um perfil de inferência entre regiões podem incluir *regiões opcionais, que são regiões* que você deve habilitar explicitamente no Conta da AWS nível da organização. Para saber mais, consulte [Ativar ou desativar Regiões da AWS em sua conta](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-regions.html). Ao usar um perfil de inferência entre regiões, sua solicitação de inferência pode ser encaminhada a qualquer uma das regiões de destino no perfil, mesmo que você não tenha optado por essas regiões em sua conta.

As políticas de controle de serviços (SCPs) e AWS Identity and Access Management (IAM) trabalham juntas para controlar onde a inferência entre regiões é permitida. Usando SCPs, você pode controlar quais regiões o Amazon Bedrock pode usar para inferência e, usando políticas do IAM, você pode definir quais usuários ou funções têm permissão para executar inferência. Se alguma região de destino em um perfil de inferência entre regiões estiver bloqueada no seu SCPs, a solicitação falhará mesmo que outras regiões continuem permitidas. Para garantir uma operação eficiente com inferência entre regiões, você pode atualizar suas políticas SCPs e as do IAM para permitir todas as ações de inferência necessárias do Amazon Bedrock (por exemplo, `bedrock:InvokeModel*` ou`bedrock:CreateModelInvocationJob`) em todas as regiões de destino incluídas no perfil de inferência escolhido. Para saber mais, consulte [Enabling Amazon Bedrock cross-Region inference in multi-account environments](https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/).

**nota**  
Alguns perfis de inferência são roteados para diferentes regiões de destino, dependendo da região de origem da qual você os chama. Por exemplo, se você chamar o `us.anthropic.claude-3-haiku-20240307-v1:0` do Leste dos EUA (Ohio), ele poderá encaminhar solicitações à `us-east-1`, `us-east-2` ou `us-west-2`, mas, se você chamá-lo do Oeste dos EUA (Oregon), ele poderá encaminhar solicitações somente à `us-east-1` e `us-west-2`.

Para verificar as regiões de origem e de destino de um perfil de inferência, você pode realizar um dos seguintes procedimentos:
+ Expanda a seção correspondente na [lista de perfis de inferência entre regiões compatíveis](#inference-profiles-support).
+ Envie uma [GetInferenceProfile](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetInferenceProfile.html)solicitação com um [endpoint do plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) de uma região de origem e especifique o Amazon Resource Name (ARN) ou o ID do perfil de inferência no campo. `inferenceProfileIdentifier` O `models` campo na resposta é mapeado para uma lista de modelos ARNs, na qual você pode identificar cada região de destino.

**nota**  
O perfil global de inferência entre regiões para um modelo específico pode mudar com o tempo, à medida que AWS adiciona mais regiões comerciais nas quais suas solicitações podem ser processadas. No entanto, se um perfil de inferência estiver vinculado a uma região geográfica (como EUA, UE ou APAC), sua lista de regiões de destino nunca será alterada. AWS pode criar novos perfis de inferência que incorporem novas regiões. Você pode atualizar seus sistemas para usar esses perfis de inferência alterando a IDs configuração para os novos.  
O perfil global de inferência entre regiões só é compatível com o modelo Claude Sonnet 4 da Anthropic das regiões a seguir: Oeste dos EUA (Oregon), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Europa (Irlanda) e Ásia-Pacífico (Tóquio). As regiões de destino para o perfil de inferência global incluem todas as Regiões da AWS comerciais.

Expanda uma das seções a seguir para ver informações sobre determinado perfil de inferência entre regiões, as regiões de origem das quais ele pode ser chamado e as regiões de destino para as quais ele pode encaminhar solicitações.

### GLOBAL Amazon Nova 2 Lite
<a name="cross-region-ip-global.amazon.nova-2-lite-v1:0"></a>

Para chamar o perfil de inferência GLOBAL do Amazon Nova 2 Lite, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.amazon.nova-2-lite-v1:0
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### CLAUDE OPUS ANTRÓPICO GLOBAL 4.5
<a name="cross-region-ip-global.anthropic.claude-opus-4-5-20251101-v1:0"></a>

Para chamar o perfil de inferência GLOBAL Anthropic Claude Opus 4.5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-opus-4-5-20251101-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### GLOBAL TwelveLabs Pegasus v1.2
<a name="cross-region-ip-global.twelvelabs.pegasus-1-2-v1:0"></a>

Para chamar o perfil de inferência GLOBAL TwelveLabs Pegasus v1.2, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.twelvelabs.pegasus-1-2-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-pegasus.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Global Anthropic Claude Haiku 4.5
<a name="cross-region-ip-global.anthropic.claude-haiku-4-5-20251001-v1:0"></a>

Para chamar o perfil de inferência Global Anthropic Claude Haiku 4.5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-haiku-4-5-20251001-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Antrópico global Claude Opus 4.6
<a name="cross-region-ip-global.anthropic.claude-opus-4-6-v1"></a>

Para chamar o perfil de inferência Global Anthropic Claude Opus 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-opus-4-6-v1
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Soneto Antrópico Global de Claude 4.6
<a name="cross-region-ip-global.anthropic.claude-sonnet-4-6"></a>

Para chamar o perfil de inferência do Global Anthropic Claude Sonnet 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-sonnet-4-6
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Global Claude Sonnet 4
<a name="cross-region-ip-global.anthropic.claude-sonnet-4-20250514-v1:0"></a>

Para chamar o perfil de inferência Global Claude Sonnet 4, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-sonnet-4-20250514-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Global Claude Sonnet 4.5
<a name="cross-region-ip-global.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência Global Claude Sonnet 4.5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| af-south-1 |  Commercial AWS Regions af-south-1  | 
| ap-east-2 |  Commercial AWS Regions ap-east-2  | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ap-southeast-5 |  Commercial AWS Regions ap-southeast-5  | 
| ap-southeast-7 |  Commercial AWS Regions ap-southeast-7  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| ca-west-1 |  Commercial AWS Regions ca-west-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| il-central-1 |  Commercial AWS Regions il-central-1  | 
| me-central-1 |  Commercial AWS Regions me-central-1  | 
| me-south-1 |  Commercial AWS Regions me-south-1  | 
| mx-central-1 |  Commercial AWS Regions mx-central-1  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Global Cohere Embed v4
<a name="cross-region-ip-global.cohere.embed-v4:0"></a>

Para chamar o perfil de inferência Global Cohere Embed v4, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
global.cohere.embed-v4:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-embed.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  Commercial AWS Regions ap-northeast-1  | 
| ap-northeast-2 |  Commercial AWS Regions ap-northeast-2  | 
| ap-northeast-3 |  Commercial AWS Regions ap-northeast-3  | 
| ap-south-1 |  Commercial AWS Regions ap-south-1  | 
| ap-south-2 |  Commercial AWS Regions ap-south-2  | 
| ap-southeast-1 |  Commercial AWS Regions ap-southeast-1  | 
| ap-southeast-2 |  Commercial AWS Regions ap-southeast-2  | 
| ap-southeast-3 |  Commercial AWS Regions ap-southeast-3  | 
| ap-southeast-4 |  Commercial AWS Regions ap-southeast-4  | 
| ca-central-1 |  Commercial AWS Regions ca-central-1  | 
| eu-central-1 |  Commercial AWS Regions eu-central-1  | 
| eu-central-2 |  Commercial AWS Regions eu-central-2  | 
| eu-north-1 |  Commercial AWS Regions eu-north-1  | 
| eu-south-1 |  Commercial AWS Regions eu-south-1  | 
| eu-south-2 |  Commercial AWS Regions eu-south-2  | 
| eu-west-1 |  Commercial AWS Regions eu-west-1  | 
| eu-west-2 |  Commercial AWS Regions eu-west-2  | 
| eu-west-3 |  Commercial AWS Regions eu-west-3  | 
| sa-east-1 |  Commercial AWS Regions sa-east-1  | 
| us-east-1 |  Commercial AWS Regions us-east-1  | 
| us-east-2 |  Commercial AWS Regions us-east-2  | 
| us-west-1 |  Commercial AWS Regions us-west-1  | 
| us-west-2 |  Commercial AWS Regions us-west-2  | 

### Amazon Nova 2 Lite dos EUA
<a name="cross-region-ip-us.amazon.nova-2-lite-v1:0"></a>

Para chamar o perfil de inferência Amazon Nova 2 Lite dos EUA, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.amazon.nova-2-lite-v1:0
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| ca-west-1 |  ca-west-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Anthropic Claude 3 Haiku
<a name="cross-region-ip-us.anthropic.claude-3-haiku-20240307-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3 Haiku, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-haiku-20240307-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Anthropic Claude 3 Opus
<a name="cross-region-ip-us.anthropic.claude-3-opus-20240229-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3 Opus, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-opus-20240229-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Anthropic Claude 3 Sonnet
<a name="cross-region-ip-us.anthropic.claude-3-sonnet-20240229-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-sonnet-20240229-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Anthropic Claude 3.5 Haiku
<a name="cross-region-ip-us.anthropic.claude-3-5-haiku-20241022-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3.5 Haiku, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-5-haiku-20241022-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Anthropic Claude 3.5 Sonnet
<a name="cross-region-ip-us.anthropic.claude-3-5-sonnet-20240620-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3.5 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-5-sonnet-20240620-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Anthropic Claude 3.5 Sonnet v2
<a name="cross-region-ip-us.anthropic.claude-3-5-sonnet-20241022-v2:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3.5 Sonnet v2, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-5-sonnet-20241022-v2:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Anthropic Claude 3.7 Sonnet
<a name="cross-region-ip-us.anthropic.claude-3-7-sonnet-20250219-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude 3.7 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-3-7-sonnet-20250219-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Anthropic Claude Haiku 4.5
<a name="cross-region-ip-us.anthropic.claude-haiku-4-5-20251001-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude Haiku 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-haiku-4-5-20251001-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Claude Opus 4.5 antrópico dos EUA
<a name="cross-region-ip-us.anthropic.claude-opus-4-5-20251101-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude Opus 4.5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-opus-4-5-20251101-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Antrópico americano Claude Opus 4.6
<a name="cross-region-ip-us.anthropic.claude-opus-4-6-v1"></a>

Para chamar o perfil de inferência US Anthropic Claude Opus 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-opus-4-6-v1
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| ca-west-1 |  ca-west-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Anthropic Claude Sonnet 4.5
<a name="cross-region-ip-us.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência US Anthropic Claude Sonnet 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Soneto Antrópico Claude 4.6 dos EUA
<a name="cross-region-ip-us.anthropic.claude-sonnet-4-6"></a>

Para chamar o perfil de inferência US Anthropic Claude Sonnet 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-sonnet-4-6
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 us-east-1 us-east-2 us-west-2  | 
| ca-west-1 |  ca-west-1 us-east-1 us-east-2 us-west-2  | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Claude Opus 4
<a name="cross-region-ip-us.anthropic.claude-opus-4-20250514-v1:0"></a>

Para chamar o perfil de inferência US Claude Opus 4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-opus-4-20250514-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Claude Opus 4.1
<a name="cross-region-ip-us.anthropic.claude-opus-4-1-20250805-v1:0"></a>

Para chamar o perfil de inferência US Claude Opus 4.1, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-opus-4-1-20250805-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Claude Sonnet 4
<a name="cross-region-ip-us.anthropic.claude-sonnet-4-20250514-v1:0"></a>

Para chamar o perfil de inferência US Claude Sonnet 4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.anthropic.claude-sonnet-4-20250514-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Cohere Embed v4
<a name="cross-region-ip-us.cohere.embed-v4:0"></a>

Para chamar o perfil de inferência US Cohere Embed v4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.cohere.embed-v4:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-embed.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### EUA DeepSeek -R1
<a name="cross-region-ip-us.deepseek.r1-v1:0"></a>

Para chamar o perfil de inferência US DeepSeek -R1, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.deepseek.r1-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://www.deepseek.com/).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Llama 4 Maverick 17B Instruct
<a name="cross-region-ip-us.meta.llama4-maverick-17b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Llama 4 Maverick 17B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama4-maverick-17b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Llama 4 Scout 17B Instruct
<a name="cross-region-ip-us.meta.llama4-scout-17b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Llama 4 Scout 17B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama4-scout-17b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Meta Llama 3.1 70B Instruct
<a name="cross-region-ip-us.meta.llama3-1-70b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.1 70B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-1-70b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Meta Llama 3.1 8B Instruct
<a name="cross-region-ip-us.meta.llama3-1-8b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.1 8B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-1-8b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Meta Llama 3.1 Instruct 405B
<a name="cross-region-ip-us.meta.llama3-1-405b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.1 Instruct 405B, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-1-405b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 

### US Meta Llama 3.2 11B Instruct
<a name="cross-region-ip-us.meta.llama3-2-11b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.2 11B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-2-11b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Meta Llama 3.2 1B Instruct
<a name="cross-region-ip-us.meta.llama3-2-1b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.2 1B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-2-1b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Meta Llama 3.2 3B Instruct
<a name="cross-region-ip-us.meta.llama3-2-3b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.2 3B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-2-3b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Meta Llama 3.2 90B Instruct
<a name="cross-region-ip-us.meta.llama3-2-90b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.2 90B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-2-90b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-west-2  | 

### US Meta Llama 3.3 70B Instruct
<a name="cross-region-ip-us.meta.llama3-3-70b-instruct-v1:0"></a>

Para chamar o perfil de inferência US Meta Llama 3.3 70B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.meta.llama3-3-70b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Mistral Pixtral Large 25.02
<a name="cross-region-ip-us.mistral.pixtral-large-2502-v1:0"></a>

Para chamar o perfil de inferência US Mistral Pixtral Large 25.02, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.mistral.pixtral-large-2502-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-mistral.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Nova Lite
<a name="cross-region-ip-us.amazon.nova-lite-v1:0"></a>

Para chamar o perfil de inferência US Nova Lite, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.amazon.nova-lite-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Nova Micro
<a name="cross-region-ip-us.amazon.nova-micro-v1:0"></a>

Para chamar o perfil de inferência US Nova Micro, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.amazon.nova-micro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Nova Premier
<a name="cross-region-ip-us.amazon.nova-premier-v1:0"></a>

Para chamar o perfil de inferência US Nova Premier, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.amazon.nova-premier-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Nova Pro
<a name="cross-region-ip-us.amazon.nova-pro-v1:0"></a>

Para chamar o perfil de inferência US Nova Pro, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.amazon.nova-pro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Pegasus v1.2
<a name="cross-region-ip-us.twelvelabs.pegasus-1-2-v1:0"></a>

Para chamar o perfil de inferência US Pegasus v1.2, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.twelvelabs.pegasus-1-2-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-pegasus.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Imagem estável dos EUA, conservadora, sofisticada
<a name="cross-region-ip-us.stability.stable-conservative-upscale-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Conservative Upscale, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.stability.stable-conservative-upscale-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](stable-image-services.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Control Sketch
<a name="cross-region-ip-us.stability.stable-image-control-sketch-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Control Sketch, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-control-sketch-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Control Structure
<a name="cross-region-ip-us.stability.stable-image-control-structure-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Control Structure, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-control-structure-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Imagem estável dos EUA: Creative Upscale
<a name="cross-region-ip-us.stability.stable-creative-upscale-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Creative Upscale, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.stability.stable-creative-upscale-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](stable-image-services.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Erase Object
<a name="cross-region-ip-us.stability.stable-image-erase-object-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Erase Object, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-erase-object-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Imagem estável dos EUA, rápida e sofisticada
<a name="cross-region-ip-us.stability.stable-fast-upscale-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Fast Upscale, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.stability.stable-fast-upscale-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](stable-image-services.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Inpaint
<a name="cross-region-ip-us.stability.stable-image-inpaint-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Inpaint, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-inpaint-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Pintura de imagem estável dos EUA
<a name="cross-region-ip-us.stability.stable-outpaint-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Outpaint, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.stability.stable-outpaint-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](stable-image-services.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Remove Background
<a name="cross-region-ip-us.stability.stable-image-remove-background-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Remove Background, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-remove-background-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Search and Recolor
<a name="cross-region-ip-us.stability.stable-image-search-recolor-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Search and Recolor, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-search-recolor-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Search and Replace
<a name="cross-region-ip-us.stability.stable-image-search-replace-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Search and Replace, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-search-replace-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Style Guide
<a name="cross-region-ip-us.stability.stable-image-style-guide-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Style Guide, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-image-style-guide-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US Stable Image Style Transfer
<a name="cross-region-ip-us.stability.stable-style-transfer-v1:0"></a>

Para chamar o perfil de inferência US Stable Image Style Transfer, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us.stability.stable-style-transfer-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-stability-diffusion.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US TwelveLabs Marengo Embed 3.0
<a name="cross-region-ip-us.twelvelabs.marengo-embed-3-0-v1:0"></a>

Para chamar o perfil de inferência US TwelveLabs Marengo Embed 3.0, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.twelvelabs.marengo-embed-3-0-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-marengo.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 

### US TwelveLabs Marengo Embed v2.7
<a name="cross-region-ip-us.twelvelabs.marengo-embed-2-7-v1:0"></a>

Para chamar o perfil de inferência US TwelveLabs Marengo Embed v2.7, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.twelvelabs.marengo-embed-2-7-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-marengo.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 

### Escritora norte-americana Palmyra X4
<a name="cross-region-ip-us.writer.palmyra-x4-v1:0"></a>

Para chamar o perfil de inferência Palmyra X4 do US Writer, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.writer.palmyra-x4-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-writer-palmyra.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### Escritora norte-americana Palmyra X5
<a name="cross-region-ip-us.writer.palmyra-x5-v1:0"></a>

Para chamar o perfil de inferência do US Writer Palmyra X5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us.writer.palmyra-x5-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-writer-palmyra.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-east-1 |  us-east-1 us-east-2 us-west-2  | 
| us-east-2 |  us-east-1 us-east-2 us-west-2  | 
| us-west-1 |  us-east-1 us-east-2 us-west-1 us-west-2  | 
| us-west-2 |  us-east-1 us-east-2 us-west-2  | 

### US-GOV Claude 3 Haiku
<a name="cross-region-ip-us-gov.anthropic.claude-3-haiku-20240307-v1:0"></a>

Para chamar o perfil de inferência US-GOV Claude 3 Haiku, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us-gov.anthropic.claude-3-haiku-20240307-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-gov-east-1 |  us-gov-east-1 us-gov-west-1  | 

### US-GOV Claude 3.5 Sonnet
<a name="cross-region-ip-us-gov.anthropic.claude-3-5-sonnet-20240620-v1:0"></a>

Para chamar o perfil de inferência US-GOV Claude 3.5 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us-gov.anthropic.claude-3-5-sonnet-20240620-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-gov-east-1 |  us-gov-east-1 us-gov-west-1  | 

### US-GOV Claude 3.7 Sonnet
<a name="cross-region-ip-us-gov.anthropic.claude-3-7-sonnet-20250219-v1:0"></a>

Para chamar o perfil de inferência US-GOV Claude 3.7 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
us-gov.anthropic.claude-3-7-sonnet-20250219-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-gov-east-1 |  us-gov-east-1 us-gov-west-1  | 

### Claude Sonnet 4.5, governador dos EUA
<a name="cross-region-ip-us-gov.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência Claude Sonnet 4.5 do US-GOV, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
us-gov.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| us-gov-east-1 |  us-gov-west-1  | 
| us-gov-west-1 |  us-gov-west-1  | 

### APAC Anthropic Claude 3 Haiku
<a name="cross-region-ip-apac.anthropic.claude-3-haiku-20240307-v1:0"></a>

Para chamar o perfil de inferência APAC Anthropic Claude 3 Haiku, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-3-haiku-20240307-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 

### APAC Anthropic Claude 3 Sonnet
<a name="cross-region-ip-apac.anthropic.claude-3-sonnet-20240229-v1:0"></a>

Para chamar o perfil de inferência APAC Anthropic Claude 3 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-3-sonnet-20240229-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 

### APAC Anthropic Claude 3.5 Sonnet
<a name="cross-region-ip-apac.anthropic.claude-3-5-sonnet-20240620-v1:0"></a>

Para chamar o perfil de inferência APAC Anthropic Claude 3.5 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-3-5-sonnet-20240620-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-1 ap-southeast-2  | 

### APAC Anthropic Claude 3.5 Sonnet v2
<a name="cross-region-ip-apac.anthropic.claude-3-5-sonnet-20241022-v2:0"></a>

Para chamar o perfil de inferência APAC Anthropic Claude 3.5 Sonnet v2, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-3-5-sonnet-20241022-v2:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 

### APAC Anthropic Claude 3.7 Sonnet
<a name="cross-region-ip-apac.anthropic.claude-3-7-sonnet-20250219-v1:0"></a>

Para chamar o perfil de inferência APAC Anthropic Claude 3.7 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-3-7-sonnet-20250219-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-south-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2  | 

### APAC Claude Sonnet 4
<a name="cross-region-ip-apac.anthropic.claude-sonnet-4-20250514-v1:0"></a>

Para chamar o perfil de inferência APAC Claude Sonnet 4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.anthropic.claude-sonnet-4-20250514-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-east-2 |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-south-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-southeast-4 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-5 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5  | 
| ap-southeast-7 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-7  | 
| me-central-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 me-central-1  | 

### APAC Nova Lite
<a name="cross-region-ip-apac.amazon.nova-lite-v1:0"></a>

Para chamar o perfil de inferência APAC Nova Lite, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.amazon.nova-lite-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-east-2 |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-southeast-4 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-5 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5  | 
| ap-southeast-7 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-7  | 
| me-central-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 me-central-1  | 

### APAC Nova Micro
<a name="cross-region-ip-apac.amazon.nova-micro-v1:0"></a>

Para chamar o perfil de inferência APAC Nova Micro, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.amazon.nova-micro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-east-2 |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-southeast-5 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5  | 
| ap-southeast-7 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-7  | 
| me-central-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 me-central-1  | 

### APAC Nova Pro
<a name="cross-region-ip-apac.amazon.nova-pro-v1:0"></a>

Para chamar o perfil de inferência APAC Nova Pro, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.amazon.nova-pro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-east-2 |  ap-east-2 ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-south-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-southeast-1 ap-southeast-2  | 
| ap-southeast-3 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 
| ap-southeast-4 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 
| ap-southeast-5 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-5  | 
| ap-southeast-7 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 ap-southeast-7  | 
| me-central-1 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4 me-central-1  | 

### APAC Pegasus v1.2
<a name="cross-region-ip-apac.twelvelabs.pegasus-1-2-v1:0"></a>

Para chamar o perfil de inferência APAC Pegasus v1.2, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
apac.twelvelabs.pegasus-1-2-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-pegasus.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-4  | 

### APAC TwelveLabs Marengo Embed v2.7
<a name="cross-region-ip-apac.twelvelabs.marengo-embed-2-7-v1:0"></a>

Para chamar o perfil de inferência APAC TwelveLabs Marengo Embed v2.7, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
apac.twelvelabs.marengo-embed-2-7-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-marengo.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-2 |  ap-northeast-1 ap-northeast-2 ap-northeast-3 ap-south-1 ap-south-2 ap-southeast-1 ap-southeast-2 ap-southeast-3 ap-southeast-4  | 

### AU AU Anthropic Claude Sonnet 4.5
<a name="cross-region-ip-au.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência AU AU Anthropic Claude Sonnet 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
au.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-southeast-2 |  ap-southeast-2 ap-southeast-4  | 
| ap-southeast-4 |  ap-southeast-2 ap-southeast-4  | 

### AU Anthropic Claude Haiku 4.5
<a name="cross-region-ip-au.anthropic.claude-haiku-4-5-20251001-v1:0"></a>

Para chamar o perfil de inferência AU Anthropic Claude Haiku 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
au.anthropic.claude-haiku-4-5-20251001-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-southeast-2 |  ap-southeast-2 ap-southeast-4  | 
| ap-southeast-4 |  ap-southeast-2 ap-southeast-4  | 

### AU Anthropic Claude Opus 4.6
<a name="cross-region-ip-au.anthropic.claude-opus-4-6-v1"></a>

Para chamar o perfil de inferência AU Anthropic Claude Opus 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
au.anthropic.claude-opus-4-6-v1
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-southeast-2 |  ap-southeast-2 ap-southeast-4  | 
| ap-southeast-4 |  ap-southeast-2 ap-southeast-4  | 

### Soneto Antrópico de Claude 4.6 da AU
<a name="cross-region-ip-au.anthropic.claude-sonnet-4-6"></a>

Para chamar o perfil de inferência AU Anthropic Claude Sonnet 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
au.anthropic.claude-sonnet-4-6
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-southeast-2 |  ap-southeast-2 ap-southeast-4  | 
| ap-southeast-4 |  ap-southeast-2 ap-southeast-4  | 

### CA Nova Lite
<a name="cross-region-ip-ca.amazon.nova-lite-v1:0"></a>

Para chamar o perfil de inferência CA Nova Lite, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
ca.amazon.nova-lite-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ca-central-1 |  ca-central-1 ca-west-1  | 
| ca-west-1 |  ca-central-1 ca-west-1  | 

### Amazon Nova 2 Lite da UE
<a name="cross-region-ip-eu.amazon.nova-2-lite-v1:0"></a>

Para chamar o perfil de inferência Amazon Nova 2 Lite da UE, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.amazon.nova-2-lite-v1:0
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### EU Anthropic Claude 3 Haiku
<a name="cross-region-ip-eu.anthropic.claude-3-haiku-20240307-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude 3 Haiku, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-3-haiku-20240307-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-west-1 eu-west-3  | 

### EU Anthropic Claude 3 Sonnet
<a name="cross-region-ip-eu.anthropic.claude-3-sonnet-20240229-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude 3 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-3-sonnet-20240229-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-west-1 eu-west-3  | 

### EU Anthropic Claude 3.5 Sonnet
<a name="cross-region-ip-eu.anthropic.claude-3-5-sonnet-20240620-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude 3.5 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-3-5-sonnet-20240620-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-west-1 eu-west-3  | 

### EU Anthropic Claude 3.7 Sonnet
<a name="cross-region-ip-eu.anthropic.claude-3-7-sonnet-20250219-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude 3.7 Sonnet, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-3-7-sonnet-20250219-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 

### EU Anthropic Claude Haiku 4.5
<a name="cross-region-ip-eu.anthropic.claude-haiku-4-5-20251001-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude Haiku 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-haiku-4-5-20251001-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### Claude Opus 4.5 antrópico da UE
<a name="cross-region-ip-eu.anthropic.claude-opus-4-5-20251101-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude Opus 4.5, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-opus-4-5-20251101-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### Claude Opus 4.6 antrópico da UE
<a name="cross-region-ip-eu.anthropic.claude-opus-4-6-v1"></a>

Para chamar o perfil de inferência EU Anthropic Claude Opus 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-opus-4-6-v1
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### EU Anthropic Claude Sonnet 4.5
<a name="cross-region-ip-eu.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência EU Anthropic Claude Sonnet 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### Soneto Antrópico de Claude 4.6 da UE
<a name="cross-region-ip-eu.anthropic.claude-sonnet-4-6"></a>

Para chamar o perfil de inferência EU Anthropic Claude Sonnet 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-sonnet-4-6
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### EU Claude Sonnet 4
<a name="cross-region-ip-eu.anthropic.claude-sonnet-4-20250514-v1:0"></a>

Para chamar o perfil de inferência EU Claude Sonnet 4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.anthropic.claude-sonnet-4-20250514-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| il-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3 il-central-1  | 

### EU Cohere Embed v4
<a name="cross-region-ip-eu.cohere.embed-v4:0"></a>

Para chamar o perfil de inferência EU Cohere Embed v4, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.cohere.embed-v4:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-embed.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### EU Meta Llama 3.2 1B Instruct
<a name="cross-region-ip-eu.meta.llama3-2-1b-instruct-v1:0"></a>

Para chamar o perfil de inferência EU Meta Llama 3.2 1B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.meta.llama3-2-1b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-west-1 eu-west-3  | 

### EU Meta Llama 3.2 3B Instruct
<a name="cross-region-ip-eu.meta.llama3-2-3b-instruct-v1:0"></a>

Para chamar o perfil de inferência EU Meta Llama 3.2 3B Instruct, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.meta.llama3-2-3b-instruct-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-meta.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-west-1 eu-west-3  | 

### EU Mistral Pixtral Large 25.02
<a name="cross-region-ip-eu.mistral.pixtral-large-2502-v1:0"></a>

Para chamar o perfil de inferência EU Mistral Pixtral Large 25.02, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.mistral.pixtral-large-2502-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-mistral.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 

### EU Nova Lite
<a name="cross-region-ip-eu.amazon.nova-lite-v1:0"></a>

Para chamar o perfil de inferência EU Nova Lite, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.amazon.nova-lite-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| il-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3 il-central-1  | 

### EU Nova Micro
<a name="cross-region-ip-eu.amazon.nova-micro-v1:0"></a>

Para chamar o perfil de inferência EU Nova Micro, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.amazon.nova-micro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| il-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3 il-central-1  | 

### EU Nova Pro
<a name="cross-region-ip-eu.amazon.nova-pro-v1:0"></a>

Para chamar o perfil de inferência EU Nova Pro, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
eu.amazon.nova-pro-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](https://docs.aws.amazon.com/nova/latest/userguide/getting-started-schema.html).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-west-1 eu-west-3  | 
| il-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-west-1 eu-west-3 il-central-1  | 

### EU TwelveLabs Marengo Embed 3.0
<a name="cross-region-ip-eu.twelvelabs.marengo-embed-3-0-v1:0"></a>

Para chamar o perfil de inferência EU TwelveLabs Marengo Embed 3.0, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.twelvelabs.marengo-embed-3-0-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-marengo.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### EU TwelveLabs Marengo Embed v2.7
<a name="cross-region-ip-eu.twelvelabs.marengo-embed-2-7-v1:0"></a>

Para chamar o perfil de inferência EU TwelveLabs Marengo Embed v2.7, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.twelvelabs.marengo-embed-2-7-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-marengo.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### UE TwelveLabs Pegasus v1.2
<a name="cross-region-ip-eu.twelvelabs.pegasus-1-2-v1:0"></a>

Para chamar o perfil de inferência EU TwelveLabs Pegasus v1.2, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
eu.twelvelabs.pegasus-1-2-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-pegasus.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| eu-central-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-central-2 |  eu-central-1 eu-central-2 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-north-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-south-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-1 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 
| eu-west-2 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-2 eu-west-3  | 
| eu-west-3 |  eu-central-1 eu-north-1 eu-south-1 eu-south-2 eu-west-1 eu-west-3  | 

### Japão Amazon Nova 2 Lite
<a name="cross-region-ip-jp.amazon.nova-2-lite-v1:0"></a>

Para chamar o perfil de inferência JP Amazon Nova 2 Lite, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
jp.amazon.nova-2-lite-v1:0
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-3  | 

### JP Anthropic Claude Haiku 4.5
<a name="cross-region-ip-jp.anthropic.claude-haiku-4-5-20251001-v1:0"></a>

Para chamar o perfil de inferência JP Anthropic Claude Haiku 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
jp.anthropic.claude-haiku-4-5-20251001-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-3  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-3  | 

### JP Anthropic Claude Sonnet 4.5
<a name="cross-region-ip-jp.anthropic.claude-sonnet-4-5-20250929-v1:0"></a>

Para chamar o perfil de inferência JP Anthropic Claude Sonnet 4.5, especifique o seguinte ID de perfil de inferência em uma das regiões de origem:

```
jp.anthropic.claude-sonnet-4-5-20250929-v1:0
```

Para obter mais informações sobre parâmetros de inferência para esse modelo, consulte [Link](model-parameters-claude.md).

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-3  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-3  | 

### Soneto JP Anthropic Claude 4.6
<a name="cross-region-ip-jp.anthropic.claude-sonnet-4-6"></a>

Para chamar o perfil de inferência do JP Anthropic Claude Sonnet 4.6, especifique o seguinte ID do perfil de inferência em uma das regiões de origem:

```
jp.anthropic.claude-sonnet-4-6
```

A tabela a seguir mostra as regiões de origem das quais você pode chamar o perfil de inferência e as regiões de destino para as quais as solicitações podem ser roteadas:


| Regiões de origem | Regiões de destino | 
| --- | --- | 
| ap-northeast-1 |  ap-northeast-1 ap-northeast-3  | 
| ap-northeast-3 |  ap-northeast-1 ap-northeast-3  | 

## Regiões e modelos compatíveis com perfis de inferência de aplicação
<a name="inference-profiles-support-user"></a>

Perfis de inferência de aplicativos podem ser criados para todos os modelos da seguinte Regiões da AWS forma:
+ ap-northeast-1
+ ap-northeast-2
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ca-central-1
+ eu-central-1
+ eu-west-1
+ eu-west-2
+ eu-west-3
+ sa-east-1
+ us-east-1
+ us-east-2
+ us-gov-east-1
+ us-west-2

Os perfis de inferência de aplicação podem ser criados com base em todos os modelos e perfis de inferência permitidos no Amazon Bedrock. Para ter mais informações sobre os modelos que podem ser usados no Amazon Bedrock, consulte [Modelos de base compatíveis no Amazon Bedrock](models-supported.md).

# Pré-requisitos para perfis de inferência
<a name="inference-profiles-prereq"></a>

Antes de usar um perfil de inferência, verifique se você atendeu aos seguintes pré-requisitos:
+ Seu perfil tem acesso às ações de API do perfil de inferência. Se sua função tiver a política [AmazonBedrockFullAccess](security-iam-awsmanpol.md#security-iam-awsmanpol-AmazonBedrockFullAccess)AWSgerenciada anexada, você poderá pular esta etapa. Caso contrário, faça o seguinte:

  1. Siga as etapas em [Criar políticas do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) e crie a política a seguir, que permite que um perfil execute ações relacionadas ao perfil de inferência e execute inferência do modelo usando todos os modelos de base e perfis de inferência.

------
#### [ JSON ]

****  

     ```
     {
         "Version":"2012-10-17",		 	 	 
         "Statement": [
             {
                 "Effect": "Allow",
                 "Action": [
                     "bedrock:InvokeModel*",
                     "bedrock:CreateInferenceProfile"
                 ],
                 "Resource": [
                     "arn:aws:bedrock:*::foundation-model/*",
                     "arn:aws:bedrock:*:*:inference-profile/*",
                     "arn:aws:bedrock:*:*:application-inference-profile/*"
                 ]
             },
             {
                 "Effect": "Allow",
                 "Action": [
                     "bedrock:GetInferenceProfile",
                     "bedrock:ListInferenceProfiles",
                     "bedrock:DeleteInferenceProfile",
                     "bedrock:TagResource",
                     "bedrock:UntagResource",
                     "bedrock:ListTagsForResource"
                 ],
                 "Resource": [
                     "arn:aws:bedrock:*:*:inference-profile/*",
                     "arn:aws:bedrock:*:*:application-inference-profile/*"
                 ]
             }
         ]
     }
     ```

------

     (Opcional) É possível restringir o acesso do perfil das seguintes maneiras:
     + Para restringir as ações de API que o perfil pode executar, modifique a lista no campo `Action` para que contenha somente as [operações de API](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-actions-as-permissions) às quais deseja permitir acesso.
     + Para restringir o acesso do perfil a perfis de inferência específicos, modifique a lista de `Resource` para que contenha somente os [perfis de inferência](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-resources-for-iam-policies) e os modelos de base aos quais deseja permitir acesso. Os perfis de inferência definidos pelo sistema começam com `inference-profile` e os perfis de inferência de aplicação começam com `application-inference-profile`.
**Importante**  
Ao especificar um perfil de inferência no campo `Resource` na primeira declaração, você deve especificar também o modelo de base em cada região associada a ele.
     + Para restringir o acesso do usuário de forma que ele possa invocar um modelo de base somente por meio de um perfil de inferência, adicione um campo `Condition` e use a [chave de condição](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-policy-keys) `aws:InferenceProfileArn`. Especifique o perfil de inferência no qual deseja filtrar o acesso. Essa condição pode ser incluída em uma declaração que abranja os recursos do `foundation-model`.
     + Por exemplo, você pode anexar a política a seguir a uma função para permitir que ela invoque o Anthropic Claude 3 Haiku modelo somente por meio do perfil de Anthropic Claude 3 Haiku inferência dos EUA na conta em *111122223333* us-west-2:

------
#### [ JSON ]

****  

       ```
       {
           "Version":"2012-10-17",		 	 	 
           "Statement": [
               {
                   "Effect": "Allow",
                   "Action": [
                       "bedrock:InvokeModel*"
                   ],
                   "Resource": [
                       "arn:aws:bedrock:us-west-2:111122223333:inference-profile/us.anthropic.claude-3-haiku-20240307-v1:0"
                   ]
               },
               {
                   "Effect": "Allow",
                   "Action": [
                       "bedrock:InvokeModel*"
                   ],
                   "Resource": [
                       "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0",
                       "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-3-haiku-20240307-v1:0"
                   ],
                   "Condition": {
                       "StringLike": {
                           "bedrock:InferenceProfileArn": "arn:aws:bedrock:us-west-2:111122223333:inference-profile/us.anthropic.claude-3-haiku-20240307-v1:0"
                       }
                   }
               }
           ]
       }
       ```

------
     + Por exemplo, é possível anexar a política a seguir a um perfil para permitir que ele invoque o modelo Claude Sonnet 4 da Anthropic somente por meio do perfil de inferência Claude Sonnet 4 global na conta 111122223333 na us-east-2 [Leste dos EUA (Ohio)].

------
#### [ JSON ]

****  

       ```
       {
           "Version":"2012-10-17",		 	 	 
           "Statement": [
               {
                   "Effect": "Allow",
                   "Action": [
                       "bedrock:InvokeModel*"
                   ],
                   "Resource": [
                       "arn:aws:bedrock:us-east-2:111122223333:inference-profile/global.anthropic.claude-sonnet-4-20250514-v1:0"
                   ]
               },
               {
                   "Effect": "Allow",
                   "Action": [
                       "bedrock:InvokeModel*"
                   ],
                   "Resource": [
                       "arn:aws:bedrock:us-east-2::foundation-model/anthropic.claude-sonnet-4-20250514-v1:0",
                       "arn:aws:bedrock:::foundation-model/anthropic.claude-sonnet-4-20250514-v1:0"
                   ],
                   "Condition": {
                       "StringLike": {
                           "bedrock:InferenceProfileArn": "arn:aws:bedrock:us-east-2:111122223333:inference-profile/global.anthropic.claude-sonnet-4-20250514-v1:0"
                       }
                   }
               }
           ]
       }
       ```

------
     + Também é possível restringir o uso do perfil de inferência global do Claude Sonnet 4 adicionando um Deny explícito com uma condição `StringEquals` que verifica se a chave de contexto `aws:RequestedRegion` da solicitação indica não especificada. Por corresponder a `StringEquals`, Deny substitui qualquer permissão e bloqueia o roteamento global de solicitações de inferência.

       ```
       {
           "Effect": "Deny",
           "Action": [
               "bedrock:InvokeModel*"
           ],
           "Resource": "*",
           "Condition": {
               "StringEquals": {
                   "aws:RequestedRegion": "unspecified"
               }
           }
       },
       ```

  1. Siga as etapas em [Adicionar e remover permissões de identidade do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html) para anexar a política a um perfil e conceder ao perfil permissões para visualizar e usar todos os perfis de inferência.
+ Você solicitou acesso ao modelo definido no perfil de inferência que deseja usar, na região da qual deseja chamar o perfil de inferência.

# Criar um perfil de inferência de aplicação
<a name="inference-profiles-create"></a>

É possível criar um perfil de inferência de aplicação com uma ou mais regiões para monitorar o uso e os custos ao invocar um modelo.
+ Para criar um perfil de inferência de aplicação para uma região, especifique um modelo de base. O uso e os custos das solicitações feitas para essa região com esse modelo serão rastreados.
+ Para criar um perfil de inferência de aplicação para várias regiões, especifique um perfil de inferência entre regiões (definido pelo sistema). O perfil de inferência roteará as solicitações para as regiões definidas no perfil de inferência entre regiões (definido pelo sistema) que você escolher. O uso e os custos das solicitações feitas às regiões no perfil de inferência serão monitorados.

No momento, só é possível criar um perfil de inferência usando a API do Amazon Bedrock.

Para criar um perfil de inferência, envie uma [CreateInferenceProfile](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateInferenceProfile.html)solicitação com um endpoint do [plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp).

Os seguintes campos são obrigatórios:


****  

| Campo | Caso de uso | 
| --- | --- | 
| inferenceProfileName | Para especificar um nome para o perfil de inferência. | 
| modelSource | Para especificar o modelo de base ou o perfil de inferência entre regiões (definido pelo sistema) que define o modelo e as regiões para as quais você deseja rastrear custos e uso. | 

Os seguintes campos são opcionais:


****  

| Campo | Caso de uso | 
| --- | --- | 
| descrição | Para fornecer uma descrição do perfil de inferência. | 
| tags | Para anexar tags ao perfil de inferência. Para obter mais informações, consulte [Organização [Marcação de recursos do Amazon Bedrock](tagging.md) e controle de custos usando tags de alocação de AWS custos](https://docs.aws.amazon.com//awsaccountbilling/latest/aboutv2/cost-alloc-tags.html). | 
| clientRequestToken | Para garantir que a solicitação de API seja concluída apenas uma vez. Para obter mais informações, consulte [Ensuring idempotency](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 

A resposta exibe um `inferenceProfileArn`, que pode ser usado em outras ações relacionadas ao perfil de inferência e com a invocação de modelo e os recursos do Amazon Bedrock.

# Modificar as tags para um perfil de inferência de aplicação
<a name="inference-profiles-modify"></a>

Depois de criar um perfil de inferência de aplicação, você ainda pode gerenciar tags por meio da API do Amazon Bedrock enviando uma solicitação [TagResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_TagResource.html) ou [UntagResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_UntagResource.html) com um [endpoint do ambiente de gerenciamento do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e especificando o ARN do perfil de inferência da aplicação no campo `resourceArn`. Para saber mais sobre atribuição de tags, consulte [Marcação de recursos do Amazon Bedrock](tagging.md).

# Visualizar informações sobre um perfil de inferência
<a name="inference-profiles-view"></a>

Você pode visualizar informações sobre perfis de inferência entre regiões ou perfis de inferência de aplicação que você criou. Para saber como visualizar informações sobre um perfil de inferência, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

**Como visualizar informações sobre um perfil de inferência entre regiões (definido pelo sistema)**

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console do Amazon Bedrock. Em seguida, abra o console do Amazon Bedrock em [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock).

1. Selecione **Inferência entre regiões** no painel de navegação à esquerda. Em seguida, na seção **Inferência entre regiões**, escolha um perfil de inferência.

1. Visualize os detalhes do perfil de inferência na seção **Detalhes do perfil de inferência** e as regiões que ele abrange na seção **Modelos**.

**nota**  
Não é possível visualizar perfis de inferência de aplicações no console do Amazon Bedrock.

------
#### [ API ]

Para ter informações sobre um perfil de inferência, envie uma solicitação [GetInferenceProfile](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetInferenceProfile.html) com um [endpoint do ambiente de gerenciamento do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e especifique o nome do recurso da Amazon (ARN) ou o ID do perfil de inferência no campo `inferenceProfileIdentifier`.

Para listar informações sobre os perfis de inferência que é possível usar, envie uma solicitação [ListInferenceProfiles](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListInferenceProfiles.html) com um [endpoint do ambiente de gerenciamento do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp). É possível especificar os seguintes parâmetros opcionais:


****  

| Campo | Descrição breve | 
| --- | --- | 
| maxResults | O número máximo de resultados a serem apresentados em uma resposta. | 
| nextToken | Se houver mais resultados do que o número especificado no campo maxResults, a resposta exibirá um valor de nextToken. Para ver o próximo lote de resultados, envie o valor de nextToken em outra solicitação. | 

------

# Use um perfil de inferência na invocação de modelos
<a name="inference-profiles-use"></a>

Você pode usar um perfil de inferência entre regiões em vez de um modelo de base para encaminhar solicitações a várias regiões. Para monitorar os custos e o uso de um modelo, em uma ou várias regiões, é possível usar um perfil de inferência de aplicação. Para saber como usar um perfil de inferência ao executar a inferência do modelo, escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

Para usar um perfil de inferência com um recurso compatível, faça o seguinte:

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console do Amazon Bedrock. Em seguida, abra o console do Amazon Bedrock em [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock).

1. Navegue até a página do recurso para o qual você deseja usar um perfil de inferência. Por exemplo, selecione **Playground chat/texto** no painel de navegação à esquerda.

1. Escolha **Selecionar modelo** e selecione o modelo. Por exemplo, escolha **Amazon** e depois **Nova Premier**.

1. Em **Inferência**, selecione **Perfis de inferência** no menu suspenso.

1. Selecione o perfil de inferência a ser usado (por exemplo, **US Nova Premier**) e escolha **Aplicar**.

------
#### [ API ]

É possível usar um perfil de inferência ao executar inferência em qualquer região incluída nele com as seguintes operações de API:
+ [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html) ou [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html): para usar um perfil de inferência na invocação de modelos, siga as etapas em [Envie uma única solicitação com InvokeModel](inference-invoke.md) e especifique o nome do recurso da Amazon (ARN) ou o perfil de inferência no campo `modelId`. Para obter um exemplo, consulte [Usar um perfil de inferência na invocação de modelos](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html#API_runtime_InvokeModel_Example_5).
+ [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) ou [ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html): para usar um perfil de inferência na invocação de modelos com a API Converse, siga as etapas em [Realizar uma conversa com as operações de API Converse](conversation-inference.md) e especifique o ARN ou o perfil de inferência no campo `modelId`. Para obter um exemplo, consulte [Usar um perfil de inferência em uma conversa](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html#API_runtime_Converse_Example_5).
+ [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent-runtime_RetrieveAndGenerate.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent-runtime_RetrieveAndGenerate.html): para usar um perfil de inferência ao gerar respostas nos resultados da consulta de uma base de conhecimento, siga as etapas na guia da API em [Testar a base de conhecimento com consultas e respostas](knowledge-base-test.md) e especifique o ARN ou o perfil de inferência no campo `modelArn`. Para obter mais informações, consulte [Usar um perfil de inferência para gerar uma resposta](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent-runtime_RetrieveAndGenerate.html#API_agent-runtime_RetrieveAndGenerate_Example_3).
+ [CreateEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateEvaluationJob.html): para enviar um perfil de inferência à avaliação de modelo, siga as etapas na guia da API em [Iniciar um trabalho automático de avaliação de modelo no Amazon Bedrock](model-evaluation-jobs-management-create.md) e especifique o ARN do perfil de inferência no campo `modelIdentifier`.
+ [CreatePrompt](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreatePrompt.html): para usar um perfil de inferência ao gerar uma resposta para um prompt criado no Gerenciamento de Prompts, siga as etapas na guia de API em [Criar um prompt usando o Gerenciamento de Prompts](prompt-management-create.md) e especifique o ARN do perfil de inferência no campo `modelId`.
+ [CreateFlow](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateFlow.html): para usar um perfil de inferência ao gerar uma resposta para um prompt em linha que você define em um nó de prompt em um fluxo, siga as etapas na guia de API em [Criar e planejar um fluxo no Amazon Bedrock](flows-create.md). Ao definir o [nó de prompt](flows-nodes.md#flows-nodes-prompt), especifique o ARN do perfil de inferência no campo `modelId`.
+ [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html): para usar um perfil de inferência ao analisar informações não textuais em uma fonte de dados, siga as etapas na seção de API em [Opções de análise para a fonte de dados](kb-advanced-parsing.md) e especifique o ARN do perfil de inferência no campo `modelArn`.

**nota**  
Se você estiver usando um perfil de inferência entre regiões (definido pelo sistema), poderá usar o respectivo ARN ou ID.

------

# Excluir um perfil de inferência de aplicação
<a name="inference-profiles-delete"></a>

Se você não precisar mais de um perfil de inferência de aplicação, poderá excluí-lo. Você só pode excluir perfis de inferência por meio da API do Amazon Bedrock.

Para excluir um perfil de inferência, envie uma solicitação [DeleteInferenceProfile](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_DeleteInferenceProfiles.html) com um [endpoint do ambiente de gerenciamento do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) e especifique o nome do recurso da Amazon (ARN) ou o ID do perfil de inferência a ser excluído no campo `inferenceProflieIdentifier`.

# Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock
<a name="prov-throughput"></a>

O **throughput** é definido pelo número e pela taxa de entradas e saídas que um modelo processa e retorna. É possível comprar **throughput provisionado** para provisionar um nível mais alto de throughput para um modelo a um custo fixo. Se você personalizou um modelo, compre throughput provisionado para poder usá-lo.

Você recebe cobrança por hora pelo throughput provisionado que você compra. Para obter informações detalhadas sobre preços, consulte [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing). O preço por hora depende dos seguintes fatores:

1. O modelo que você escolhe (para modelos personalizados, o preço é o mesmo do modelo de base do qual ele foi personalizado).

1. O número de unidades modelo (MUs) que você especifica para a taxa de transferência provisionada. Uma MU fornece um nível de throughput específico para o modelo especificado. O nível de throughput de uma MU especifica o seguinte:
   + O número de tokens de entrada que uma MU pode processar em todas as solicitações em um período de um minuto. 
   + O número de tokens de saída que uma MU pode gerar em todas as solicitações em um período de um minuto.
**nota**  
Para obter mais informações sobre o que uma MU especifica, preços por MU e para solicitar aumentos de limite, entre em contato com seu gerente. Conta da AWS 

1. O período em que você se compromete a manter o throughput provisionado. Quanto maior o período do compromisso, mais descontos haverá no preço por hora. É possível escolher entre os seguintes níveis de comprometimento:
   + Sem compromisso: é possível excluir o throughput provisionado a qualquer momento.
   + Um mês: não é possível excluir o throughput provisionado até que o termo de compromisso de um mês tenha transcorrido.
   + Seis meses: não é possível excluir o throughput provisionado até que o termo de compromisso de seis meses tenha transcorrido.
**nota**  
O faturamento continua até que você exclua o throughput provisionado.

As etapas a seguir descrevem o processo de configuração e uso do throughput provisionado.

1. Determine o número MUs que você deseja comprar para uma taxa de transferência provisionada e a quantidade de tempo durante a qual você deseja se comprometer a usar a taxa de transferência provisionada.

1. Compre throughput provisionado para um modelo de base.

1. Depois que o modelo provisionado for criado, você poderá usá-lo para [executar inferência do modelo](inference.md).

**Topics**
+ [Região e modelos compatíveis com o throughput provisionado](prov-thru-supported.md)
+ [Pré-requisitos referentes ao throughput provisionado](prov-thru-prereq.md)
+ [Comprar um throughput provisionado para um modelo do Amazon Bedrock](prov-thru-purchase.md)
+ [Visualizar informações sobre um throughput provisionado](prov-thru-info.md)
+ [Modificar um throughput provisionado](prov-thru-edit.md)
+ [Usar throughput provisionado com um recurso do Amazon Bedrock](prov-thru-use.md)
+ [Excluir uma taxa de transferência provisionada ou cancelar a renovação automática](prov-thru-delete.md)
+ [Exemplos de código para throughput provisionado](prov-thru-code-examples.md)

# Região e modelos compatíveis com o throughput provisionado
<a name="prov-thru-supported"></a>

Se você comprar o Provisioned Throughput por meio da API do Amazon Bedrock, deverá especificar uma variante contextual do Amazon FMs Bedrock para o ID do modelo.

**nota**  
A taxa de transferência provisionada é suportada em AWS GovCloud (Oeste dos EUA) somente para modelos personalizados com uma compra sem compromisso. Use o ID de um modelo personalizado ao comprar throughput provisionado para ele.

A tabela a seguir mostra os modelos para os quais você pode comprar o Provisioned Throughput, o ID do modelo a ser usado ao comprar o Provisioned Throughput e o Regiões da AWS no qual você pode comprar o Provisioned Throughput para o modelo.


| Fornecedor | Modelo | ID do modelo | Suporte ao modelo de região única | 
| --- | --- | --- | --- | 
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k |  us-east-1  | 
| Amazon | Nova Canvas | amazônia. nova-canvas-v1:0 |  us-east-1  | 
| Amazon | Nova Lite | amazônia. nova-lite-v1:0:24 k |  us-east-1  | 
| Amazon | Nova Lite | amazônia. nova-lite-v1:0:300 k |  us-east-1  | 
| Amazon | Nova Micro | amazônia. nova-micro-v1:0:128 k |  us-east-1  | 
| Amazon | Nova Micro | amazônia. nova-micro-v1:0:24 k |  us-east-1  | 
| Amazon | Nova Pro | amazônia. nova-pro-v1:0:24 k |  us-east-1  | 
| Amazon | Nova Pro | amazônia. nova-pro-v1:0:300 k |  us-east-1  | 
| Amazon | Incorporador do Titan G1 - Text | amazônia. titan-embed-text-v1:2:8 k |  us-east-1 us-west-2  | 
| Amazon | Gerador de Imagens do Titan G1 v2 | amazônia. titan-image-generator-v2:0 |  us-east-1 us-west-2  | 
| Amazon | Incorporador Multimodal do Titan G1 | amazônia. titan-embed-image-v1:0 |  ap-south-1 ap-southeast-2 ca-central-1 eu-central-1 eu-west-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  | 
| Anthropic | Claude | anthropic.claude-v2:0:100k |  us-east-1 us-west-2  | 
| Anthropic | Claude | anthropic.claude-v2:0:18k |  us-east-1 us-west-2  | 
| Anthropic | Claude | anthropic.claude-v2:1:18k |  eu-central-1 us-east-1 us-west-2  | 
| Anthropic | Claude | anthropic.claude-v 2:1:200 k |  eu-central-1 us-east-1 us-west-2  | 
| Anthropic | Claude 3 Haiku | anthropic.claude-3-haiku-20240307-v1:0:200k |  ap-southeast-2 eu-west-3 us-east-1 us-west-2  | 
| Anthropic | Claude 3 Haiku | anthropic.claude-3-haiku-20240307-v 1:0:48 k |  ap-south-1 ap-southeast-2 eu-west-1 eu-west-3 us-east-1 us-west-2  | 
| Anthropic | Claude 3 Sonnet | anthropic.claude-3-sonnet-20240229-v 1:0:200 k |  ap-southeast-2 eu-west-1 eu-west-3 us-east-1 us-west-2  | 
| Anthropic | Claude 3 Sonnet | anthropic.claude-3-sonnet-20240229-v 1:0:28 k |  ap-south-1 ap-southeast-2 eu-west-1 eu-west-3 us-east-1 us-west-2  | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v 1:0:18 k |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v 1:0:200 k |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v 1:0:51 k |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v 2:0:18 k |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v 2:0:200 k |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v 2:0:51 k |  us-west-2  | 
| Anthropic | Claude Instant | antrópico. claude-instant-v1:2:100 k |  us-east-1 us-west-2  | 
| Cohere | Incorporar inglês | coerente. embed-english-v3:0:512 |  ca-central-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  | 
| Cohere | Incorporar multilíngue | coerente. embed-multilingual-v3:0:512 |  ca-central-1 eu-west-2 eu-west-3 sa-east-1 us-east-1 us-west-2  | 
| Meta | Llama 3.1 70B Instruct | b-instruct-vmeta.llama3-1-70 1:0:128 k |  us-west-2  | 
| Meta | Llama 3.1 8B Instruct | b-instruct-vmeta.llama3-1-8 1:0:128 k |  us-west-2  | 
| Meta | Instrução Llama 3.2 11B | b-instruct-vmeta.llama3-2-11 1:0:128 k |  us-west-2  | 
| Meta | Instrução Llama 3.2 1B | b-instruct-vmeta.llama3-2-1 1:0:128 k |  us-west-2  | 
| Meta | Llama 3.2 3B Instruct | b-instruct-vmeta.llama3-2-3 1:0:128 k |  us-west-2  | 
| Meta | Llama 3.2 90B Instruct | b-instruct-vmeta.llama3-2-90 1:0:128 k |  us-west-2  | 

**nota**  
Os modelos a seguir não oferecem suporte a compras sem compromisso para o modelo básico:  
Titan Image Generator G1 V1
Titan Image Generator G1 V2

# Pré-requisitos referentes ao throughput provisionado
<a name="prov-thru-prereq"></a>

Antes de comprar e gerenciar o throughput provisionado, atenda aos seguintes pré-requisitos:

1. [Solicite acesso ao modelo ou aos modelos](model-access.md) para os quais você deseja comprar throughput provisionado. Depois que o acesso for concedido, você poderá comprar throughput provisionado para o modelo de base e para quaisquer modelos personalizados com base nele.

1. Verifique se o perfil do IAM tem acesso às ações de API de throughput provisionado. Se sua função tiver a política [AmazonBedrockFullAccess](security-iam-awsmanpol.md#security-iam-awsmanpol-AmazonBedrockFullAccess)AWSgerenciada anexada, você poderá pular esta etapa. Caso contrário, faça o seguinte:

   1. Siga as etapas em [Criar políticas do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) e crie a política a seguir, que permite que um perfil crie um throughput provisionado para todos os modelos de base personalizados.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Sid": "PermissionsForProvisionedThroughput",
                  "Effect": "Allow",
                  "Action": [
                      "bedrock:GetFoundationModel",
                      "bedrock:ListFoundationModels",
                      "bedrock:GetCustomModel",
                      "bedrock:ListCustomModels",
                      "bedrock:InvokeModel",
                      "bedrock:InvokeModelWithResponseStream",
                      "bedrock:ListTagsForResource",
                      "bedrock:UntagResource",
                      "bedrock:TagResource",
                      "bedrock:CreateProvisionedModelThroughput",
                      "bedrock:GetProvisionedModelThroughput",
                      "bedrock:ListProvisionedModelThroughputs",
                      "bedrock:UpdateProvisionedModelThroughput",
                      "bedrock:DeleteProvisionedModelThroughput"
                  ],
                  "Resource": "*"
              }
          ]
      }
      ```

------
**nota**  
Se você estiver usando a taxa de transferência provisionada com inferência entre regiões, talvez precise de permissões adicionais. Para saber mais, consulte [Aumentar o throughput com inferência entre regiões](cross-region-inference.md).

      (Opcional) É possível restringir o acesso do perfil das seguintes maneiras:
      + Para restringir as ações de API que o perfil pode executar, modifique a lista no campo `Action` para que contenha somente as [operações de API](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-actions-as-permissions) às quais deseja permitir acesso.
      + Depois de criar um modelo provisionado, você pode restringir a capacidade do perfil de executar um solicitação de API com o modelo provisionado, modificando a lista de `Resource` para que contenha somente os [modelos provisionados](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-resources-for-iam-policies) aos quais deseja permitir acesso. Para ver um exemplo, consulte [Permitir que os usuários invoquem um modelo provisionado](security_iam_id-based-policy-examples.md#security_iam_id-based-policy-examples-perform-actions-pt).
      + Para restringir a capacidade de um perfil de criar modelos provisionados de modelos de base ou personalizados específicos, modifique a lista de `Resource` para que contenha somente os [modelos de base e personalizados](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html#amazonbedrock-resources-for-iam-policies) aos quais deseja permitir acesso.

   1. Siga as etapas em [Adicionar e remover permissões de identidade do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html) para anexar a política a um perfil e conceder permissões ao perfil.

1. Se você estiver comprando o Provisioned Throughput para um modelo personalizado criptografado com uma AWS KMS chave gerenciada pelo cliente, sua função do IAM deve ter permissões para descriptografar a chave. É possível usar o modelo em [Compreender como criar uma chave gerenciada pelo cliente e como anexar uma política de chave a ela](encryption-custom-job.md#encryption-key-policy). Para obter permissões mínimas, você pode usar somente a declaração *Permissions for custom model users* de política.

# Comprar um throughput provisionado para um modelo do Amazon Bedrock
<a name="prov-thru-purchase"></a>

O Amazon Bedrock oferece dois tipos de taxa de transferência provisionada: por tokens e por unidades modelo. Consulte as instruções a seguir para saber o tipo de taxa de transferência provisionada que você deseja comprar.

Para saber mais sobre as diferenças entre os dois tipos de taxa de transferência provisionada, consulte. [Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock](prov-throughput.md)

## Taxa de transferência provisionada por unidades modelo
<a name="prov-thru-purchase-MUs"></a>

Ao comprar uma taxa de transferência provisionada por unidades modelo para um modelo, você especifica o nível de comprometimento para ela e o número de unidades de modelo (MUs) a serem distribuídas. Para obter as cotas da MU, consulte [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) no Referência geral da AWS. Antes de comprar uma taxa de transferência provisionada (com compromisso ou sem compromisso), você deve primeiro visitar o [centro de AWS suporte](https://console.aws.amazon.com/support/home#/case/create?issueType=service-limit-increase) MUs para solicitar que sua conta seja distribuída entre as taxas de transferência provisionadas. Depois que sua solicitação for atendida, você poderá comprar uma taxa de transferência provisionada.

**nota**  
Depois de comprar o Provisioned Throughput, se ele estiver associado a um modelo personalizado, você poderá alterar o modelo especificando uma das seguintes opções:  
O modelo básico a partir do qual o modelo personalizado foi personalizado
Outro modelo personalizado que foi personalizado a partir do mesmo modelo básico do modelo personalizado
Você só pode alterar o modelo associado para taxas de transferência provisionadas associadas a um modelo personalizado.

Para saber como comprar o Provisioned Throughput para um modelo, escolha a guia do seu método preferido e siga as etapas:

------
#### [ Console ]

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Selecione **Throughput provisionado** no painel de navegação à esquerda.

1. Na seção **Throughput provisionado**, escolha **Comprar throughput provisionado**.

1. Na seção de **Detalhes do throughput provisionado**, faça o seguinte:

   1. No campo **Nome do throughput provisionado**, insira um nome para o throughput provisionado.

   1. Em **Selecionar modelo**, selecione um provedor de modelo de base ou uma categoria de modelo personalizado. Selecione o modelo para o qual provisionar o throughput.
**nota**  
Para ver os modelos básicos para os quais você pode comprar o Provisioned Throughput sem compromisso, consulte a documentação dos modelos suportados.  
Na AWS GovCloud (US) região, você só pode comprar o Provisioned Throughput para modelos personalizados sem compromisso.

   1. (Opcional) Para associar tags ao throughput provisionado, expanda a seção **Tags** e escolha **Adicionar nova tag**. Para obter mais informações, consulte [Marcação de recursos do Amazon Bedrock](tagging.md).

1. Para o **modo de provisionamento**, selecione **Por** unidades de modelo

1. Na seção **Unidades do modelo e prazo de compromisso**, faça o seguinte:

   1. Na seção **Selecionar termo de compromisso**, escolha o período para o qual deseja se comprometer a usar o throughput provisionado.

   1. No campo **Unidades do modelo**, insira o número desejado de unidades do modelo (MUs). Se você estiver provisionando um modelo com compromisso, você deve primeiro visitar o [centro de AWS suporte](https://console.aws.amazon.com/support/home#/case/create?issueType=service-limit-increase) para solicitar um aumento no número do MUs que você pode comprar.

1. Escolha **Comprar throughput provisionado **.

1. Analise a nota exibida e confirme a duração e o preço do compromisso marcando a caixa de seleção. Escolha **Confirmar compra**.

1. O console exibe a página de visão geral **Throughput provisionado**. O **status** do throughput provisionado na tabela de throughput provisionado se torna **Criando**. Quando a criação do throughput provisionado for concluída, o **Status** se torna **Em serviço**. Se a atualização falhar, o **Status** será **Com falha**.

------
#### [ API ]

Para comprar uma taxa de transferência provisionada, envie uma [CreateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateProvisionedModelThroughput.html)solicitação com um endpoint do plano de controle [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp).

Para saber mais sobre o conteúdo do corpo da solicitação e os parâmetros que você precisa fornecer para criar uma taxa de transferência provisionada por unidades modelo, consulte [CreateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateProvisionedModelThroughput.html)a *Amazon Bedrock* API Reference.

**nota**  
Para ver os modelos básicos para os quais você pode comprar o Provisioned Throughput sem compromisso, consulte a documentação dos modelos suportados.  
Na AWS GovCloud (US) região, você só pode comprar o Provisioned Throughput para modelos personalizados sem compromisso.

A resposta mostra um `provisionedModelArn` que você pode usar como `modelId` na [inferência do modelo](inference.md). Para verificar quando a taxa de transferência provisionada está pronta para uso, envie uma [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)solicitação e verifique se o status é. `InService` Se a atualização falhar, seu status será`Failed`, e a [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)resposta conterá um`failureMessage`.

[Consulte exemplos de código](prov-thru-code-examples.md)

------

# Visualizar informações sobre um throughput provisionado
<a name="prov-thru-info"></a>

Para saber como visualizar informações sobre uma taxa de transferência provisionada que você comprou, escolha a guia do seu método preferido e siga as etapas:

------
#### [ Console ]

**Como visualizar informações sobre um throughput provisionado**

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Selecione **Provisioned Throughput no** painel de navegação esquerdo.

1. Na seção **Throughput provisionado**, escolha um throughput provisionado.

1. Visualize os detalhes do throughput provisionado na seção **Visão geral do throughput provisionado** e as tags associadas ao throughput provisionado na seção **Tags**.

------
#### [ API ]

Para recuperar informações sobre uma taxa de transferência provisionada específica, envie uma solicitação [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)com um endpoint do plano de controle [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp). Especifique o nome do throughput provisionado ou o respectivo ARN como o `provisionedModelId`.

Para listar informações sobre todas as taxas de transferência provisionadas em uma conta, envie uma [ListProvisionedModelThroughputs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListProvisionedModelThroughputs.html)solicitação com um endpoint do plano de controle [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp). Para controlar o número de resultados exibidos, é possível especificar qualquer um dos seguintes parâmetros opcionais:


****  

| Campo | Descrição breve | 
| --- | --- | 
| maxResults | O número máximo de resultados a serem apresentados em uma resposta. | 
| nextToken | Se houver mais resultados do que o número especificado no campo maxResults, a resposta exibirá um valor de nextToken. Para ver o próximo lote de resultados, envie o valor de nextToken em outra solicitação. | 

Para outros parâmetros opcionais que você pode especificar para classificar e filtrar os resultados, consulte [ListProvisionedModelThroughputs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListProvisionedModelThroughputs.html).

Para listar todas as tags de uma taxa de transferência provisionada, envie uma [ListTagsForResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListTagsForResource.html)solicitação com um [endpoint do plano de controle Amazon Bedrock e](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) inclua o nome de recurso da Amazon (ARN) da taxa de transferência provisionada.

[Consulte exemplos de código](prov-thru-code-examples.md)

------

# Modificar um throughput provisionado
<a name="prov-thru-edit"></a>

Os aspectos de uma taxa de transferência provisionada que você pode editar após a compra dependem do modo de provisionamento. Para taxas de transferência provisionadas por unidades de modelo, você pode editar somente o nome e as tags da sua taxa de transferência provisionada e o modelo, se for um modelo personalizado.

Com a taxa de transferência provisionada por tokens, você tem mais opções, incluindo a modificação do número de tokens de entrada e saída por minuto para sua taxa de transferência provisionada.

Consulte as seções a seguir para saber mais sobre a edição do tipo de taxa de transferência provisionada que você deseja modificar.

## Modificar uma taxa de transferência provisionada por unidades de modelo
<a name="prov-thru-edit-MUs"></a>

É possível editar o nome ou as tags de um throughput provisionado existente.

As restrições a seguir se aplicam à alteração do modelo ao qual o throughput provisionado está associado:
+ Você não pode alterar o modelo de um throughput provisionado associado a um modelo de base.
+ Se o throughput provisionado estiver associado a um modelo personalizado, você poderá alterar a associação ao modelo de base do qual ele foi personalizado ou a outro modelo personalizado derivado do mesmo modelo base. 

Durante a atualização de um throughput provisionado, você pode executar inferência usando o throughput provisionado sem interromper o tráfego contínuo de seus clientes finais. Se você tiver alterado o modelo ao qual o throughput provisionado está associado, poderá receber a saída do modelo antigo até que a atualização esteja totalmente implantada.

Para saber como editar uma taxa de transferência provisionada, escolha a guia do seu método preferido e siga as etapas:

------
#### [ Console ]

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Selecione **Throughput provisionado** no painel de navegação à esquerda.

1. Na seção **Throughput provisionado**, escolha um throughput provisionado.

1. Escolha **Editar**. É possível editar os seguintes campos:
   + **Nome do throughput provisionado**: altere o nome do throughput provisionado.
   + **Selecionar modelo**: se o throughput provisionado estiver associado a um modelo personalizado, você poderá alterar o modelo associado.

1. É possível editar as tags associadas ao throughput provisionado na seção **Tags**. Para obter mais informações, consulte [Marcação de recursos do Amazon Bedrock](tagging.md).

1. Para salvar as alterações, escolha **Salvar edições**.

1. O console exibe a página de visão geral **Throughput provisionado**. O **status** do throughput provisionado na tabela de throughput provisionado se torna **Atualizando**. Quando a atualização do throughput provisionado é concluída, o **Status** se torna **Em serviço**. Se a atualização falhar, o **Status** será **Com falha**.

------
#### [ API ]

Para editar uma taxa de transferência provisionada, envie uma [UpdateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_UpdateProvisionedModelThroughput.html)solicitação com um endpoint do plano de controle [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp).

Para saber mais sobre o corpo da solicitação e os parâmetros que você precisa fornecer, consulte [UpdateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_UpdateProvisionedModelThroughput.html)a *Referência da API Amazon Bedrock*.

Se a ação for bem-sucedida, a resposta retornará um código de status HTTP 200. Para verificar quando a taxa de transferência provisionada está pronta para uso, envie uma [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)solicitação e verifique se o status é. `InService` Não é possível atualizar ou excluir um throughput provisionado enquanto seu status for `Updating`. Se a atualização falhar, seu status será`Failed`, e a [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)resposta conterá um`failureMessage`.

Para adicionar tags a uma taxa de transferência provisionada, envie uma [TagResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_TagResource.html)solicitação com um [endpoint do plano de controle Amazon Bedrock e](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) inclua o nome de recurso da Amazon (ARN) da taxa de transferência provisionada. O corpo da solicitação contém um campo `tags`, que é um objeto que contém um par de chave-valor que você especifica para cada tag.

Para remover tags de uma taxa de transferência provisionada, envie uma [UntagResource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_UntagResource.html)solicitação com um [endpoint do plano de controle Amazon Bedrock e](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) inclua o nome de recurso da Amazon (ARN) da taxa de transferência provisionada. O parâmetro de solicitação `tagKeys` é uma lista que contém as chaves das tags que você deseja remover.

[Consulte exemplos de código](prov-thru-code-examples.md)

------

# Usar throughput provisionado com um recurso do Amazon Bedrock
<a name="prov-thru-use"></a>

Depois de comprar uma taxa de transferência provisionada, você pode usá-la com os seguintes recursos:
+ **Inferência de modelo** — Você pode testar a taxa de transferência provisionada em um playground do console Amazon Bedrock. Quando tudo estiver pronto para implantar o throughput provisionado, configure a aplicação para invocar o modelo provisionado. Escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ Console ]

**Como usar throughput provisionado no playground do console do Amazon Bedrock**

  1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

  1. No painel de navegação à esquerda, selecione **Chat**, **Texto** ou **Imagem** em **Playgrounds**, dependendo do caso de uso.

  1. Escolha **Selecionar modelo**.

  1. Em **1. Coluna Categoria**, selecione um provedor ou uma categoria de modelo personalizado. Em **2. Coluna Modelo**, selecione o modelo ao qual o throughput provisionado está associado.

  1. Em **3. Coluna Throughput**, selecione o throughput provisionado.

  1. Selecione **Aplicar**.

  Para saber como usar os playgrounds do Amazon Bedrock, consulte [Gerar respostas no console usando playgrounds](playgrounds.md).

------
#### [ API ]

  [Para executar inferência usando uma taxa de transferência provisionada, envie um [InvokeModel[InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html), [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) ou uma solicitação [ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html)com um endpoint de tempo de execução do Amazon Bedrock.](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt) Especifique o ARN do modelo provisionado como o parâmetro `modelId`. Para ver os requisitos do corpo da solicitação para modelos diferentes, consulte [Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

  [Consulte exemplos de código](prov-thru-code-examples.md)

------
+ **Associar um throughput provisionado a um alias de agente**: é possível associar um throughput provisionado ao [criar](agents-deploy.md) ou [atualizar](agents-alias-edit.md) um alias de agente. No console do Amazon Bedrock, escolha o throughput provisionado ao configurar o alias ou editá-lo. Na API do Amazon Bedrock, você especifica o `provisionedThroughput` no `routingConfiguration` quando envia uma solicitação [CreateAgentAlias](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateAgentAlias.html)ou [UpdateAgentAlias](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_UpdateAgentAlias.html);.

# Excluir uma taxa de transferência provisionada ou cancelar a renovação automática
<a name="prov-thru-delete"></a>

Sua taxa de transferência provisionada será renovada automaticamente no final de cada prazo de compromisso, mantendo suas configurações atuais de tokens de entrada e saída.

Se você não quiser manter sua taxa de transferência provisionada, você pode excluí-la ou, para a taxa de transferência provisionada por tokens, cancelar a renovação automática para evitar que ela seja renovada quando o prazo atual terminar.

## Excluindo uma taxa de transferência provisionada
<a name="prov-thru-delete-del"></a>

Ao excluir um throughput provisionado, você não poderá mais invocar o modelo no nível do throughput para o qual você o comprou. Se você excluir um throughput provisionado associado a um modelo personalizado, o modelo personalizado não será excluído. Para saber como excluir um modelo personalizado, consulte [Excluir um modelo personalizado](model-customization-delete.md).

**nota**  
Você não pode excluir uma taxa de transferência provisionada por unidades modelo com compromisso antes que o prazo do compromisso seja concluído.

Para saber como excluir uma taxa de transferência provisionada, escolha a guia do seu método preferido e siga as etapas:

------
#### [ Console ]

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Selecione **Throughput provisionado** no painel de navegação à esquerda.

1. Na seção **Throughput provisionado**, escolha um throughput provisionado.

1. Escolha **Excluir** no menu suspenso **Ações**.

1. O console exibe um formulário modal para avisar que a exclusão é permanente. Escolha **Confirmar** para continuar.

1. O throughput provisionado é imediatamente excluído.

------
#### [ API ]

Para excluir uma taxa de transferência provisionada, envie uma [DeleteProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_DeleteProvisionedModelThroughput.html)solicitação com um endpoint do plano de controle [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp). Especifique o nome do throughput provisionado ou o respectivo ARN como o `provisionedModelId`. Se a exclusão for bem-sucedida, a resposta retornará um código de status HTTP 200.

[Consulte exemplos de código](prov-thru-code-examples.md)

------

## Cancelamento da renovação automática para uma taxa de transferência provisionada
<a name="prov-thru-delete-cancel-auto-renew"></a>

Para a taxa de transferência provisionada por tokens, você pode cancelar a renovação automática a qualquer momento antes que seu prazo de compromisso termine para evitar que a taxa de transferência provisionada seja renovada automaticamente.

Se você cancelar a renovação automática, sua taxa de transferência provisionada permanecerá em serviço até o final do prazo do seu compromisso. Ainda será cobrada a taxa total de provisão para seu mandato atual, independentemente de você fazer inferência ou não.

Depois de cancelar a renovação automática de uma taxa de transferência provisionada, você não poderá fazer mais modificações na taxa de transferência provisionada pelo restante do prazo do compromisso.

**nota**  
A renovação automática não pode ser reativada depois de cancelada. Se você precisar de taxa de transferência provisionada após o vencimento do prazo atual, você precisará comprar uma nova taxa de transferência provisionada.

Para saber como cancelar a renovação automática de uma taxa de transferência provisionada por tokens, escolha a guia do seu método preferido e siga as etapas:

------
#### [ Console ]

1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em [https://console.aws.amazon.com/bedrock.](https://console.aws.amazon.com/bedrock)

1. Selecione **Throughput provisionado** no painel de navegação à esquerda.

1. Na seção **Throughput provisionado**, escolha um throughput provisionado.

1. Escolha **Cancelar renovação automática** no menu suspenso **Ações**.

1. O console exibe um formulário modal para avisá-lo de que essa ação não pode ser desfeita. Escolha **Confirmar** para continuar.

1. A taxa de transferência provisionada permanecerá ativa até o final do prazo de compromisso atual, após o qual será excluída automaticamente.

------
#### [ API ]

Para cancelar a renovação automática de uma taxa de transferência provisionada, envie uma solicitação [UpdateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_UpdateProvisionedModelThroughput.html)com um [endpoint do plano de controle Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-cp) com o parâmetro definido como. `disableAutoRenew` `true` A taxa de transferência provisionada permanecerá ativa até o final do prazo de compromisso atual.

[Consulte exemplos de código](prov-thru-code-examples.md)

------

# Exemplos de código para throughput provisionado
<a name="prov-thru-code-examples"></a>

Os exemplos de código a seguir demonstram como criar uma taxa de transferência provisionada e como gerenciá-la e invocá-la usando o e o SDK AWS CLI do Python. Você pode criar uma taxa de transferência provisionada a partir de um modelo básico ou de um modelo que você já personalizou. Antes de começar, execute os seguintes pré-requisitos:

**Pré-requisitos**

Os exemplos a seguir usam o Amazon Nova Lite modelo, cujo ID do modelo é`amazon.nova-lite-v1:0:24k`. Se ainda não o fez, solicite acesso ao Amazon Nova Lite seguindo as etapas em[Gerencie o acesso ao modelo usando SDK e CLI](model-access.md#model-access-modify).

Se você quiser comprar o Provisioned Throughput para um modelo básico diferente ou um modelo personalizado, você precisará fazer o seguinte:

1. Encontre o ID do modelo (para modelos básicos), o nome (para modelos personalizados) ou o ARN (para qualquer um) do modelo fazendo o seguinte:
   + Se você estiver comprando uma taxa de transferência provisionada para um modelo básico, encontre o ID ou o Amazon Resource Name (ARN) de um modelo que ofereça suporte ao provisionamento de uma das seguintes formas:
     + Procure o valor na tabela.
     + Envie uma [ListFoundationModels](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListFoundationModels.html)solicitação e especifique o `byInferenceType` valor `PROVISIONED` para ver uma lista de modelos que oferecem suporte ao provisionamento. Encontre o valor no `modelArn` campo `modelId` ou.
   + Se você estiver comprando uma taxa de transferência provisionada para um modelo personalizado, encontre o nome ou o Amazon Resource Name (ARN) do modelo que você personalizou de uma das seguintes formas:
     + No console do Amazon Bedrock, escolha **Modelos personalizados** no painel de navegação esquerdo. Encontre o nome do seu modelo personalizado na lista de **modelos** ou selecione-o e encontre o **ARN do modelo nos detalhes** do **modelo**.
     + Envie uma [ListCustomModels](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListCustomModels.html)solicitação e encontre o `modelArn` valor `modelName` ou do seu modelo personalizado na resposta.

1. Modifique a `body` [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)solicitação nos exemplos abaixo para corresponder ao formato do corpo do modelo, localizando-a em[Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

Escolha a guia correspondente ao método de sua preferência e siga as etapas:

------
#### [ AWS CLI ]

1. Envie uma [CreateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateProvisionedModelThroughput.html)solicitação para criar uma chamada de taxa de transferência provisionada sem compromisso executando *MyPT* o seguinte comando em um terminal:

   ```
   aws bedrock create-provisioned-model-throughput \
      --model-units 1 \
      --provisioned-model-name MyPT \
      --model-id amazon.nova-lite-v1:0:24k
   ```

1. A resposta retorna o `provisioned-model-arn`. Aguarde até que a criação seja concluída. Para verificar seu status, envie uma [GetProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_GetProvisionedModelThroughput.html)solicitação e forneça o nome ou ARN do modelo provisionado como o`provisioned-model-id`, executando o seguinte comando:

   ```
   aws bedrock get-provisioned-model-throughput \
       --provisioned-model-id ${provisioned-model-arn}
   ```

1. Execute a inferência com seu modelo provisionado enviando uma solicitação. [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html) Forneça o ARN do modelo provisionado que foi retornado na `CreateProvisionedModelThroughput` resposta, como o. `model-id` A saída é gravada em um arquivo chamado *output.txt* na sua pasta atual.

   ```
   aws bedrock-runtime invoke-model \
       --model-id ${provisioned-model-arn} \
       --body '{
                   "messages": [{
                       "role": "user",
                       "content": [{
                           "text": "Hello"
                       }]
                   }],
                   "inferenceConfig": {
                       "temperature":0.7
                   }
               }' \
       --cli-binary-format raw-in-base64-out \
       output.txt
   ```

1. Envie uma [DeleteProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_DeleteProvisionedModelThroughput.html)solicitação para excluir a taxa de transferência provisionada usando o comando a seguir. Você não receberá mais cobranças pelo throughput provisionado.

   ```
   aws bedrock delete-provisioned-model-throughput 
     --provisioned-model-id MyPT
   ```

------
#### [ Python (Boto) ]

Os trechos de código a seguir orientam você na criação de uma taxa de transferência provisionada, na obtenção de informações sobre ela e na invocação da taxa de transferência provisionada.

1. Para criar uma taxa de transferência provisionada sem compromisso chamada e *MyPT* atribuir o ARN da taxa de transferência provisionada a uma variável chamada, envie a seguinte solicitação: *provisioned\$1model\$1arn* [CreateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateProvisionedModelThroughput.html)

   ```
   import boto3 
   
   provisioned_model_name = 'MyPT'
   
   bedrock = boto3.client(service_name='bedrock')
   response = bedrock.create_provisioned_model_throughput(
       modelUnits=1,
       provisionedModelName=provisioned_model_name, 
       modelId='amazon.nova-lite-v1:0:24k' 
   )
                           
   provisioned_model_arn = response['provisionedModelArn']
   ```

1. Aguarde até que a criação seja concluída. É possível verificar o status com o seguinte trecho de código: Você pode fornecer o nome da taxa de transferência provisionada ou do ARN retornado da resposta como o. [CreateProvisionedModelThroughput](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateProvisionedModelThroughput.html)`provisionedModelId`

   ```
   bedrock.get_provisioned_model_throughput(provisionedModelId=provisioned_model_name)
   ```

1. Execute inferência com seu modelo provisionado atualizado com o comando a seguir e usando o ARN do modelo provisionado como o. `modelId`

   ```
   import json
   import logging
   import boto3
   
   from botocore.exceptions import ClientError
   
   
   class ImageError(Exception):
       "Custom exception for errors returned by the model"
   
       def __init__(self, message):
           self.message = message
   
   
   logger = logging.getLogger(__name__)
   logging.basicConfig(level=logging.INFO)
   
   
   def generate_text(model_id, body):
       """
       Generate text using your provisioned custom model.
       Args:
           model_id (str): The model ID to use.
           body (str) : The request body to use.
       Returns:
           response (json): The response from the model.
       """
   
       logger.info(
           "Generating text with your provisioned custom model %s", model_id)
   
       brt = boto3.client(service_name='bedrock-runtime')
   
       accept = "application/json"
       content_type = "application/json"
   
       response = brt.invoke_model(
           body=body, modelId=model_id, accept=accept, contentType=content_type
       )
       response_body = json.loads(response.get("body").read())
   
       finish_reason = response_body.get("error")
   
       if finish_reason is not None:
           raise ImageError(f"Text generation error. Error is {finish_reason}")
   
       logger.info(
           "Successfully generated text with provisioned custom model %s", model_id)
   
       return response_body
   
   
   def main():
       """
       Entrypoint for example.
       """
       try:
           logging.basicConfig(level=logging.INFO,
                               format="%(levelname)s: %(message)s")
   
           model_id = provisioned-model-arn
   
           body = json.dumps({
               "inputText": "what isAWS?"
           })
   
           response_body = generate_text(model_id, body)
           print(f"Input token count: {response_body['inputTextTokenCount']}")
   
           for result in response_body['results']:
               print(f"Token count: {result['tokenCount']}")
               print(f"Output text: {result['outputText']}")
               print(f"Completion reason: {result['completionReason']}")
   
       except ClientError as err:
           message = err.response["Error"]["Message"]
           logger.error("A client error occurred: %s", message)
           print("A client error occured: " +
                 format(message))
       except ImageError as err:
           logger.error(err.message)
           print(err.message)
   
       else:
           print(
               f"Finished generating text with your provisioned custom model {model_id}.")
   
   
   if __name__ == "__main__":
       main()
   ```

1. Exclua o throughput provisionado com o seguinte trecho de código: Você não receberá mais cobranças pelo throughput provisionado.

   ```
   bedrock.delete_provisioned_model_throughput(provisionedModelId=provisioned_model_name)
   ```

------

# Cotas do Amazon Bedrock
<a name="quotas"></a>

Você Conta da AWS tem cotas padrão, anteriormente chamadas de limites, para o Amazon Bedrock. Para visualizar as cotas de serviço do Amazon Bedrock, execute um dos seguintes procedimentos:
+ Siga as etapas em [Visualizar cotas de serviço](https://docs.aws.amazon.com/servicequotas/latest/userguide/gs-request-quota.html) e selecione **Amazon Bedrock** como o serviço.
+ Consulte [Cotas de serviço do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock) no Referência geral da AWS.

No Amazon Bedrock, a inferência do modelo é controlada por cotas de uso de tokens. Alguns modelos utilizam uma taxa mais alta de tokens. Para ter mais informações sobre essas taxas e como otimizar o uso de tokens, consulte [Como os tokens são contados no Amazon Bedrock](quotas-token-burndown.md).

Para manter o desempenho do serviço e garantir o uso adequado do Amazon Bedrock, as cotas padrão atribuídas a uma conta podem ser atualizadas dependendo de fatores regionais, histórico de pagamentos, uso fraudulento e and/or aprovação de uma solicitação de aumento de [cota](quotas-increase.md).

**Topics**
+ [Como os tokens são contados no Amazon Bedrock](quotas-token-burndown.md)
+ [Monitorar o uso de tokens contando os tokens antes de executar a inferência](count-tokens.md)
+ [Solicitar um aumento das cotas do Amazon Bedrock](quotas-increase.md)

# Como os tokens são contados no Amazon Bedrock
<a name="quotas-token-burndown"></a>

Quando você executa a inferência do modelo, há cotas no número de tokens que podem ser processados, dependendo do modelo do Amazon Bedrock que você usa. Analise a seguinte terminologia relacionada às cotas de token:


****  

| Prazo | Definição | 
| --- | --- | 
| InputTokenCount | A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens em uma solicitação fornecida como entrada para o modelo. | 
| OutputTokenCount | A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens gerados pelo modelo em resposta a uma solicitação. | 
| CacheReadInputTokens | A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram recuperados com sucesso de um cache em vez de serem reprocessados pelo modelo. Esse valor será 0 se você não usar o [armazenamento em cache de prompts](prompt-caching.md). | 
| CacheWriteInputTokens | A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram gravados com sucesso no cache. Esse valor será 0 se você não usar o [armazenamento em cache de prompts](prompt-caching.md). | 
| Tokens por minuto (TPM) | Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um minuto. | 
| Tokens por dia (TPD) | Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um dia. Por padrão, esse valor é TPM x 24 x 60. No entanto, novos Contas da AWS reduziram as cotas. | 
| Solicitações por minuto (RPM) | Uma cota definida AWS no nível do modelo com base no número de solicitações que você pode enviar em um minuto. | 
| max\$1tokens | Um parâmetro que você fornece em sua solicitação para definir a quantidade máxima de tokens de saída que o modelo pode gerar. | 
| Taxa de burndown | A taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de controle de utilização. | 

A taxa de burndown dos modelos Anthropic Claude versão 3.7 e posteriores é de **5x para tokens de saída (1 token de saída consome 5 tokens** de suas cotas):

Para todos os outros modelos, a taxa de burndown é de **1:1** (um token de saída consome um token da sua cota).

**Topics**
+ [Noções básicas sobre o gerenciamento de cotas de tokens](#quotas-token-burndown-management)
+ [Noções básicas sobre o impacto do parâmetro max\$1tokens](#quotas-token-burndown-max-tokens)
+ [Otimizar o parâmetro max\$1tokens](#quotas-token-burndown-max-tokens-optimize)

## Noções básicas sobre o gerenciamento de cotas de tokens
<a name="quotas-token-burndown-management"></a>

Quando você faz uma solicitação, os tokens são deduzidos de suas cotas de TPM e TPD. Os cálculos ocorrem nos seguintes estágios:
+ **No início da solicitação**: supondo que você não tenha excedido sua cota de RPM, a soma a seguir é deduzida de suas cotas. A solicitação terá controle de utilização se você exceder uma cota.

  ```
  Total input tokens + max_tokens
  ```
+ **Durante o processamento**: a cota consumida pela solicitação é ajustada periodicamente para levar em conta o número real de tokens de saída gerados.
+ **Ao final da solicitação**: o número total de tokens consumidos pela solicitação será calculado da seguinte forma e todos os tokens não utilizados serão reabastecidos de acordo com sua cota:

  ```
  InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
  ```

  Se você não usar o [armazenamento em cache de prompts](prompt-caching.md), `CacheWriteInputTokens` será 0. `CacheReadInputTokens` não entra nesse cálculo.

**nota**  
Você só receberá cobrança pelo uso real do token.  
Por exemplo, se você usar o Claude Sonnet 4 da Anthropic e enviar uma solicitação contendo 1.000 tokens de entrada e ele gerar uma resposta equivalente a 100 tokens:  
**1.500 tokens** (1.000 \$1 100 x 5) serão deduzidos de suas cotas de TPM e TPD.
Você só receberá cobrança por **1.100 tokens**.

## Noções básicas sobre o impacto do parâmetro max\$1tokens
<a name="quotas-token-burndown-max-tokens"></a>

O valor `max_tokens` é deduzido da sua cota no início de cada solicitação. Se você estiver atingindo as cotas de TPM mais cedo do que o esperado, tente reduzir `max_tokens` para chegar mais próximo do tamanho das respostas.

Os seguintes cenários oferecem exemplos de como as deduções de cota funcionariam em solicitações concluídas usando um modelo que tem uma taxa de burndown de cinco vezes para tokens de saída:

### Cenário 1: alto valor de max\$1tokens
<a name="quotas-token-burndown-max-tokens-too-high"></a>

Considere os seguintes parâmetros:
+ **InputTokenCount:** 3.000
+ **CacheReadInputTokens:** 4.000
+ **CacheWriteInputTokens:** 1.000
+ **OutputTokenCount:** 1.000
+ **max\$1tokens:** 32.000

As seguintes deduções de cota ocorrem:
+ **Dedução inicial quando a solicitação é feita:** 40.000 (= 3.000 \$1 4.000 \$1 1.000 \$1 32.000)
+ **Dedução final ajustada após a geração da resposta:** 9.000 (= 3.000 \$1 1.000 \$1 1.000 x 5)

Nesse cenário, menos solicitações simultâneas poderiam ser feitas porque o parâmetro `max_tokens` foi definido como muito alto. Isso reduz a simultaneidade das solicitações, o throughput e a utilização da cota, pois a capacidade da cota do TPM seria alcançada rapidamente.

### Cenário 2: valor otimizado de max\$1tokens
<a name="quotas-token-burndown-max-tokens-optimized"></a>

Considere os seguintes parâmetros:
+ **InputTokenCount:** 3.000
+ **CacheReadInputTokens:** 4.000
+ **CacheWriteInputTokens:** 1.000
+ **OutputTokenCount:** 1.000
+ **max\$1tokens:** 1.250

As seguintes deduções de cota ocorrem:
+ **Dedução inicial quando a solicitação é feita:** 9.250 (= 3.000 \$1 4.000 \$1 1.000 \$1 1.250)
+ **Dedução final ajustada após a geração da resposta:** 9.000 (= 3.000 \$1 1.000 \$1 1.000 x 5)

Nesse cenário, o parâmetro `max_tokens` foi otimizado, pois a dedução inicial é apenas um pouco maior do que a dedução final ajustada. Isso ajudou a aumentar a simultaneidade das solicitações, o throughput e a utilização da cota.

## Otimizar o parâmetro max\$1tokens
<a name="quotas-token-burndown-max-tokens-optimize"></a>

Ao otimizar o parâmetro `max_tokens`, você pode utilizar com eficiência sua capacidade de cota alocada. Para ajudar a informar sua decisão sobre esse parâmetro, você pode usar a Amazon CloudWatch, que coleta automaticamente métricas de AWS serviços, incluindo dados de uso de tokens no Amazon Bedrock.

Os tokens são registrados nas métricas de runtime `InputTokenCount` e `OutputTokenCount` (para ver mais métricas, consulte [Métricas de runtime do Amazon Bedrock](monitoring.md#runtime-cloudwatch-metrics)).

Para usar o CloudWatch monitoramento para informar sua decisão sobre o `max_tokens` parâmetro, faça o seguinte no Console de gerenciamento da AWS:

1. Faça login no CloudWatch console da Amazon em [https://console.aws.amazon.com/cloudwatch](https://console.aws.amazon.com/cloudwatch).

1. No painel de navegação à esquerda, selecione **Painéis**.

1. Selecione a guia **Painéis automáticos**.

1. Selecione **Bedrock**.

1. No painel **Contagens de tokens por modelo**, selecione o ícone de expansão.

1. Selecione uma duração e parâmetros de intervalo para que as métricas contabilizem o pico de uso.

1. No menu suspenso denominado **Soma**, você pode escolher métricas diferentes para observar o uso de tokens. Examine essas métricas para orientar sua decisão ao definir o valor `max_tokens`.

# Monitorar o uso de tokens contando os tokens antes de executar a inferência
<a name="count-tokens"></a>

Quando você executa inferência do modelo, o número de tokens enviados na entrada é computado no custo da solicitação e contabilizado na cota de tokens que é possível usar por minuto e por dia. A [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)API ajuda você a estimar o uso de tokens antes de enviar solicitações aos modelos básicos, retornando a contagem de tokens que seria usada se a mesma entrada fosse enviada ao modelo em uma solicitação de inferência.

**nota**  
O uso da [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)API não gera cobranças.

A contagem de tokens é específica do modelo porque modelos diferentes usam estratégias de tokenização diferentes. A contagem de tokens exibida por essa operação corresponderá à contagem de tokens que seria cobrada se a mesma entrada fosse enviada ao modelo para executar a inferência.

É possível usar a API `CountTokens` para fazer o seguinte:
+ Estimar os custos antes de enviar solicitações de inferência.
+ Otimizar os prompts para que se ajustem aos limites de token.
+ Planejar o uso de tokens em sua aplicações.

**Topics**
+ [Modelos e regiões em que é possível usar contagem de tokens](#count-tokens-supported)
+ [Contar tokens em uma solicitação](#count-tokens-use)
+ [Experimentar um exemplo](#count-tokens-example)

## Modelos e regiões em que é possível usar contagem de tokens
<a name="count-tokens-supported"></a>

A tabela a seguir mostra o suporte do modelo básico para contagem de tokens:


| Fornecedor | Modelo | ID do modelo | Suporte ao modelo de região única | 
| --- | --- | --- | --- | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v1:0 |  ap-northeast-1 ap-southeast-1 eu-central-1 eu-central-2 us-east-1 us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |  ap-southeast-2 us-west-2  | 
| Anthropic | Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v 1:0 |  eu-west-2  | 
| Anthropic | Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 |  | 
| Anthropic | Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 |  | 

## Contar tokens em uma solicitação
<a name="count-tokens-use"></a>

Para contar o número de tokens de entrada em uma solicitação de inferência, envie uma [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)solicitação com um [endpoint de tempo de execução do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt), especifique o modelo no cabeçalho e a entrada para contar os tokens no campo. `body` O valor do `body` campo depende se você está contando os tokens de entrada para uma solicitação [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)ou para a [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html):
+ Para uma solicitação `InvokeModel`, o formato de `body` é uma string que representa um objeto JSON cujo formato depende do modelo que você especificar.
+ Para uma solicitação `Converse`, o formato de `body` é um objeto JSON que especifica os prompts `messages` e `system` incluídos na conversa.

## Experimentar um exemplo
<a name="count-tokens-example"></a>

Os exemplos nesta seção permitem que você conte tokens para uma solicitação `InvokeModel` e `Converse` com o Claude 3 Haiku da Anthropic.

**Pré-requisitos**
+ Você fez o download AWS SDK para Python (Boto3) e sua configuração está configurada para que suas credenciais e sua AWS região padrão sejam reconhecidas automaticamente.
+ Sua identidade do IAM tem permissões para as seguintes ações (para ter mais informações, consulte [Ações, recursos e chaves de condição do Amazon Bedrock](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html)):
  + bedrock: CountTokens — Permite o uso de. `CountTokens`
  + bedrock: InvokeModel — Permite o uso de `InvokeModel` e. `Converse` Deve ter como escopo*arn:\$1\$1Partition\$1:bedrock:\$1\$1Region\$1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0*, no mínimo.

Para experimentar a contagem de tokens para uma [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)solicitação, execute o seguinte código Python:

```
import boto3
import json

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = json.dumps({
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 500,
    "messages": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ]
})

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "invokeModel": {
            "body": input_to_count
        }
    }
)

print(response["inputTokens"])
```

Para experimentar a contagem de tokens para uma solicitação [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html), execute o seguinte código Python:

```
import boto3
import json 

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of France?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "The capital of France is Paris."
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "text": "What is its population?"
                }
            ]
        }
    ],
    "system": [
        {
            "text": "You're an expert in geography."
        }
    ]
}

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "converse": input_to_count
    }
)

print(response["inputTokens"])
```

# Solicitar um aumento das cotas do Amazon Bedrock
<a name="quotas-increase"></a>

As etapas para solicitar um aumento de cota para sua conta dependem do valor na coluna **Ajustável** na tabela de cotas em [Cotas de serviço do Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock):
+ Se uma cota estiver marcada como **Sim**, você poderá ajustá-la seguindo as etapas em [Solicitar um aumento de cota](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) no “Guia do usuário do Service Quotas”.
+ Seja qual for o modelo, você pode solicitar um aumento para as seguintes cotas ao mesmo tempo:
  + Tokens InvokeModel entre regiões por minuto para *\$1\$1model\$1*
  + Solicitações InvokeModel entre regiões por minuto para *\$1\$1model\$1*
  + Tokens InvokeModel sob demanda por minuto para *\$1\$1model\$1*
  + Solicitações InvokeModel sob demanda por minuto para *\$1\$1model\$1*
  + Número máximo de tokens de invocação de modelo por dia para *\$1 \$1model\$1*

  Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento da cota **tokens InvokeModel entre regiões por minuto para *\$1\$1model\$1*** seguindo as etapas em [Solicitar um aumento de cota](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) no “Guia do usuário do Service Quotas”. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de também aumentar as outras quatro cotas.
**nota**  
Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição.

# Armazenamento em cache de prompts para agilizar a inferência do modelo
<a name="prompt-caching"></a>

O armazenamento em cache de prompts é um recurso opcional que você pode usar com modelos compatíveis no Amazon Bedrock para reduzir a latência da resposta de inferência e os custos de token de entrada. Ao adicionar partes do contexto a um cache, o modelo pode utilizar o cache para ignorar o recálculo das entradas, permitindo que o Bedrock se beneficie da economia de computação e reduza a latência das respostas.

O armazenamento em cache de prompts pode ajudar quando você tem workloads com contextos longos e repetidos que são frequentemente reutilizados para várias consultas. Por exemplo, se você tiver um chatbot em que os usuários possam fazer upload de documentos e fazer perguntas a esses documentos, o modelo pode demorar para processá-los sempre que o usuário fornecer entradas. Com o armazenamento em cache de prompts, é possível armazenar um documento em cache para que futuras consultas contendo o documento não precisem reprocessá-lo.

Ao usar o armazenamento em cache de prompts, é aplicada uma taxa de cobrança reduzida pelos tokens lidos do cache. Dependendo do modelo, pode ser aplicada uma taxa de cobrança mais alta aos tokens gravados em cache do que a dos tokens de entrada não armazenados em cache. Todos os tokens não lidos ou gravados em cache são cobrados de acordo com a taxa de token de entrada padrão desse modelo. Para obter mais informações, consulte a página de [preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing/).

## Como funciona
<a name="prompt-caching-overview"></a>

Se você optar por usar o armazenamento em cache de prompts, o Amazon Bedrock criará um cache composto de *pontos de verificação de cache*. Esses são marcadores que definem a subseção contígua do prompt que você deseja armazenar em cache (geralmente chamada de prefixo do prompt). Esses prefixos de prompt devem ser estáticos entre as solicitações. Alterações no prefixo do prompt em solicitações subsequentes resultarão em ausências no cache.

Os pontos de verificação de cache têm um número mínimo e máximo de tokens, dependendo do modelo específico que você está usando. Só é possível criar um ponto de verificação de cache se o prefixo total do prompt atender ao número mínimo de tokens. Por exemplo, o modelo Claude 3.7 Sonnet da Anthropic requer pelo menos 1.024 tokens por ponto de verificação de cache. Isso significa que seu primeiro ponto de verificação de cache pode ser definido após 1.024 tokens e seu segundo ponto de verificação de cache pode ser definido após 2.048 tokens. Se você tentar adicionar um ponto de verificação de cache antes de atingir o número mínimo de tokens, a inferência ainda assim será bem-sucedida, mas o prefixo não será armazenado em cache. O cache tem um Time To Live (TTL), que é redefinido a cada acesso bem-sucedido ao cache. Durante esse período, o contexto no cache é preservado. Se nenhum acerto de cache ocorrer na janela de TTL, o cache expirará. A maioria dos modelos oferece suporte a TTL de 5 minutos, enquanto Claude Opus 4,5Claude Haiku 4.5, e Claude Sonnet 4.5 também oferece suporte a uma opção TTL estendida de 1 hora.

Você pode usar o armazenamento em cache de prompts sempre que obtiver inferência do modelo no Amazon Bedrock para modelos compatíveis. Os seguintes recursos do Amazon Bedrock permitem usar o armazenamento em cache de prompts:

**Converse e ConverseStream APIs**  
Você pode manter uma conversa com um modelo em que especifica pontos de verificação de cache em seus prompts.

**InvokeModel e InvokeModelWithResponseStream APIs**  
Você pode enviar solicitações de prompt único nas quais habilita o armazenamento em cache de prompts e especifica os pontos de verificação de cache.

**Armazenamento em cache de prompts com inferência entre regiões**  
O armazenamento em cache de prompts pode ser usado em conjunto com a inferência entre regiões. A inferência entre regiões seleciona automaticamente a AWS região ideal em sua geografia para atender à sua solicitação de inferência, maximizando assim os recursos disponíveis e a disponibilidade do modelo. Em momentos de alta demanda, essas otimizações podem aumentar as gravações em cache.

**Gerenciamento de Prompts do Amazon Bedrock**  
Ao [criar](prompt-management-create.md) ou [modificar](prompt-management-modify.md) um prompt, você pode optar por ativar o armazenamento em cache de prompts. Dependendo do modelo, é possível armazenar em cache os prompts do sistema, as instruções do sistema e as mensagens (usuário e assistente). Também é possível optar por desabilitar o armazenamento em cache de prompts.

Eles APIs fornecem a você a maior flexibilidade e controle granular sobre o cache de solicitações. É possível definir um ponto de verificação de cache individual nos prompts. Você pode ampliar o cache criando mais pontos de verificação de cache, até o número máximo de pontos de verificação de cache permitido para o modelo em questão. Para obter mais informações, consulte [Modelos, regiões e limites oferecidos](#prompt-caching-models).

## Modelos, regiões e limites oferecidos
<a name="prompt-caching-models"></a>

A tabela a seguir lista os modelos compatíveis, bem como os tokens mínimos, o número máximo de pontos de verificação de cache e os campos que permitem pontos de verificação de cache.


| Nome do modelo | ID do modelo | Tipo de versão | Número mínimo de tokens por ponto de verificação de cache | Número máximo de pontos de verificação de cache por solicitação | TTL suportado | Campos que aceitam pontos de verificação de armazenamento em cache de prompts | 
| --- | --- | --- | --- | --- | --- | --- | 
| Claude Opus4.5 | antropic.claude-opus-4-5-20251101-v 1:0 | Disponível para o público | 4.096 | 4 | 5 minutos, 1 hora | “system”, “messages” e “tools” | 
| Claude Opus4.1 | anthropic.claude-opus-4-1-20250805-v1:0 | Disponível para o público | 1,024 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 | Disponível para o público | 1,024 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Claude Sonnet 4.5 | anthropic.claude-sonnet-4-5-20250929-v1:0 | Disponível para o público | 1,024 | 4 | 5 minutos, 1 hora | “system”, “messages” e “tools” | 
| Claude Haiku 4.5 | anthropic.claude-haiku-4-5-20251001-v1:0 | Disponível para o público | 4.096 | 4 | 5 minutos, 1 hora | “system”, “messages” e “tools” | 
| Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | Disponível para o público | 1,024 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v 1:0 | Disponível para o público | 1,024 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 | Disponível para o público | 2.048 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 | Demonstração | 1,024 | 4 | 5 minutos | “system”, “messages” e “tools” | 
| Amazon Nova Micro | amazônia. nova-micro-v1:0 | Disponível ao público | 1.0001 | 4 | 5 minutos | “system” e “messages” | 
| Amazon Nova Lite | amazônia. nova-lite-v1:0 | Disponível ao público | 1.0001 | 4 | 5 minutos | “system” e “messages”2 | 
| Amazon Nova Pro | amazônia. nova-pro-v1:0 | Disponível ao público | 1.0001 | 4 | 5 minutos | “system” e “messages”2 | 
| Amazon Nova Premier | amazônia. nova-premier-v1:0 | Disponível ao público | 1.0001 | 4 | 5 minutos | “system” e “messages”2 | 
| Amazon Nova 2 Lite | amazon.nova-2-lite-v 1:0 | Disponível ao público | 1.0001 | 4 | 5 minutos | “system” e “messages”2 | 

1. Os modelos do Amazon Nova comportam no máximo 20 mil tokens para armazenamento em cache de prompts.

2. O armazenamento em cache de prompts destina-se principalmente a solicitações de texto.

Para usar a opção TTL de 1 hora com modelos compatíveis (Claude Opus4.5,, eClaude Sonnet 4.5)Claude Haiku 4.5, especifique o `ttl` campo em seu ponto de verificação de cache. Na API Converse, adicione `"ttl": "1h"` ao seu `cachePoint` objeto. Na InvokeModel API para modelos Claude, adicione `"ttl": "1h"` ao seu `cache_control` objeto. Se nenhum `ttl` valor for fornecido, o comportamento padrão de armazenamento em cache de 5 minutos será aplicado. O TTL de 1 hora é útil para sessões de execução mais longa ou cenários de processamento em lote nos quais você deseja manter o cache por longos períodos.

O Amazon Nova oferece armazenamento em cache de prompts automático para todos os prompts de texto, inclusive para mensagens `User` e `System`. Esse mecanismo pode fornecer benefícios de latência quando os prompts começam com partes repetitivas, mesmo sem configuração explícita. No entanto, para reduzir os custos e garantir benefícios de desempenho mais consistentes, recomendamos optar pelo **armazenamento em cache de prompts explícito**.

## Gerenciamento de cache simplificado para modelos Claude
<a name="prompt-caching-simplified"></a>

Para os modelos Claude, o Amazon Bedrock oferece uma abordagem simplificada para o gerenciamento de cache que reduz a complexidade da colocação manual de pontos de verificação de cache. Em vez de exigir que você especifique os locais exatos dos pontos de verificação de cache, é possível usar o gerenciamento de cache automático com um único ponto de interrupção no final do conteúdo estático.

Ao habilitar o gerenciamento de cache simplificado, o sistema verifica automaticamente os acertos de cache nos limites anteriores do bloco de conteúdo, analisando aproximadamente vinte blocos de conteúdo a partir do ponto de interrupção especificado. Isso permite que o modelo encontre o prefixo correspondente mais longo do cache sem exigir que você preveja os locais ideais dos pontos de verificação. Para usar isso, coloque um único ponto de verificação de cache no final do conteúdo estático, antes de qualquer conteúdo dinâmico ou variável. O sistema encontrará automaticamente a melhor correspondência de cache.

Para ter um controle mais granular, você ainda pode usar vários pontos de verificação de cache (até quatro para os modelos Claude) para especificar limites exatos de cache. Você deve usar vários pontos de verificação de cache se estiver armazenando seções que mudam em frequências diferentes ou se quiser ter maior controle sobre exatamente o que é armazenado em cache.

**Importante**  
A verificação automática de prefixo só analisa aproximadamente vinte blocos de conteúdo do ponto de verificação de cache. Se o conteúdo estático ultrapassar esse intervalo, considere a possibilidade de usar vários pontos de verificação de cache ou reestruturar o prompt para colocar o conteúdo reutilizado com maior frequência dentro desse intervalo.

## Como usar efetivamente o cache imediato
<a name="prompt-caching-effective-use"></a>

Se você tiver solicitações que são usadas em um ritmo regular (ou seja, solicitações do sistema que são usadas com mais frequência do que a cada 5 minutos), continue usando o cache de 5 minutos, pois ele continuará sendo atualizado sem custo adicional.

O cache de 1 hora é melhor usado nos seguintes cenários:
+ Quando você tem avisos que provavelmente são usados com menos frequência do que 5 minutos, mas com mais frequência do que a cada hora. Por exemplo, quando um agente secundário agente demora mais de 5 minutos ou quando armazena uma longa conversa de bate-papo com um usuário e você geralmente espera que o usuário não responda nos próximos 5 minutos.
+ Quando a latência é importante e suas solicitações de acompanhamento podem ser enviadas além de 5 minutos.
+ Quando você quiser melhorar a utilização do limite de taxa, já que os acessos ao cache não são deduzidos do seu limite de taxa.

Você pode usar controles de cache de 1 hora e 5 minutos na mesma solicitação, mas com uma restrição importante: entradas de cache com TTL mais longo devem aparecer antes de mais curtas TTLs (ou seja, uma entrada de cache de 1 hora deve aparecer antes de qualquer entrada de cache de 5 minutos).

## Introdução
<a name="prompt-caching-get-started"></a>

As seções a seguir mostram uma breve visão geral de como usar o recurso de armazenamento em cache de prompts para cada método de interação com modelos por meio do Amazon Bedrock.

### ConverseAPI
<a name="prompt-caching-converse"></a>

A API [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) oferece opções avançadas e flexíveis para implementar o armazenamento em cache de prompts em conversas de vários turnos. Para ter mais informações sobre os requisitos de prompt para cada modelo, consulte a seção anterior [Modelos, regiões e limites oferecidos](#prompt-caching-models).

**Exemplo de solicitação**

Os exemplos a seguir mostram um ponto de verificação de cache definido nos campos `messages`, `system` ou `tools` de uma solicitação para a API Converse. É possível colocar pontos de verificação em qualquer um desses locais para uma determinada solicitação. Por exemplo, ao enviar uma solicitação ao modelo Claude 3.5 Sonnet v2, você pode colocar dois pontos de verificação de cache em `messages`, um ponto de verificação de cache em `system` e um em `tools`. Para ter informações mais detalhadas e exemplos de estruturação e envio de solicitações de API Converse, consulte [Realizar uma conversa com as operações de API Converse](conversation-inference.md).

Especifique o valor de ttl desejado conforme abaixo, quando o valor de ttl não for especificado, o comportamento padrão de 5 minutos de armazenamento em cache se aplica.

```
"cachePoint" : {
    "type": "default",
    "ttl" : "5m | 1h"
}
```

------
#### [ messages checkpoints ]

Neste exemplo, o primeiro campo, `image`, fornece uma imagem para o modelo e o segundo, `text`, solicita que o modelo analise a imagem. Desde que o número de tokens anteriores ao `cachePoint` no objeto `content` atenda à contagem mínima de tokens do modelo, um ponto de verificação de cache será criado.

```
...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...
```

------
#### [ system checkpoints ]

Neste exemplo, o prompt do sistema é fornecido no campo `text`. Além disso, você pode adicionar um campo `cachePoint` para armazenar em cache o prompt do sistema.

```
...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...
```

------
#### [ tools checkpoints ]

Neste exemplo, a definição da ferramenta é fornecida no campo `toolSpec`. (Como alternativa, você pode chamar uma ferramenta que você definiu anteriormente. Para ter mais informações, consulte [Use uma ferramenta para concluir uma resposta do modelo do Amazon Bedrock](tool-use.md).) Depois, você pode adicionar um campo `cachePoint` para armazenar a ferramenta em cache.

```
...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...
```

------

A resposta do modelo da Converse API inclui três novos campos que são específicos para o cache de solicitações. Os valores `CacheReadInputTokens` e `CacheWriteInputTokens` informam quantos tokens foram lidos do cache e quantos tokens foram gravados no cache em resposta à sua solicitação anterior. Os `CacheDetails` valores informam o ttl usado para o número de tokens gravados no cache. Esses são os valores com base nos quais o Amazon Bedrock aplica cobranças, a uma taxa inferior ao custo de inferência de modelo completa.

### InvokeModel API
<a name="prompt-caching-invoke"></a>

O cache de prompts é ativado por padrão quando você chama a [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)API. Você pode definir pontos de verificação de cache em qualquer ponto do corpo da solicitação, de modo semelhante ao exemplo anterior da API Converse.

------
#### [ Anthropic Claude ]

O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o modelo Anthropic Claude 3.5 Sonnet v2. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo do corpo de solicitação e resposta para diferentes modelos, consulte [Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

Especifique o valor de ttl desejado conforme abaixo, quando o valor de ttl não for especificado, o comportamento padrão de 5 minutos de armazenamento em cache se aplica.

```
"cache_control" : {
    "type": "ephemeral",
    "ttl" : "5m | 1h"
}
```

```
body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}
```

------
#### [ Amazon Nova ]

O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o Amazon Nova modelo. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo do corpo de solicitação e resposta para diferentes modelos, consulte [Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

```
{
    "system": [{
        "text": "Reply Concisely"
    }],
    "messages": [{
        "role": "user",
        "content": [{
            "text": "Describe the best way to learn programming"
        },
        {
            "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
            "cachePoint": {
                "type": "default"
            }
        }]
    }],
    "inferenceConfig": {
        "maxTokens": 300,
        "topP": 0.1,
        "topK": 20,
        "temperature": 0.3
    }
}
```

------

Para obter mais informações sobre o envio de uma InvokeModel solicitação, consulte[Envie uma única solicitação com InvokeModel](inference-invoke.md).

### Playground
<a name="prompt-caching-playground"></a>

Em um playground de chat no console do Amazon Bedrock, é possível ativar a opção de armazenamento em cache de prompts para que o Amazon Bedrock crie automaticamente pontos de verificação de cache para você.

Siga as instruções em [Gerar respostas no console usando playgrounds](playgrounds.md) para começar a usar prompts em um playground do Amazon Bedrock. Para modelos compatíveis, o armazenamento em cache de prompts é ativado automaticamente no playground. No entanto, se não estiver, faça o seguinte para ativá-lo:

1. No painel lateral esquerdo, abra o menu **Configurações**.

1. Ative o botão **Armazenamento em cache de prompts**.

1. Execute seus prompts.

Depois que as entradas e respostas do modelo atingem, em conjunto, o número mínimo necessário de tokens para um ponto de verificação (que varia de acordo com o modelo), o Amazon Bedrock cria automaticamente o primeiro ponto de verificação de cache para você. Conforme o chat continua, a cada vez subsequente que o número mínimo de tokens é atingido, é criado um ponto de verificação, até o número máximo de pontos de verificação permitido para o modelo. É possível visualizar os pontos de verificação de cache a qualquer momento escolhendo **Visualizar pontos de verificação de cache** ao lado do botão **Armazenamento em cache de prompts**, conforme mostrado na captura de tela a seguir.

![\[Ativação e desativação da interface de usuário para armazenamento em cache de prompts em um playground de texto do Amazon Bedrock.\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/images/prompt-caching/bedrock-prompt-caching-ui-toggle.png)


É possível ver quantos tokens estão sendo lidos e gravados no cache em resposta a cada interação com o modelo visualizando o pop-up **Métricas de cache** (![\[The metrics icon shown in model responses when prompt caching is enabled.\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/images/prompt-caching/bedrock-prompt-caching-metrics-icon.png)) nas respostas do playground.

![\[Caixa de métricas de armazenamento em cache que mostra o número de tokens lidos e gravados no cache.\]](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/images/prompt-caching/bedrock-prompt-caching-metrics.png)


Se você desativar o botão de armazenamento em cache de prompts no meio de uma conversa, poderá continuar conversando com o modelo.