Puntos de conexión y cuotas de Amazon Bedrock - AWS Referencia general

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Puntos de conexión y cuotas de Amazon Bedrock

Para conectarse mediante programación a un AWS servicio, se utiliza un punto final. AWS los servicios ofrecen los siguientes tipos de puntos de conexión en algunas o todas las AWS regiones compatibles con el servicio: puntos de conexión, IPv4 puntos de conexión de doble pila y puntos de conexión FIPS. Algunos servicios proporcionan puntos de conexión globales. Para obtener más información, consulte Puntos de conexión de los servicios de AWS.

Las cuotas de servicio, también denominadas límites, son la cantidad máxima de recursos u operaciones de servicio para su cuenta. AWS Para obtener más información, consulte Service Quotas de AWS.

En las páginas siguientes se describen los puntos de conexión y las cuotas de servicio para este servicio.

Puntos de conexión del servicio de Amazon Bedrock

Avión de control Amazon Bedrock APIs

La siguiente tabla proporciona una lista de los puntos de conexión específicos de cada región que admite Amazon Bedrock para la administración, el entrenamiento y la implementación de modelos. Utilice estos puntos de conexión para las operaciones de la API de Amazon Bedrock.

Nombre de la región Región Punto de conexión Protocolo
Este de EE. UU. (Ohio) us-east-2

bedrock.us-east-2.amazonaws.com

bedrock-fips.us-east-2.amazonaws.com

HTTPS

HTTPS

Este de EE. UU. (Norte de Virginia) us-east-1

bedrock.us-east-1.amazonaws.com

bedrock-fips.us-east-1.amazonaws.com

HTTPS

HTTPS

Oeste de EE. UU. (Norte de California) us-west-1

bedrock.us-west-1.amazonaws.com

bedrock-fips.us-west-1.amazonaws.com

HTTPS

HTTPS

Oeste de EE. UU. (Oregón) us-west-2

bedrock.us-west-2.amazonaws.com

bedrock-fips.us-west-2.amazonaws.com

HTTPS

HTTPS

África (Ciudad del Cabo) af-south-1 bedrock.af-south-1.amazonaws.com HTTPS
Asia-Pacífico (Hyderabad) ap-south-2 bedrock.ap-south-2.amazonaws.com HTTPS
Asia-Pacífico (Yakarta) ap-southeast-3 bedrock.ap-southeast-3.amazonaws.com HTTPS
Asia-Pacífico (Malasia) ap-southeast-5 bedrock.ap-southeast-5.amazonaws.com HTTPS
Asia-Pacífico (Melbourne) ap-southeast-4 bedrock.ap-southeast-4.amazonaws.com HTTPS
Asia-Pacífico (Mumbai) ap-south-1 bedrock.ap-south-1.amazonaws.com HTTPS
Asia-Pacífico (Nueva Zelanda) ap-southeast-6 bedrock.ap-southeast-6.amazonaws.com HTTPS
Asia-Pacífico (Osaka) ap-northeast-3 bedrock.ap-northeast-3.amazonaws.com HTTPS
Asia-Pacífico (Seúl) ap-northeast-2 bedrock.ap-northeast-2.amazonaws.com HTTPS
Asia-Pacífico (Singapur) ap-southeast-1 bedrock.ap-southeast-1.amazonaws.com HTTPS
Asia-Pacífico (Sídney) ap-southeast-2 bedrock.ap-southeast-2.amazonaws.com HTTPS
Asia-Pacífico (Taipéi) ap-east-2 bedrock.ap-east-2.amazonaws.com HTTPS
Asia-Pacífico (Tailandia) ap-southeast-7 bedrock.ap-southeast-7.amazonaws.com HTTPS
Asia-Pacífico (Tokio) ap-northeast-1 bedrock.ap-northeast-1.amazonaws.com HTTPS
Canadá (centro) ca-central-1

bedrock.ca-central-1.amazonaws.com

bedrock-fips.ca-central-1.amazonaws.com

HTTPS

HTTPS

Oeste de Canadá (Calgary) ca-west-1

bedrock.ca-west-1.amazonaws.com

bedrock-fips.ca-west-1.amazonaws.com

HTTPS

HTTPS

Europa (Fráncfort) eu-central-1 bedrock.eu-central-1.amazonaws.com HTTPS
Europa (Irlanda) eu-west-1 bedrock.eu-west-1.amazonaws.com HTTPS
Europa (Londres) eu-west-2 bedrock.eu-west-2.amazonaws.com HTTPS
Europa (Milán) eu-south-1 bedrock.eu-south-1.amazonaws.com HTTPS
Europa (París) eu-west-3 bedrock.eu-west-3.amazonaws.com HTTPS
Europa (España) eu-south-2 bedrock.eu-south-2.amazonaws.com HTTPS
Europa (Estocolmo) eu-north-1 bedrock.eu-north-1.amazonaws.com HTTPS
Europa (Zúrich) eu-central-2 bedrock.eu-central-2.amazonaws.com HTTPS
Israel (Tel Aviv) il-central-1 bedrock.il-central-1.amazonaws.com HTTPS
México (centro) mx-central-1 bedrock.mx-central-1.amazonaws.com HTTPS
Medio Oriente (Baréin) me-south-1 bedrock.me-south-1.amazonaws.com HTTPS
Medio Oriente (EAU) me-central-1 bedrock.me-central-1.amazonaws.com HTTPS
América del Sur (São Paulo) sa-east-1 bedrock.sa-east-1.amazonaws.com HTTPS
AWS GovCloud (Este de EE. UU.) us-gov-east-1

bedrock.us-gov-east-1.amazonaws.com

bedrock-fips.us-gov-east-1.amazonaws.com

HTTPS

HTTPS

AWS GovCloud (EE. UU.-Oeste) us-gov-west-1

bedrock.us-gov-west-1.amazonaws.com

bedrock-fips.us-gov-west-1.amazonaws.com

HTTPS

HTTPS

Tiempo de ejecución de Amazon Bedrock APIs

La siguiente tabla contiene una lista de los puntos de conexión específicos de cada región que Amazon Bedrock admite para realizar solicitudes de inferencia en los modelos alojados en Amazon Bedrock. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Amazon Bedrock.

Nombre de la región Región Punto de conexión Protocolo
Este de EE. UU. (Ohio) us-east-2

bedrock-runtime.us-east-2.amazonaws.com

bedrock-runtime-fips.us-east-2.amazonaws.com

HTTPS

HTTPS

Este de EE. UU. (Norte de Virginia) us-east-1

bedrock-runtime.us-east-1.amazonaws.com

bedrock-runtime-fips.us-east-1.amazonaws.com

HTTPS

HTTPS

Oeste de EE. UU. (Oregón) us-west-2

bedrock-runtime.us-west-2.amazonaws.com

bedrock-runtime-fips.us-west-2.amazonaws.com

HTTPS

HTTPS

Asia-Pacífico (Hyderabad) ap-south-2 bedrock-runtime.ap-south-2.amazonaws.com HTTPS
Asia-Pacífico (Mumbai) ap-south-1 bedrock-runtime.ap-south-1.amazonaws.com HTTPS
Asia-Pacífico (Osaka) ap-northeast-3 bedrock-runtime.ap-northeast-3.amazonaws.com HTTPS
Asia-Pacífico (Seúl) ap-northeast-2 bedrock-runtime.ap-northeast-2.amazonaws.com HTTPS
Asia-Pacífico (Singapur) ap-southeast-1 bedrock-runtime.ap-southeast-1.amazonaws.com HTTPS
Asia-Pacífico (Sídney) ap-southeast-2 bedrock-runtime.ap-southeast-2.amazonaws.com HTTPS
Asia-Pacífico (Tokio) ap-northeast-1 bedrock-runtime.ap-northeast-1.amazonaws.com HTTPS
Canadá (centro) ca-central-1

bedrock-runtime.ca-central-1.amazonaws.com

bedrock-runtime-fips.ca-central-1.amazonaws.com

HTTPS

HTTPS

Europa (Fráncfort) eu-central-1 bedrock-runtime.eu-central-1.amazonaws.com HTTPS
Europa (Irlanda) eu-west-1 bedrock-runtime.eu-west-1.amazonaws.com HTTPS
Europa (Londres) eu-west-2 bedrock-runtime.eu-west-2.amazonaws.com HTTPS
Europa (Milán) eu-south-1 bedrock-runtime.eu-south-1.amazonaws.com HTTPS
Europa (París) eu-west-3 bedrock-runtime.eu-west-3.amazonaws.com HTTPS
Europa (España) eu-south-2 bedrock-runtime.eu-south-2.amazonaws.com HTTPS
Europa (Estocolmo) eu-north-1 bedrock-runtime.eu-north-1.amazonaws.com HTTPS
Europa (Zúrich) eu-central-2 bedrock-runtime.eu-central-2.amazonaws.com HTTPS
América del Sur (São Paulo) sa-east-1 bedrock-runtime.sa-east-1.amazonaws.com HTTPS
AWS GovCloud (Este de EE. UU.) us-gov-east-1

bedrock-runtime.us-gov-east-1.amazonaws.com

bedrock-runtime-fips.us-gov-east-1.amazonaws.com

HTTPS

HTTPS

AWS GovCloud (EE. UU.-Oeste) us-gov-west-1

bedrock-runtime.us-gov-west-1.amazonaws.com

bedrock-runtime-fips.us-gov-west-1.amazonaws.com

HTTPS

HTTPS

Tiempo de construcción de Agents for Amazon Bedrock APIs

La siguiente tabla contiene una lista de los puntos de conexión específicos de cada región que admite Agentes para Amazon Bedrock para la creación y la administración de agentes y bases de conocimiento. Utilice estos puntos de conexión para las operaciones de la API de Agentes para Amazon Bedrock.

Nombre de la región Región Punto de conexión Protocolo
Este de EE. UU. (Norte de Virginia) us-east-1 bedrock-agent.us-east-1.amazonaws.com HTTPS
bedrock-agent-fips.us-east-1.amazonaws.com HTTPS
Oeste de EE. UU. (Oregón) us-west-2 bedrock-agent.us-west-2.amazonaws.com HTTPS
bedrock-agent-fips.us-west-2.amazonaws.com HTTPS
Asia-Pacífico (Singapur) ap-southeast-1 bedrock-agent.ap-southeast-1.amazonaws.com HTTPS
Asia-Pacífico (Sídney) ap-southeast-2 bedrock-agent.ap-southeast-2.amazonaws.com HTTPS
Asia-Pacífico (Tokio) ap-northeast-1 bedrock-agent.ap-northeast-1.amazonaws.com HTTPS
Asia-Pacífico (Seúl) ap-northeast-2 bedrock-agent.ap-northeast-2.amazonaws.com HTTPS
Canadá (centro) ca-central-1 bedrock-agent.ca-central-1.amazonaws.com HTTPS
Europa (Fráncfort) eu-central-1 bedrock-runtime.eu-central-1.amazonaws.com HTTPS
Europa (Irlanda) eu-west-1 bedrock-agent.eu-west-1.amazonaws.com HTTPS
Europa (Londres) eu-west-2 bedrock-agent.eu-west-2.amazonaws.com HTTPS
Europa (París) eu-west-3 bedrock-agent.eu-west-3.amazonaws.com HTTPS
Asia-Pacífico (Mumbai) ap-south-1 bedrock-agent.ap-south-1.amazonaws.com HTTPS
América del Sur (São Paulo) sa-east-1 bedrock-agent.sa-east-1.amazonaws.com HTTPS

Tiempo de ejecución de Agents for Amazon Bedrock APIs

La siguiente tabla contiene una lista de los puntos de conexión específicos de cada región que admite Agentes para Amazon Bedrock para la invocación de agentes y la consulta de bases de conocimiento. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Agentes para Amazon Bedrock.

Nombre de la región Región Punto de conexión Protocolo
Este de EE. UU. (Norte de Virginia) us-east-1 bedrock-agent-runtime.us-east-1.amazonaws.com HTTPS
bedrock-agent-runtime-fips.us-east-1.amazonaws.com HTTPS
Oeste de EE. UU. (Oregón) us-west-2 bedrock-agent-runtime.us-west-2.amazonaws.com HTTPS
bedrock-agent-runtime-fips.us-west-2.amazonaws.com HTTPS
Asia-Pacífico (Singapur) ap-southeast-1 bedrock-agent-runtime.ap-southeast-1.amazonaws.com HTTPS
Asia-Pacífico (Sídney) ap-southeast-2 bedrock-agent-runtime.ap-southeast-2.amazonaws.com HTTPS
Asia-Pacífico (Tokio) ap-northeast-1 bedrock-agent-runtime.ap-northeast-1.amazonaws.com HTTPS
Asia-Pacífico (Seúl) ap-northeast-2 bedrock-agent-runtime.ap-northeast-2.amazonaws.com HTTPS
Canadá (centro) ca-central-1 bedrock-agent-runtime.ca-central-1.amazonaws.com HTTPS
Europa (Fráncfort) eu-central-1 bedrock-agent-runtime.eu-central-1.amazonaws.com HTTPS
Europa (París) eu-west-3 bedrock-agent-runtime.eu-west-3.amazonaws.com HTTPS
Europa (Irlanda) eu-west-1 bedrock-agent-runtime.eu-west-1.amazonaws.com HTTPS
Europa (Londres) eu-west-2 bedrock-agent-runtime.eu-west-2.amazonaws.com HTTPS
Asia-Pacífico (Mumbai) ap-south-1 bedrock-agent-runtime.ap-south-1.amazonaws.com HTTPS
América del Sur (São Paulo) sa-east-1 bedrock-agent-runtime.sa-east-1.amazonaws.com HTTPS

Automatización de datos de Amazon Bedrock APIs

En la siguiente tabla se proporciona una lista de los puntos de conexión específicos de cada región que admite Amazon Bedrock. Los puntos finales que utilizan la palabra runtime invocan planos y proyectos para extraer información de los archivos. Utilice estos puntos de conexión para las operaciones de tiempo de ejecución de la API de Automatización de Datos de Amazon Bedrock. Los puntos de conexión sin runtime se utilizan para crear esquemas y proyectos que sirvan de guía para la extracción. Utilice estos puntos de conexión para las operaciones de compilación de la API de Automatización de Datos de Amazon Bedrock.

Nombre de la región Región Punto de conexión Protocolo
Este de EE. UU. (Norte de Virginia) us-east-1

bedrock-data-automation.us-east-1.amazonaws.com

bedrock-data-automation-runtime.us-east-1.api.aws

bedrock-data-automation-runtime.us-east-1.amazonaws.com

bedrock-data-automation.us-east-1.api.aws

bedrock-data-automation-fips.us-east-1.amazonaws.com

bedrock-data-automation-runtime-fips.us-east-1.api.aws

bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com

bedrock-data-automation-fips.us-east-1.api.aws

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

Oeste de EE. UU. (Oregón) us-west-2

bedrock-data-automation.us-west-2.amazonaws.com

bedrock-data-automation-runtime.us-west-2.api.aws

bedrock-data-automation-runtime.us-west-2.amazonaws.com

bedrock-data-automation.us-west-2.api.aws

bedrock-data-automation-fips.us-west-2.amazonaws.com

bedrock-data-automation-runtime-fips.us-west-2.api.aws

bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com

bedrock-data-automation-fips.us-west-2.api.aws

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

HTTPS

Asia-Pacífico (Mumbai) ap-south-1

bedrock-data-automation.ap-south-1.amazonaws.com

bedrock-data-automation-runtime.ap-south-1.amazonaws.com

HTTPS

HTTPS

Asia-Pacífico (Sídney) ap-southeast-2

bedrock-data-automation.ap-southeast-2.amazonaws.com

bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com

HTTPS

HTTPS

Europa (Fráncfort) eu-central-1

bedrock-data-automation.eu-central-1.amazonaws.com

bedrock-data-automation-runtime.eu-central-1.amazonaws.com

HTTPS

HTTPS

Europa (Irlanda) eu-west-1

bedrock-data-automation.eu-west-1.amazonaws.com

bedrock-data-automation-runtime.eu-west-1.amazonaws.com

HTTPS

HTTPS

Europa (Londres) eu-west-2

bedrock-data-automation.eu-west-2.amazonaws.com

bedrock-data-automation-runtime.eu-west-2.amazonaws.com

HTTPS

HTTPS

AWS GovCloud (EE. UU.-Oeste) us-gov-west-1

bedrock-data-automation.us-gov-west-1.amazonaws.com

bedrock-data-automation-runtime.us-gov-west-1.amazonaws.com

bedrock-data-automation-fips.us-gov-west-1.amazonaws.com

bedrock-data-automation-runtime-fips.us-gov-west-1.amazonaws.com

HTTPS

HTTPS

HTTPS

HTTPS

Cuotas de servicio de Amazon Bedrock

sugerencia

Dado que Amazon Bedrock tiene un gran número de cuotas, le recomendamos que consulte las cuotas de servicio mediante la consola en lugar de utilizar la tabla siguiente. Abre las cuotas de Amazon Bedrock. Para buscar consultas específicas, utilice el cuadro de búsqueda. Usa el icono con forma de engranaje para controlar el número de cuotas que se muestran en una página.

Name Predeterminado Ajustable Description (Descripción)
(Optimización de peticiones avanzadas) Trabajos activos por cuenta Cada región admitida: 20 No Número máximo de trabajos de optimización de peticiones avanzadas (APO) activos por cuenta.
(Optimización de peticiones avanzadas) Trabajos inactivos por cuenta Cada región admitida: 5000 No Número máximo de trabajos de optimización de peticiones avanzadas (APO) inactivos por cuenta.
(Razonamiento automatizado) Anotaciones en la política Cada región admitida: 10 No El número máximo de anotaciones en una política de razonamiento automatizado.
(Razonamiento automatizado) CancelAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de CancelAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) Compilaciones simultáneas por política Cada región admitida: 2 No El número máximo de versiones simultáneas por política de razonamiento automatizado.
(Razonamiento automatizado) Compilaciones simultáneas de política por cuenta Cada región admitida: 5 No El número máximo de políticas de razonamiento automatizado simultáneas en una cuenta.
(Razonamiento automatizado) CreateAutomatedReasoningPolicy solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de CreateAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) CreateAutomatedReasoningPolicyTestCase solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de CreateAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) CreateAutomatedReasoningPolicyVersion solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de CreateAutomatedReasoningPolicyVersion API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicy solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de DeleteAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de DeleteAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) DeleteAutomatedReasoningPolicyTestCase solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de DeleteAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) ExportAutomatedReasoningPolicyVersion solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de ExportAutomatedReasoningPolicyVersion API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicy solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyAnnotations solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyAnnotations API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyBuildWorkflowResultAssets solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyBuildWorkflowResultAssets API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyNextScenario solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyNextScenario API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyTestCase solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) GetAutomatedReasoningPolicyTestResult solicitudes por segundo Cada región admitida: 10 El número máximo de solicitudes de GetAutomatedReasoningPolicyTestResult API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicies solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de ListAutomatedReasoningPolicies API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyBuildWorkflows solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de ListAutomatedReasoningPolicyBuildWorkflows API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyTestCases solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de ListAutomatedReasoningPolicyTestCases API por segundo.
(Razonamiento automatizado) ListAutomatedReasoningPolicyTestResults solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de ListAutomatedReasoningPolicyTestResults API por segundo.
(Razonamiento automatizado) Políticas por segundo Cada región admitida: 100 No El número máximo de políticas de razonamiento automatizado en una cuenta.
(Razonamiento automatizado) Reglas en la política Cada región admitida: 500 No El número máximo de reglas en una política de razonamiento automatizado.
(Razonamiento automatizado) Tamaño del documento origen (MB) Cada región admitida: 5 No El tamaño máximo del documento fuente (MB) para crear una política de razonamiento automatizado.
(Razonamiento automatizado) Tokens del documento origen Cada región admitida: 122 880 No El número máximo de símbolos permitido en un documento fuente al crear una política de razonamiento automatizado.
(Razonamiento automatizado) StartAutomatedReasoningPolicyBuildWorkflow solicitudes por segundo Cada región admitida: 1 El número máximo de solicitudes de StartAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Razonamiento automatizado) StartAutomatedReasoningPolicyTestWorkflow solicitudes por segundo Cada región admitida: 1 El número máximo de solicitudes de StartAutomatedReasoningPolicyTestWorkflow API por segundo.
(Razonamiento automatizado) Pruebas por política Cada región admitida: 100 No El número máximo de pruebas por política de razonamiento automatizado.
(Razonamiento automatizado) Tipos por política Cada región admitida: 50 No El número máximo de tipos en una política de razonamiento automatizado.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicy solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de UpdateAutomatedReasoningPolicy API por segundo.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicyAnnotations solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de UpdateAutomatedReasoningPolicyAnnotations API por segundo.
(Razonamiento automatizado) UpdateAutomatedReasoningPolicyTestCase solicitudes por segundo Cada región admitida: 5 El número máximo de solicitudes de UpdateAutomatedReasoningPolicyTestCase API por segundo.
(Razonamiento automatizado) Valores por tipo en la política Cada región admitida: 50 No El número máximo de valores por tipo en una política de razonamiento automatizado.
(Razonamiento automatizado) Variables en la política Cada región admitida: 200 No El número máximo de variables en una política de razonamiento automatizado.
(Razonamiento automatizado) Versiones por política Cada región admitida: 1000 No El número máximo de versiones por política de razonamiento automatizado.
(Automatización de datos) (Consola) Tamaño máximo del archivo del documento (MB) Cada región admitida: 200 No El tamaño de archivo máximo para la consola
(Automatización de datos) (Consola) Número máximo de páginas por archivo de documento Cada región admitida: 20 No Número máximo de páginas por documento en la consola
(Automatización de datos) CreateBlueprint : número máximo de planos por cuenta Cada región admitida: 350 Número máximo de etiquetas lf por cuenta.
(Automatización de datos) CreateBlueprintVersion : número máximo de versiones de blueprint por blueprint Cada región admitida: 10 El número máximo de versiones por esquema
(Automatización de datos) Longitud de la descripción de los campos (caracteres) Cada región admitida: 300 No La longitud máxima de la descripción de los campos en caracteres.
(Automatización de datos) InvokeBlueprintOptimizationAsync : número máximo de trabajos simultáneos de optimización de planos Cada región admitida: 3 El número máximo de trabajos abiertos de Invoke Blueprint Optimization Async
(Automatización de datos) InvokeBlueprintOptimizationAsync : número máximo de trabajos de optimización de planos por día Cada región admitida: 30 No El número máximo de trabajos asíncronos de Invoke Blueprint Optimization por día
(Automatización de datos) InvokeDataAutomation (Sincronización) - Documento: número máximo de solicitudes Cada región admitida: 60 El número máximo de InvokeDataAutomation solicitudes por minuto para la modalidad de documento
(Automatización de datos) InvokeDataAutomation (Sincronización) - Imagen: número máximo de solicitudes

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 100

El número máximo de InvokeDataAutomation solicitudes por minuto para la modalidad de imagen
(Automatización de datos) InvokeDataAutomationAsync - Audio: número máximo de trabajos simultáneos

us-east-1: 20

us-west-2: 20

Cada una de las demás regiones compatibles: 2

Número máximo de trabajos abiertos de Invoke Data Automation Async para audios
(Automatización de datos) InvokeDataAutomationAsync - Documento: número máximo de trabajos simultáneos

us-east-1:25

us-west-2:25

Cada una de las demás regiones compatibles: 5

El número máximo de trabajos abiertos de Invoke Data Automation Async para documentos
(Automatización de datos) InvokeDataAutomationAsync - Imagen: número máximo de trabajos simultáneos

us-east-1: 20

us-west-2: 20

Cada una de las demás regiones compatibles: 5

El número máximo de trabajos abiertos de Invoke Data Automation Async para imágenes
(Automatización de datos) InvokeDataAutomationAsync : número máximo de puestos vacantes Cada región admitida: 1800 No El número máximo de trabajos abiertos de Invoke Data Automation Async para imágenes
(Automatización de datos) InvokeDataAutomationAsync - Vídeo: número máximo de trabajos simultáneos

us-east-1: 20

us-west-2: 20

Cada una de las demás regiones compatibles: 3

Número máximo de trabajos abiertos de Invoke Data Automation Async para vídeos
(Automatización de datos) Frecuencia máxima de muestreo de audio (Hz) Cada región admitida: 48 000 No La frecuencia de muestreo de audio máxima
(Automatización de datos) Número máximo de planos por proyecto (audios) Cada región admitida: 1 No Número máximo de planos por proyecto para audios
(Automatización de datos) Número máximo de planos por proyecto (documentos) Cada región admitida: 40 No Número máximo de planos por proyecto para documentos
(Automatización de datos) Número máximo de planos por proyecto (imágenes) Cada región admitida: 1 No Número máximo de planos por proyecto para imágenes
(Automatización de datos) Número máximo de planos por proyecto (vídeos) Cada región admitida: 1 No Número máximo de planos por proyecto para vídeos
(Automatización de datos) Tamaño máximo del esquema JSON (caracteres) Cada región admitida: 100 000 No El tamaño máximo de JSON en caracteres
(Automatización de datos) Niveles máximos de jerarquía de campos Cada región admitida: 1 No El nivel numérico máximo de la jerarquía de campos
(Automatización de datos) Número máximo de páginas por documento Cada región admitida: 3000 No Número máximo de piezas de documentación por API
(Automatización de datos) Resolución máxima Cada región admitida: 8 000 No La resolución máxima de las imágenes
(Automatización de datos) Tamaño máximo del archivo de audio (MB) Cada región admitida: 2048 No El tamaño de archivo máximo para el audio
(Automatización de datos) Duración máxima de audio (minutos) Cada región compatible: 240 No La duración máxima del audio en minutos
(Automatización de datos) Tamaño máximo del archivo del documento (MB) Cada región admitida: 500 No El tamaño de archivo máximo (en MB).
(Automatización de datos) Tamaño máximo del archivo de imagen (MB) Cada región admitida: 5 No El tamaño de archivo máximo para las imágenes
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (audios) Cada región admitida: 1 No El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (documentos) Cada región admitida: 10 No El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (imágenes) Cada región admitida: 1 No El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de planos por solicitud de inicio de inferencia (vídeos) Cada región admitida: 1 No El número máximo de esquemas en línea en la solicitud de inferencia de Start
(Automatización de datos) Número máximo de campos de lista por plano Cada región admitida: 15 No Número máximo de etiquetas de lista por esquema
(Automatización de datos) Tamaño máximo del archivo de vídeo (MB) Cada región admitida: 10 240 No El tamaño de archivo máximo para los vídeos
(Automatización de datos) Duración máxima del vídeo (minutos) Cada región compatible: 240 No La duración máxima de los vídeos en minutos
(Automatización de datos) Frecuencia mínima de muestreo de audio (Hz) Cada región admitida: 8 000 No Frecuencia de muestreo de audio en Hz.
(Automatización de datos) Duración mínima de audio (milisegundos) Cada región admitida: 500 No La duración mínima del audio en milisegundos
(Evaluación) Número de tareas simultáneas de evaluación automática del modelo Cada región admitida: 20 No La cantidad máxima de trabajos de evaluación automática de modelos que puede especificar al mismo tiempo en esta cuenta en la región actual.
(Evaluación) Número de trabajos simultáneos de evaluación de modelos en los que participan trabajadores humanos Cada región admitida: 10 No El número máximo de trabajos de evaluación de modelos que utilizan trabajadores humanos que puede especificar al mismo tiempo en esta cuenta en la región actual.
(Evaluación) Número de métricas personalizadas Cada región admitida: 10 No La cantidad máxima de métricas personalizadas que puede especificar en un trabajo de evaluación del modelo en el que intervienen trabajadores humanos.
(Evaluación) La cantidad de conjuntos de datos de peticiones personalizadas en un trabajo de evaluación de modelos con intervención humana Cada región admitida: 1 No La cantidad máxima de conjuntos de datos de peticiones personalizadas que puede especificar en un trabajo de evaluación de modelos basados en humanos en esta cuenta en la región actual.
(Evaluación) Número de conjuntos de datos por trabajo Cada región admitida: 5 No La cantidad máxima de conjuntos de datos que puede especificar en un trabajo de evaluación de modelos automatizada. Esto incluye conjuntos de datos de peticiones personalizado e integrado.
(Evaluación) Número de trabajos de evaluación Cada región admitida: 5000 No El número máximo de trabajos de evaluación de modelos que puede crear en esta cuenta en la región actual.
(Evaluación) Número de métricas por conjunto de datos Cada región admitida: 3 No El número máximo de métricas que puede especificar por conjunto de datos en un trabajo de evaluación de modelos automatizado. Esto incluye métricas personalizadas e integradas.
(Evaluación) Número de modelos en un trabajo de evaluación de modelos en el que participan trabajadores humanos Cada región admitida: 2 No La cantidad máxima de modelos que puede especificar en un trabajo de evaluación de modelos en el que intervienen trabajadores humanos.
(Evaluación) Número de modelos en un trabajo de evaluación de modelos automatizada Cada región admitida: 1 No El número máximo de modelos que puede especificar en un trabajo de evaluación de modelos automatizado.
(Evaluación) Número de peticiones en un conjunto de datos de peticiones personalizado Cada región admitida: 1000 No El número máximo de peticiones que puede contener un conjunto de datos de peticiones personalizadas.
(Evaluación) Tamaño de la petición Cada región admitida: 4 No El tamaño máximo (en KB) de una petición individual en un conjunto de datos de solicitudes personalizado.
(Evaluación) Tiempo de trabajo para los trabajadores Cada región admitida: 30 No El tiempo máximo (en días) del que puede disponer un trabajador para completar las tareas.
(Flujos) Nodos de agente por flujo Cada región admitida: 20 No El número máximo de nodos de agente.
(Flujos) Nodos recopiladores por flujo Cada región admitida: 1 No El número máximo de nodos del colector.
(Flujos) Condiciona los nodos por flujo Cada región admitida: 5 No Número máximo de nodos por servicio de contenedor.
(Flujos) Condiciones por nodo de condición Cada región admitida: 5 No El número máximo de condiciones por nodo de condición.
(Fluye) CreateFlow solicitudes por segundo Cada región admitida: 2 No El número máximo de CreateFlow solicitudes por segundo.
(Fluye) CreateFlowAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de CreateFlowAlias solicitudes por segundo.
(Fluye) CreateFlowVersion solicitudes por segundo Cada región admitida: 2 No El número máximo de CreateFlowVersion solicitudes por segundo.
(Fluye) DeleteFlow solicitudes por segundo Cada región admitida: 2 No El número máximo de DeleteFlow solicitudes por segundo.
(Fluye) DeleteFlowAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de DeleteFlowAlias solicitudes por segundo.
(Fluye) DeleteFlowVersion solicitudes por segundo Cada región admitida: 2 No El número máximo de DeleteFlowVersion solicitudes por segundo.
(Flujos) Alias de flujo por flujo Cada región admitida: 10 No El número máximo de alias de flujo.
(Flujos) Ejecuciones de flujo por cuenta Cada región admitida: 1000 Número máximo de planes de ejecución de revisión de puntuación por cuenta.
(Flujos) Versiones de flujo por flujo Cada región admitida: 10 No Número máximo de versiones que se van a devolver.
(Flujos) Flujos por cuenta Cada región admitida: 100 Número máximo de grupos de informes por cuenta.
(Fluye) GetFlow solicitudes por segundo Cada región admitida: 10 No El número máximo de GetFlow solicitudes por segundo.
(Fluye) GetFlowAlias solicitudes por segundo Cada región admitida: 10 No El número máximo de GetFlowAlias solicitudes por segundo.
(Fluye) GetFlowVersion solicitudes por segundo Cada región admitida: 10 No El número máximo de GetFlowVersion solicitudes por segundo.
(Flujos) Nodos de código en línea por flujo Cada región admitida: 5 No Número máximo de nodos de código en línea por flujo.
(Flujos) Nodos de entrada por flujo Cada región admitida: 1 No El número máximo de nodos de entrada de flujo.
(Flujos) Nodos iteradores por flujo Cada región admitida: 1 No El número máximo de iteradores es 100.
(Flujos) Nodos de la base de conocimientos por flujo Cada región admitida: 20 No El número máximo de nodos de la base de conocimiento.
(Flujos) Nodos de la función de Lambda por flujo Cada región admitida: 20 No El número máximo de nodos de la función de Lambda.
(Flujos) Nodos Lex por flujo Cada región admitida: 5 No El número máximo de nodos Lex.
(Fluye) ListFlowAliases solicitudes por segundo Cada región admitida: 10 No El número máximo de ListFlowAliases solicitudes por segundo.
(Fluye) ListFlowVersions solicitudes por segundo Cada región admitida: 10 No El número máximo de ListFlowVersions solicitudes por segundo.
(Fluye) ListFlows solicitudes por segundo Cada región admitida: 10 No El número máximo de ListFlows solicitudes por segundo.
(Flujos) Nodos de salida por flujo Cada región admitida: 20 No El número máximo de nodos de salida de flujo.
(Fluye) PrepareFlow solicitudes por segundo Cada región admitida: 2 No El número máximo de PrepareFlow solicitudes por segundo.
(Flujos) Nodos de petición por flujo Cada región admitida: 20 El número máximo de nodos de petición.
(Flujos) Nodos de recuperación S3 por flujo Cada región admitida: 10 No Número máximo de nodos de recuperación de S3.
(Flujos) Nodos de almacenamiento S3 por flujo Cada región admitida: 10 No El número máximo de nodos de almacenamiento de S3.
(Flujos) Número total de nodos por flujo Cada región admitida: 40 No El número máximo de nodos de un flujo.
(Fluye) UpdateFlow solicitudes por segundo Cada región admitida: 2 No El número máximo de UpdateFlow solicitudes por segundo.
(Fluye) UpdateFlowAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de UpdateFlowAlias solicitudes por segundo.
(Fluye) ValidateFlowDefinition solicitudes por segundo Cada región admitida: 2 No El número máximo de ValidateFlowDefinition solicitudes por segundo.
(Barreras de protección) Políticas de razonamiento automatizado por barreras de protección Cada región admitida: 2 No El número máximo de políticas de razonamiento automatizado por barreras de protección.
(Barreras de protección) Longitud de consulta basada en el contexto en unidades de texto Cada región admitida: 1 No La longitud máxima, en unidades de texto, de la consulta para su fundamentación contextual
(Barreras de protección) Longitud de la respuesta basada en el contexto en unidades de texto Cada región admitida: 5 No La longitud máxima, en unidades de texto, de la respuesta para fundamentarla en el contexto
(Barreras de protección) Longitud de la fuente de base contextual en unidades de texto

us-east-1: 100

us-west-2: 100

Cada una de las demás regiones compatibles: 50

No La longitud máxima, en unidades de texto, de la fuente de conexión a tierra para la fundamentación contextual
(Barreras de protección) Ejemplos de frases por tema Cada región admitida: 5 No El número máximo de ejemplos de temas que se pueden incluir por tema
(Barreras de protección) Barreras de protección por cuenta Cada región admitida: 100 No Número máximo de barreras de protección en una cuenta
(Barandillas) Política de filtrado de ApplyGuardrail contenido bajo demanda (unidades de texto por segundo)

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 25

La cantidad máxima de unidades de texto que se pueden procesar para las políticas de filtro de contenido por segundo
(Barandillas) Unidades de texto por segundo de la política de filtrado de ApplyGuardrail contenido bajo demanda (estándar)

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 25

La cantidad máxima de unidades de texto que se pueden procesar para las políticas de filtro de contenido por segundo. Esto se aplica al modelo de política de contenido estándar.
(Barandillas) Unidades de texto por segundo de la política de temas ApplyGuardrail denegados bajo demanda

us-east-1:50

us-west-2:50

Cada una de las demás regiones compatibles: 25

La cantidad máxima de unidades de texto que se pueden procesar para las políticas de temas denegados por segundo
(Guardrails) Unidades de texto por segundo de la política de temas ApplyGuardrail denegados bajo demanda (estándar)

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 25

La cantidad máxima de unidades de texto que se pueden procesar para las políticas de temas denegados por segundo. Esto se aplica al modelo de política temática estándar.
(Barandillas) Unidades de texto de la política de filtrado de información ApplyGuardrail confidencial bajo demanda por segundo

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 25

El número máximo de unidades de texto que se pueden procesar para las políticas de filtrado de información confidencial por segundo
(Barandillas) Unidades de texto por segundo de la política de filtrado de ApplyGuardrail Word bajo demanda

us-east-1: 200

us-west-2: 200

Cada una de las demás regiones compatibles: 25

La cantidad máxima de unidades de texto que se pueden procesar para las políticas de filtro de Word por segundo
(Barandillas) Unidades de texto por segundo de la política de fundamentación ApplyGuardrail contextual a pedido Cada región compatible: 106 La cantidad máxima de unidades de texto que se pueden procesar para las políticas de base contextual por segundo
(Barandillas) ApplyGuardrail Solicitudes bajo demanda por segundo

us-east-1:50

us-west-2:50

Cada una de las demás regiones compatibles: 25

El número máximo de llamadas a la ApplyGuardrail API permitidas por segundo
(Barreras de protección) Entidades de expresión regular en el filtro de información confidencial Cada región admitida: 10 No La cantidad máxima de expresiones regulares del filtro de barreras de protección que se pueden incluir en una política de información confidencial
(Barreras de protección) Longitud de las expresiones regulares en caracteres Cada región admitida: 500 No La longitud máxima, en caracteres, de una expresión regular de un filtro de barrera de protección
(Barreras de protección) Temas por barrera de protección Cada región admitida: 30 No Número máximo de temas que se pueden definir en las políticas de temas de la barrera de protección
(Barreras de protección) Versiones por barrera de protección Cada región admitida: 20 No Número máximo de versiones que puede tener una barrera de protección
(Barreras de protección) Longitud de las palabras en caracteres Cada región admitida: 100 No La longitud máxima de una palabra, en caracteres, de una lista de palabras bloqueadas
(Barreras de protección) Política de palabras por palabra Cada región admitida: 10 000 No El número máximo de palabras que se pueden incluir en una lista de palabras bloqueadas
(Bases de conocimiento) DeleteKnowledgeBaseDocuments Solicitudes IngestKnowledgeBaseDocuments simultáneas y por cuenta Cada región admitida: 10 No El número máximo de DeleteKnowledgeBaseDocuments solicitudes IngestKnowledgeBaseDocuments y solicitudes que se pueden ejecutar al mismo tiempo en una cuenta.
(Bases de conocimiento) Trabajos de ingesta simultáneos por cuenta Cada región admitida: 5 No Número máximo de trabajos que puede ejecutar al mismo tiempo en esta cuenta de .
(Bases de conocimiento) Trabajos de ingesta simultáneos por origen de datos Cada región admitida: 1 No La cantidad máxima de trabajos de ingesta que se pueden ejecutar al mismo tiempo para un origen de datos.
(Bases de conocimiento) Trabajos de ingesta simultáneos por base de conocimientos Cada región admitida: 1 No La cantidad máxima de trabajos de ingestión que se pueden ejecutar al mismo tiempo para una base de conocimientos.
(Bases de conocimiento) CreateDataSource solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de CreateDataSource API por segundo.
(Bases de conocimiento) CreateKnowledgeBase solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de CreateKnowledgeBase API por segundo.
(Bases de conocimiento) Orígenes de dato por base de conocimientos Cada región admitida: 5 No El número máximo de orígenes de datos por base de conocimientos.
(Bases de conocimiento) DeleteDataSource solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteDataSource API por segundo.
(Bases de conocimiento) DeleteKnowledgeBase solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteKnowledgeBase API por segundo.
(Bases de conocimiento) DeleteKnowledgeBaseDocuments solicitudes por segundo Cada región admitida: 5 No El número máximo de solicitudes de DeleteKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) Archivos que se agregarán o actualizarán por trabajo de ingesta Cada región admitida: 5 000 000 No La cantidad máxima de archivos nuevos y actualizados que se pueden ingerir por trabajo de ingesta.
(Bases de conocimiento) Archivos que se eliminarán por trabajo de ingesta Cada región admitida: 5 000 000 No El número máximo de archivos que se pueden eliminar por trabajo de ingestión.
(Bases de conocimiento) Archivos que se van a ingerir por IngestKnowledgeBaseDocuments trabajo. Cada región admitida: 25 No El número máximo de documentos que se pueden ingerir por solicitud. IngestKnowledgeBaseDocuments
(Bases de conocimiento) GenerateQuery solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de GenerateQuery API por segundo.
(Bases de conocimiento) GetDataSource solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de GetDataSource API por segundo.
(Bases de conocimiento) GetIngestionJob solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de GetIngestionJob API por segundo.
(Bases de conocimiento) GetKnowledgeBase solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de GetKnowledgeBase API por segundo.
(Bases de conocimiento) GetKnowledgeBaseDocuments solicitudes por segundo Cada región admitida: 5 No El número máximo de solicitudes de GetKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) IngestKnowledgeBaseDocuments solicitudes por segundo Cada región admitida: 5 No El número máximo de solicitudes de IngestKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) tamaño IngestKnowledgeBaseDocuments total de la carga útil Cada región admitida: 6 No El tamaño máximo (en MB) de la carga útil total de una IngestKnowledgeBaseDocuments solicitud.
(Bases de conocimiento) Tamaño de archivo del trabajo de ingesta Cada región admitida: 50 No El tamaño máximo (en MB) de un archivo en un trabajo de ingestión.
(Bases de conocimiento) Tamaño del trabajo de ingesta Cada región admitida: 100 No El tamaño máximo (en GB) de un trabajo de ingestión.
(Bases de conocimiento) Bases de conocimiento por cuenta Cada región admitida: 100 No El número máximo de bases de conocimiento por cuenta.
(Bases de conocimiento) ListDataSources solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListDataSources API por segundo.
(Bases de conocimiento) ListIngestionJobs solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListIngestionJobs API por segundo.
(Bases de conocimiento) ListKnowledgeBaseDocuments solicitudes por segundo Cada región admitida: 5 No El número máximo de solicitudes de ListKnowledgeBaseDocuments API por segundo.
(Bases de conocimiento) ListKnowledgeBases solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListKnowledgeBases API por segundo.
(Bases de conocimiento) Cantidad máxima de archivos por analizador BDA Cada región admitida: 1000 No La cantidad máxima de archivos que se pueden usar con Amazon Bedrock Data Automation como analizador.
(Bases de conocimiento) Cantidad máxima de archivos por modelo fundacional como analizador Cada región admitida: 1000 No Número máximo de archivos que se pueden usar con Foundation Models como analizador.
(Bases de conocimiento) Solicitudes de Rerank por segundo Cada región admitida: 10 No El número máximo de solicitudes de CreatePolicy por segundo.
(Bases de conocimiento) Solicitudes de Retrieve por segundo Cada región admitida: 20 No Número máximo de solicitudes de la API GetPolicy por segundo.
(Bases de conocimiento) RetrieveAndGenerate solicitudes por segundo Cada región admitida: 20 No El número máximo de solicitudes de RetrieveAndGenerate API por segundo.
(Bases de conocimiento) RetrieveAndGenerateStream solicitudes por segundo Cada región admitida: 20 No El número máximo de solicitudes de RetrieveAndGenerateStream API por segundo.
(Bases de conocimiento) StartIngestionJob solicitudes por segundo Cada región compatible: 0,1 No El número máximo de solicitudes de StartIngestionJob API por segundo.
(Bases de conocimiento) UpdateDataSource solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de UpdateDataSource API por segundo.
(Bases de conocimiento) UpdateKnowledgeBase solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de UpdateKnowledgeBase API por segundo.
(Bases de conocimiento) Tamaño de la consulta del usuario Cada región admitida: 1000 No El tamaño máximo (en caracteres) de una consulta de usuario.
(Personalización del modelo) Modelos personalizados por cuenta Cada región admitida: 100 Número máximo de modelos en la misma cuenta.
(Personalización de modelos) Implementaciones de modelos personalizados en curso Cada región admitida: 2 Número máximo de implementaciones de modelos personalizado en curso
(Personalización del modelo) Tamaño máximo del archivo de entrada para los trabajos de personalización de destilación Cada región admitida: 2 gigabytes No El tamaño máximo del archivo de entrada para los trabajos de personalización de la destilación.
(Personalización del modelo) Longitud máxima de línea para los trabajos de personalización de destilación Cada región admitida: 16 kilobytes No La longitud máxima de línea en el archivo de entrada para los trabajos de personalización de la destilación.
(Personalización del modelo) Número máximo de peticiones para los trabajos de personalización de destilación Cada región admitida: 15 000 No El número máximo de peticiones necesarias para los trabajos de personalización de la destilación.
(Personalización del modelo) Número máximo de registros de entrenamiento para un trabajo de ajuste fino de Amazon Nova Canvas Cada región admitida: 10 000 El número máximo de registros permitido para un trabajo de ajuste fino de Amazon Nova Canvas.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de destilación de Amazon Nova Micro V1 Cada región admitida: 32 000 No La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova Micro V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova V1 Cada región admitida: 32 000 No La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación de Amazon Nova V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Anthropic Claude 3 haiku 20240307 V1 Cada región admitida: 32 000 No La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación haiku 20240307 V1 de Anthropic Claude 3.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 70B Instruct V1 Cada región admitida: 16 000 No La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 70B Instruct V1.
(Personalización del modelo) Longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 8B Instruct V1 Cada región admitida: 32 000 No La longitud máxima del contexto de refinamiento del modelo aprendiz para los trabajos de personalización de la destilación Llama 3.1 8B Instruct V1.
(Personalización del modelo) Número mínimo de peticiones para los trabajos de personalización de la destilación Cada región admitida: 100 No El número mínimo de peticiones necesario para los trabajos de personalización de la destilación.
(Personalización del modelo) Trabajos de personalización programados Cada región admitida: 10 No El número máximo de trabajos de personalización programados.
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova 2 Lite Cada región admitida: 2000 No La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Lite Cada región admitida: 2000 No La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Lite
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Micro Cada región admitida: 2000 No La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Pro Cada región admitida: 200 No La suma de las solicitudes de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviadas a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de las solicitudes de implementación de modelos personalizados bajo demanda por minuto para Meta Llama 3.3 70B Instruct Cada región admitida: 400 No La suma de las solicitudes de implementación de modelos personalizados a pedido ingresadas y salidas por minuto enviadas a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los tokens de despliegue de modelos personalizados a pedido por día para Amazon Nova 2 Lite Cada región admitida: 5 760 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Lite Cada región admitida: 5 760 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Micro Cada región admitida: 5 760 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Amazon Nova Pro Cada región admitida: 1 152 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por día enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por día para Meta Llama 3.3 70B Instruct Cada región admitida: 432 000 000 No La suma de las entradas y salidas de los tokens de despliegue de modelos personalizados bajo demanda y enviados por día a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los tokens de despliegue de modelos personalizados bajo demanda por minuto para Amazon Nova 2 Lite Cada región admitida: 4 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones para Amazon Nova 2 Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Lite Cada región admitida: 4 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Lite
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Micro Cada región admitida: 4 000 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Micro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Amazon Nova Pro Cada región admitida: 800 000 No La suma de los tokens de implementación de modelos personalizados bajo demanda de entrada y salida por minuto enviados a Converse, ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Amazon Nova Pro
(Personalización del modelo) Suma de los tokens de implementación de modelos personalizados bajo demanda por minuto para Meta Llama 3.3 70B Instruct Cada región admitida: 300 000 No La suma de las entradas y salidas de los tokens de despliegue de modelos personalizados bajo demanda por minuto enviados a Converse ConverseStream InvokeModel, y InvokeModelWithResponseStream las acciones de Meta Llama 3.3 70B Instruct
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste preciso de Amazon Nova 2 Lite Cada región admitida: 20 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste preciso de Amazon Nova 2 Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste preciso de Amazon Nova Lite Cada región admitida: 20 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste preciso de Amazon Nova Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste fino de Amazon Nova Micro Cada región admitida: 20 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de refinamiento de Amazon Nova Micro.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste preciso de Amazon Nova Pro Cada región admitida: 20 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste fino de Amazon Nova Pro.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso del Claude 3 Haiku v1 Cada región admitida: 10 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste de precisión del Claude 3 Haiku.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso del Claude 3-5-Haiku v1 Cada región admitida: 10 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste preciso del Claude 3-5-Haiku.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 2 13B v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste fino de Meta Llama 2 13B.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 2 70B v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste fino de Meta Llama 2 70B.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.1 70B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.1 70B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.1 8B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.1 8B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.2 11B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.2 11B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.2 1B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.2 1B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.2 3B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.2 3B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.2 90B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.2 90B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Meta Llama 3.3 70B Instruct v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Meta Llama 3.3 70B Instruct.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso del Titan Image Generator G1 V1 Cada región admitida: 10 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste preciso de Titan Image Generator.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso del Titan Image Generator G1 V2 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste preciso de Titan Image Generator V2.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de Titan Multimodal Embeddings G1 v1 Cada región admitida: 50 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste fino de Titan Multimodal Embeddings.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de preformación continua en Titan Text G1 - Express v1 Cada región admitida: 100 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de preformación continua en Titan Text Express.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste preciso de Titan Text G1 - Express v1 Cada región admitida: 10 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste fino de Titan Text Express.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de preformación continua en Titan Text G1 - Lite v1 Cada región admitida: 100 000 El número máximo combinado de registros de formación y validación permitidos para un trabajo de preformación continua en Titan Text Lite.
(Personalización del modelo) Suma de los registros de formación y validación de un trabajo de ajuste preciso de la Titan Text G1 - Lite v1 Cada región admitida: 10 000 El número máximo combinado de registros de entrenamiento y validación permitido para un trabajo de ajuste fino de Titan Text Lite.
(Personalización del modelo) Suma de los registros de entrenamiento y validación de un trabajo de ajuste preciso de la Titan Text G1 - Premier v1 Cada región admitida: 20 000 El número máximo combinado de registros de formación y validación permitido para un trabajo de ajuste fino de Titan Text Premier.
(Personalización del modelo) Número total de implementaciones de modelos personalizados Cada región admitida: 10 Número total de implementaciones de modelos personalizados
(Gestión rápida) CreatePrompt solicitudes por segundo Cada región admitida: 2 No El número máximo de CreatePrompt solicitudes por segundo.
(Gestión rápida) CreatePromptVersion solicitudes por segundo Cada región admitida: 2 No El número máximo de CreatePromptVersion solicitudes por segundo.
(Gestión rápida) DeletePrompt solicitudes por segundo Cada región admitida: 2 No El número máximo de DeletePrompt solicitudes por segundo.
(Gestión rápida) GetPrompt solicitudes por segundo Cada región admitida: 10 No El número máximo de GetPrompt solicitudes por segundo.
(Gestión rápida) ListPrompts solicitudes por segundo Cada región admitida: 10 No El número máximo de ListPrompts solicitudes por segundo.
(Gestión de peticiones) Peticiones por cuenta Cada región admitida: 500 El número máximo de peticiones.
(Gestión rápida) UpdatePrompt solicitudes por segundo Cada región admitida: 2 No El número máximo de UpdatePrompt solicitudes por segundo.
(Gestión de peticiones) Versiones por petición Cada región admitida: 10 No El número máximo de versiones por petición.
APIs por agente Cada región admitida: 11 El número máximo APIs que puede añadir a un agente.
Grupos de acciones por agente Cada región admitida: 20 El número máximo de API que puede agregar a un agente
Agente y colaboradores por agente Cada región admitida: 1000 El número máximo de API que puede agregar a un agente
Agentes por cuenta Cada región admitida: 1000 El número máximo de trabajos en su cuenta.
AssociateAgentKnowledgeBase solicitudes por segundo Cada región admitida: 6 No El número máximo de solicitudes de AssociateAgentKnowledgeBase API por segundo.
Alias asociadas por agente Cada región admitida: 10 No El número máximo de planes de uso que puede asociar a una clave de API
Bases de conocimiento asociadas por agente Cada región admitida: 2 Número máximo de bases de conocimiento que puede asociar a un agente.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia de lotes para Amazon Nova 2 Multimodal Embeddings V1.
Tamaño del archivo de entrada de la inferencia en lotes (en GB) para Amazon Nova Premier Cada región admitida: 1 No Tamaño máximo de un archivo (en GB) enviado para la inferencia en lotes para Amazon Nova Premier.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Haiku Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Haiku.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Opus Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Opus.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3 Sonnet Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3 Sonnet.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Haiku Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3.5 Haiku.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Sonnet Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para el Sonnet Claude 3.5.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.5 Sonnet v2 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude 3.5 Sonnet v2.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude 3.7 Sonnet Cada región admitida: 1 El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para el Sonnet Claude 3.7.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Haiku 4.5 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Haiku 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Opus 4.5 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Opus 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Opus 4.6 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Opus 4.6.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Claude Sonnet 4 Cada región admitida: 1 El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Claude Sonnet 4.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Sonnet 4.5 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Sonnet 4.5.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Claude Sonnet 4.6 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Claude Sonnet 4.6.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para V3.2 DeepSeek Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para la versión 3.2. DeepSeek
Tamaño del archivo de entrada de inferencia por lotes (en GB) para DeepSeek la versión 3 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes en la versión 3. DeepSeek
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Devstral 2 123B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Devstral 2 123B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para GLM 4.7 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para GLM 4.7.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para GLM 4.7 Flash Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para GLM 4.7 Flash.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 12B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 12B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 27B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 27B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Gemma 3 4B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Gemma 3 4B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Kimi K2 Thinking Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Kimi K2 Thinking.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Kimi K2.5 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Kimi K2.5.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 405B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 405B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 70B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 70B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.1 8B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.1 8B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 11B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 11B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 1B Instruct Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes Llama 3.2 1B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 3B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 3B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.2 90B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.2 90B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 3.3 70B Instruct Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 3.3 70B Instruct.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 4 Maverick Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 4 Maverick.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Llama 4 Scout Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Llama 4 Scout.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Magistral Small 2509 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Magistral Small 2509.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para M2 MiniMax Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para MiniMax M2.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para M2.1 MiniMax Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para M2.1. MiniMax
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3 14B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Ministral 3 14B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3 8B Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Ministral 3 8B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Ministral 3B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Ministral 3B.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Mistral Large 2 (24.07) Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Mistral Large 2 (24.07).
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Mistral Large 3 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Mistral Large 3.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Mistral Small Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Mistral Small.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 12B Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 12B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 3 30B Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 9B Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para NVIDIA Nemotron Nano 9B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Nova 2 Lite Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Nova 2 Lite.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Lite V1 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Lite V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Micro V1 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Micro V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Nova Pro V1 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia en lotes para Nova Pro V1.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para OpenAI GPT OSS 120b Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para OpenAI GPT OSS 120b.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para OpenAI GPT OSS 20b Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para OpenAI GPT OSS 20b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 120b Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 20b Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 235B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 235B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 32B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 32B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder 30B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 Coder 30B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder 480B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Qwen3 Coder 480B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Coder Next Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para Qwen3 Coder Next.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 Next 80B Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para la inferencia por lotes para Qwen3 Next 80B.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Qwen3 VL 235B Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia por lotes para el Qwen3 VL 235B.
Tamaño del archivo de entrada de inferencia en lotes (en GB) para Titan Multimodal Embeddings G1 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para la inferencia en lotes para Titan Multimodal Embeddings G1.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Titan Text Embeddings V2 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para su inferencia en lotes para Titan Text Embeddings V2.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Voxtral Mini 3B 2507 Cada región admitida: 1 No El tamaño máximo de un único archivo (en GB) enviado para su inferencia por lotes para el Voxtral Mini 3B 2507.
Tamaño del archivo de entrada de inferencia por lotes (en GB) para Voxtral Small 24B 2507 Cada región admitida: 1 No El tamaño máximo de un solo archivo (en GB) enviado para su inferencia por lotes para Voxtral Small 24B 2507.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Next 80B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 Next 80B.
Tamaño del trabajo de inferencia por lotes (en GB) para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 100 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Amazon Nova 2 Multimodal Embeddings V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Amazon Nova Premier Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Amazon Nova Premier.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Haiku Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Haiku.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Opus Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Opus.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3 Sonnet Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3 Sonnet.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Haiku Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Haiku.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Sonnet Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Sonnet.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.5 Sonnet v2 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.5 Sonnet v2.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude 3.7 Sonnet Cada región admitida: 5 El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude 3.7 Sonnet.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Haiku 4.5 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Haiku 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Opus 4.5 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Opus 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Opus 4.6 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Opus 4.6.
Tamaño del trabajo de inferencia en lotes (en GB) para Claude Sonnet 4 Cada región admitida: 5 El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Claude Sonnet 4.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Sonnet 4.5 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Sonnet 4.5.
Tamaño del trabajo de inferencia por lotes (en GB) para Claude Sonnet 4.6 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Claude Sonnet 4.6.
Tamaño del trabajo de inferencia por lotes (en GB) para V3.2 DeepSeek Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de la versión 3.2. DeepSeek
Tamaño del trabajo de inferencia por lotes (en GB) para DeepSeek la versión 3 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de la versión 3. DeepSeek
Tamaño del trabajo de inferencia por lotes (en GB) para Devstral 2 123B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Devstral 2 123B.
Tamaño del trabajo de inferencia por lotes (en GB) para GLM 4.7 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de GLM 4.7.
Tamaño del trabajo de inferencia por lotes (en GB) para GLM 4.7 Flash Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de GLM 4.7 Flash.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 12B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 12B.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 27B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 27B.
Tamaño del trabajo de inferencia por lotes (en GB) para Gemma 3 4B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Gemma 3 4B.
Tamaño del trabajo de inferencia por lotes (en GB) para Kimi K2 Thinking Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Kimi K2 Thinking.
Tamaño del trabajo de inferencia por lotes (en GB) para Kimi K2.5 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Kimi K2.5.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 405B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 405B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 70B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 70B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.1 8B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.1 8B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 11B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 11B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 1B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 1B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 3B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 3B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.2 90B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.2 90B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 3.3 70B Instruct Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 3.3 70B Instruct.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 4 Maverick Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 4 Maverick.
Tamaño del trabajo de inferencia en lotes (en GB) para Llama 4 Scout Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Llama 4 Scout.
Tamaño del trabajo de inferencia por lotes (en GB) para Magistral Small 2509 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Magistral Small 2509.
Tamaño del trabajo de inferencia por lotes (en GB) para M2 MiniMax Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de M2. MiniMax
Tamaño del trabajo de inferencia por lotes (en GB) para M2.1 MiniMax Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para M2.1. MiniMax
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3 14B Cada región admitida: 5 No El tamaño acumulado máximo de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3 14B.
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3 8B Cada región admitida: 5 No El tamaño acumulado máximo de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3 8B.
Tamaño del trabajo de inferencia por lotes (en GB) para Ministral 3B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Ministral 3B.
Tamaño del trabajo de inferencia en lotes (en GB) para Mistral Large 2 (24.07) Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Mistral Large 2 (24.07).
Tamaño del trabajo de inferencia por lotes (en GB) para Mistral Large 3 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Mistral Large 3.
Tamaño del trabajo de inferencia en lotes (en GB) para Mistral Small Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Mistral Small.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 12B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 12B.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 3 30B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 3 30B.
Tamaño del trabajo de inferencia por lotes (en GB) para NVIDIA Nemotron Nano 9B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de NVIDIA Nemotron Nano 9B.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Lite V1 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Lite V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Micro V1 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Micro V1.
Tamaño del trabajo de inferencia en lotes (en GB) para Nova Pro V1 Cada región admitida: 100 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Nova Pro V1.
Tamaño del trabajo de inferencia en lotes (en GB) para OpenAI GPT OSS 120b Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Tamaño del trabajo de inferencia en lotes (en GB) para OpenAI GPT OSS 20b Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Tamaño del trabajo de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 120b Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Tamaño del trabajo de inferencia por lotes (en GB) para OpenAI GPT OSS Safeguard 20b Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 235B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para Qwen3 235B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 32B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes para Qwen3 32B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder 30B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Qwen3 Coder 30B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder 480B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Qwen3 Coder 480B.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 Coder Next Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 Coder Next.
Tamaño del trabajo de inferencia por lotes (en GB) para Qwen3 VL 235B Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Qwen3 VL 235B.
Tamaño del trabajo de inferencia en lotes (en GB) para Titan Multimodal Embeddings G1 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Titan Multimodal Embeddings G1.
Tamaño del trabajo de inferencia por lotes (en GB) para Titan Text Embeddings V2 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia en lotes de Titan Text Embeddings V2.
Tamaño del trabajo de inferencia por lotes (en GB) para Voxtral Mini 3B 2507 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Voxtral Mini 3B 2507.
Tamaño del trabajo de inferencia por lotes (en GB) para Voxtral Small 24B 2507 Cada región admitida: 5 No El tamaño máximo acumulado de todos los archivos de entrada (en GB) incluidos en el trabajo de inferencia por lotes de Voxtral Small 24B 2507.
Caracteres en las instrucciones del agente Cada región admitida: 20 000 No El número máximo de caracteres en las instrucciones para un agente.
Trabajos de importación de modelos simultáneos Cada región admitida: 1 No El número máximo de trabajos de importación de modelos que están en curso simultáneamente.
CreateAgent solicitudes por segundo Cada región admitida: 6 No El número máximo de solicitudes de CreateAgent API por segundo.
CreateAgentActionGroup solicitudes por segundo Cada región admitida: 12 No El número máximo de solicitudes de CreateAgentActionGroup API por segundo.
CreateAgentAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de CreateAgentAlias API por segundo.
Solicitudes de inferencia del modelo entre regiones por minuto para Anthropic Claude 3.5 Haiku Cada región admitida: 2000 No El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto. La cuota tiene en cuenta la suma combinada de InvokeModelWithResponseStream fichas InvokeModel y fichas de Anthropic Claude 3.5 Haiku.
Solicitudes de inferencia de modelos entre regiones por minuto para Anthropic Claude 3.5 Sonnet V2

us-west-2: 500

Cada una de las demás regiones compatibles: 100

No El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Sonnet V2 de Anthropic Claude 3.5. La cuota considera la suma combinada de Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Anthropic Claude 3.5 Haiku Cada región admitida: 4 000 000 La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3.5 Haiku.
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude 3.5 Sonnet V2

us-west-2: 4 000 000

Cada una de las demás regiones compatibles: 800 000

El número máximo de tokens que puede enviar para la inferencia del modelo para Anthropic Claude 3.5 Sonnet V2 en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Lite Cada región admitida: 2000 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Omni Cada región admitida: 2000 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Pro Preview Cada región admitida: 100 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova Lite

us-east-1:4.000

us-east-2:4.000

us-west-1:4.000

us-west-2:4.000

Cada una de las demás regiones compatibles: 400

No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova Micro

us-east-1:4.000

us-east-2:4.000

us-west-2:4.000

Cada una de las demás regiones compatibles: 400

No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova Premier V1 Cada región admitida: 500 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Premier V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Amazon Nova Pro Cada región admitida: 500 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para el Haiku Anthropic Claude 3

us-east-1: 2000

us-west-2: 2000

ap-northeast-1:400

ap-southeast-1:400

Cada una de las demás regiones compatibles: 800

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse y, en el caso de Anthropic ConverseStream, Claude 3 InvokeModel Haiku InvokeModelWithResponseStream .
Solicitudes de inferencia de modelos entre regiones por minuto para Anthropic Claude 3 Opus Cada región admitida: 100 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude 3 Opus. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude 3 Sonnet

us-east-1: 1000

us-west-2: 1000

Cada una de las demás regiones compatibles: 200

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet.
Solicitudes de inferencia de modelos entre regiones por minuto para Anthropic Claude 3.5 Sonnet

us-west-2: 500

ap-northeast-1:40

ap-southeast-1:40

eu-central-1:40

eu-west-1:40

eu-west-3:40

Cada una de las demás regiones compatibles: 100

No El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Soneto Anthropic Claude 3.5. La cuota considera la suma combinada de Converse,, y ConverseStream. InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Anthropic Claude 3.7 Sonnet V1

us-east-1:250

us-east-2:250

us-west-2:250

eu-central-1:100

eu-north-1:100

eu-west-1:100

eu-west-3:100

Cada una de las demás regiones admitidas: 50

No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para el Sonnet V1 de Anthropic Claude 3.7. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5 Cada región admitida: 1000 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4 V1 Cada región admitida: 200 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.1 Cada región admitida: 50 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.5 Cada región admitida: 500 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.5. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.6 V1 Cada región admitida: 500 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.6 V1 1 M de longitud de contexto Cada región admitida: 5 El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus de 4,6 V1 1 M de longitud de contexto. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4 V1 Cada región admitida: 200 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Cada región admitida: 5 El número máximo de solicitudes interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 Cada región admitida: 1000 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Cada región admitida: 5 El número máximo de solicitudes interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.6 Cada región admitida: 10 000 El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales por minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 m de longitud Cada región admitida: 500 El número máximo de solicitudes interregionales que puede enviar para la inferencia de modelos en un minuto para un soneto antrópico de Claude con una longitud de contexto de 4,6 millones de longitud. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Cohere Embed V4 Cada región admitida: 2000 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para R1 V1 DeepSeek Cada región admitida: 200 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para el R1 V1. DeepSeek Esta cuota representa el número total de solicitudes y acciones dirigidas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 400 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 800 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 8B Instruct Cada región admitida: 1600 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.2 1B Instruct Cada región admitida: 1600 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.2 3B Instruct Cada región admitida: 1600 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 3.3 70B Instruct Cada región admitida: 800 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. Esta cuota representa el número total de solicitudes a las acciones de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream .
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 4 Maverick V1 Cada región admitida: 800 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Meta Llama 4 Maverick V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Meta Llama 4 Scout V1 Cada región admitida: 800 No El número máximo de solicitudes entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 4 Scout V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Mistral Pixtral Large 25.02 V1 Cada región admitida: 10 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Mistral Pixtral Large 25.02 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Conservative Upscale Cada región admitida: 4 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Conservative Upscale. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Control Sketch Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Sketch. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para una estructura de control de imagen estable Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Structure. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Creative Upscale Cada región admitida: 4 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Creative Upscale. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para el objeto Stable Image Erase Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Erase Object. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Fast Upscale Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Fast Upscale. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Inpaint Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Inpaint. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Outpaint Cada región admitida: 4 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Outpaint. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Remove Background Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Remove Background. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Search y Recolor Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Recolor. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Search and Replace Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Replace. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Stable Image Style Guide Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Guide. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para una transferencia estable de estilos de imagen Cada región admitida: 20 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para la transferencia de estilos de imagen estable. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Twelve Labs Marengo Cada región admitida: 200 No El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Marengo. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Twelve Labs Pegasus Cada región admitida: 120 El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Pegasus. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para TwelveLabs Marengo Embed 3.0 Cada región admitida: 1000 El número máximo de solicitudes entre regiones que puede enviar para la inferencia de modelos en un minuto para Marengo Embed 3.0. TwelveLabs Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Writer AI Palmyra X4 V1 Cada región admitida: 10 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Writer AI Palmyra X4 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos entre regiones por minuto para Writer AI Palmyra X5 V1 Cada región admitida: 10 No El número máximo de solicitudes entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Writer AI Palmyra X5 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Lite Cada región compatible: 8 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Omni Cada región compatible: 8 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova 2 Pro Preview Cada región admitida: 1 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova Lite

us-east-1: 8 000 000

us-east-2: 8 000 000

us-west-1: 8 000 000

us-west-2: 8 000 000

Cada una de las demás regiones compatibles: 400 000

El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova Micro

us-east-1: 8 000 000

us-east-2: 8 000 000

us-west-2: 8 000 000

Cada una de las demás regiones compatibles: 400 000

El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova Premier V1 Cada región admitida: 2 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Premier V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Amazon Nova Pro Cada región admitida: 2 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude 3 Haiku

us-east-1: 4 000 000

us-west-2: 4 000 000

ap-northeast-1:400.000

ap-southeast-1:400.000

Cada una de las demás regiones compatibles: 600 000

La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Haiku.
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude 3 Opus Cada región admitida: 800 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto en el caso de Anthropic Claude 3 Opus. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude 3 Sonnet

us-east-1: 2 000 000

us-west-2: 2 000 000

Cada una de las demás regiones compatibles: 400 000

La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Sonnet.
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude 3.5 Sonnet

us-west-2: 4 000 000

ap-northeast-1:400.000

ap-southeast-1:400.000

eu-central-1:400 000

eu-west-1:400 000

eu-west-3:400 000

Cada una de las demás regiones apoyadas: 800 000

El número máximo de tokens que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Anthropic Claude 3.7 Sonnet V1

us-east-1: 1 000 000

us-east-2: 1 000 000

us-west-2: 1 000 000

eu-central-1:100 000

eu-north-1:100.000

eu-west-1:100 000

eu-west-3:100 000

Cada una de las demás regiones compatibles: 50 000

El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para el Sonnet V1 de Anthropic Claude 3.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5 Cada región admitida: 5 000 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Haiku 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4 V1 Cada región admitida: 200 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.1 Cada región admitida: 500 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4.1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo interregional por minuto para Anthropic Claude Opus 4.5 Cada región admitida: 2 000 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia del modelo en un minuto para Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo interregional por minuto para Anthropic Claude Opus 4.6 V1 Cada región admitida: 2 000 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo interregional por minuto para Anthropic Claude Opus, 4,6 V1, 1 m de longitud de contexto Cada región admitida: 1 000 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de un modelo en un minuto para Anthropic Claude Opus de 4.6 V1 con una longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4 V1 Cada región admitida: 200 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Cada región admitida: 1 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 Cada región admitida: 5 000 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokems de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Cada región admitida: 1 000 000 El número máximo de tokens entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo interregional por minuto para Anthropic Claude Sonnet 4.6 Cada región admitida: 5 000 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo interregional por minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 m Cada región admitida: 1 000 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 millones de longitud. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Cohere Embed V4 Cada región admitida: 300 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia de modelos entre regiones por minuto para R1 V1 DeepSeek Cada región admitida: 200 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para el R1 V1. DeepSeek La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 800 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.1 8B Instruct Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.2 1B Instruct Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.2 3B Instruct Cada región admitida: 600 000 El número máximo de fichas que puedes enviar para la inferencia del modelo en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel InvokeModelWithResponseStream, Converse y. ConverseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 3.3 70B Instruct Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 4 Maverick V1 Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Meta Llama 4 Maverick V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Meta Llama 4 Scout V1 Cada región admitida: 600 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 4 Scout V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Mistral Pixtral Large 25.02 V1 Cada región admitida: 80 000 El número máximo de fichas entre regiones que puede enviar para la inferencia del modelo en un minuto para Mistral Pixtral Large 25.02 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Writer AI Palmyra X4 V1 Cada región admitida: 150 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Writer AI Palmyra X4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos entre regiones por minuto para Writer AI Palmyra X5 V1 Cada región admitida: 150 000 El número máximo de fichas entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Writer AI Palmyra X5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modelos personalizados con un estado de creación por cuenta Cada región admitida: 2 El número máximo de modelos personalizado con un estado de creación.
DeleteAgent solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteAgent API por segundo.
DeleteAgentActionGroup solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteAgentActionGroup API por segundo.
DeleteAgentAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteAgentAlias API por segundo.
DeleteAgentVersion solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de DeleteAgentVersion API por segundo.
DisassociateAgentKnowledgeBase solicitudes por segundo Cada región admitida: 4 No El número máximo de solicitudes de DisassociateAgentKnowledgeBase API por segundo.
Grupos de acciones por agente Cada región admitida: 15 El número máximo de grupos de acciones que puede habilitar en un agente.
Puntos de conexión por perfil de inferencia Cada región admitida: 5 No El número máximo de puntos de conexión en un perfil de inferencia. Un punto de conexión se define mediante un modelo y la región a la que se envían las solicitudes de invocación al modelo.
GetAgent solicitudes por segundo Cada región admitida: 15 No El número máximo de solicitudes de GetAgent API por segundo.
GetAgentActionGroup solicitudes por segundo Cada región admitida: 20 No El número máximo de solicitudes de GetAgentActionGroup API por segundo.
GetAgentAlias solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de GetAgentAlias API por segundo.
GetAgentKnowledgeBase solicitudes por segundo Cada región admitida: 15 No El número máximo de solicitudes de GetAgentKnowledgeBase API por segundo.
GetAgentVersion solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de GetAgentVersion API por segundo.
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Lite Cada región admitida: 2000 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Omni Cada región admitida: 2000 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Pro Preview Cada región admitida: 100 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5 Cada región admitida: 1000 El número máximo de solicitudes globales interregionales que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.5 Cada región admitida: 500 El número máximo de solicitudes globales interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.5. Esta cuota representa el número total de solicitudes y acciones dirigidas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Opus 4.6 V1 Cada región admitida: 500 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus 4.6 V1. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales globales por minuto para Anthropic Claude Opus, 4,6 V1, 1 m de longitud de contexto Cada región admitida: 5 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus de 4,6 V1 1 M de longitud de contexto. Esta cuota representa el número total de solicitudes y acciones dirigidas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4 V1 Cada región admitida: 200 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 Cada región admitida: 1000 El número máximo de solicitudes globales entre regiones que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Cada región admitida: 5 El número máximo de solicitudes interregionales globales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes globales de inferencia de modelos interregionales por minuto para Anthropic Claude Sonnet 4.6 Cada región admitida: 10 000 El número máximo de solicitudes globales interregionales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.6. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos interregionales globales por minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 m Cada región admitida: 500 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 millones de longitud. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos globales entre regiones por minuto para Cohere Embed V4 Cada región admitida: 2000 El número máximo de solicitudes globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Lite Cada región compatible: 11 520 000 000 No El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Omni Cada región compatible: 11 520 000 000 No El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Amazon Nova 2 Pro Preview Cada región admitida: 1 440 000 000 No El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por día para Anthropic Claude Haiku 4.5 Cada región compatible: 7 200 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Haiku 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.5 Cada región compatible: 2 880 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus 4.6 V1 Cada región compatible: 2 880 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Opus, 4,6 V1, 1 M de longitud de contexto Cada región admitida: 1 440 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Opus de 4,6 V1 M de longitud de contexto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Anthropic Claude Sonnet 4 V1 Cada región admitida: 288 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Anthropic Claude Sonnet 4.5 V1 Cada región compatible: 7 200 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por día para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Cada región admitida: 1 440 000 000 No El número máximo de tokens interregionales globales que puede enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para Anthropic Claude Sonnet 4.6 Cada región compatible: 7 200 000 000 No El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un día para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por día para el soneto antropico de Claude, con una longitud de contexto de 4,6 millones de longitud Cada región admitida: 1 440 000 000 No El número máximo de fichas globales entre regiones que puede enviar para la inferencia de modelos en un día para el soneto antropico de Claude, con una longitud de contexto de 4,6 millones. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por día para Cohere Embed V4 Cada región admitida: 432 000 000 No El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un día para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Lite Cada región compatible: 8 000 000 El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Omni Cada región compatible: 8 000 000 El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Omni. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Amazon Nova 2 Pro Preview Cada región admitida: 1 000 000 El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Pro Preview. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Símbolos globales de inferencia de modelos interregionales por minuto para Anthropic Claude Haiku 4.5 Cada región admitida: 5 000 000 El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Haiku 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.5 Cada región admitida: 2 000 000 El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude Opus 4.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Opus 4.6 V1 Cada región admitida: 2 000 000 El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude Opus 4.6 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por minuto para Anthropic Claude Opus, 4,6 V1, 1 m de longitud de contexto Cada región admitida: 1 000 000 El número máximo de fichas globales entre regiones que puedes enviar para la inferencia de modelos en un minuto para Anthropic Claude Opus de 4,6 V1 M de longitud de contexto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Anthropic Claude Sonnet 4 V1 Cada región admitida: 200 000 El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Anthropic Claude Sonnet 4.5 V1 Cada región admitida: 5 000 000 El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.5 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos interregionales globales por minuto para Anthropic Claude Sonnet, 4.5 V1 con longitud de contexto de 1 millón. Cada región admitida: 1 000 000 El número máximo de tokens interregionales globales que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia del modelo global interregional por minuto para Anthropic Claude Sonnet 4.6 Cada región admitida: 5 000 000 El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para Anthropic Claude Sonnet 4.6. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos interregionales globales por minuto para el soneto antrópico de Claude, con una longitud de contexto de 4,6 m Cada región admitida: 1 000 000 El número máximo de fichas globales entre regiones que puede enviar para la inferencia del modelo en un minuto para el soneto antropico de Claude, con una longitud de contexto de 4,6 millones. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos globales entre regiones por minuto para Cohere Embed V4 Cada región admitida: 300 000 El número máximo de tokens globales entre regiones que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modelos importados por cuenta Cada región admitida: 3 Número máximo de modelos en la misma cuenta.
Perfiles de inferencia por cuenta Cada región admitida: 1000 El número máximo de perfiles de inferencia en una cuenta.
ListAgentActionGroups solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListAgentActionGroups API por segundo.
ListAgentAliases solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListAgentAliases API por segundo.
ListAgentKnowledgeBases solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListAgentKnowledgeBases API por segundo.
ListAgentVersions solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListAgentVersions API por segundo.
ListAgents solicitudes por segundo Cada región admitida: 10 No El número máximo de solicitudes de ListAgents API por segundo.
Número mínimo de registros por trabajo de inferencia de lotes para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Número mínimo de registros por trabajo de inferencia en lotes para Amazon Nova Premier Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Amazon Nova Premier.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Haiku Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Haiku.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Opus Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Opus.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3 Sonnet Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Sonnet.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Haiku Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Número mínimo de registros por trabajo de inferencia en lotes para Claude 3.7 Sonnet Cada región admitida: 100 El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Haiku 4.5 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Opus 4.5 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Opus 4.6 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Número mínimo de registros por trabajo de inferencia en lotes para Claude Sonnet 4 Cada región admitida: 100 El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude Sonnet 4.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Sonnet 4.5. Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Número mínimo de registros por trabajo de inferencia por lotes para Claude Sonnet 4.6 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Número mínimo de registros por trabajo de inferencia por lotes para la versión 3.2 DeepSeek Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3.2. DeepSeek
Número mínimo de registros por trabajo de inferencia por lotes para la versión 3 DeepSeek Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3. DeepSeek
Número mínimo de registros por trabajo de inferencia por lotes para Devstral 2 123B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Número mínimo de registros por trabajo de inferencia por lotes para GLM 4.7 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para GLM 4.7.
Número mínimo de registros por trabajo de inferencia por lotes para GLM 4.7 Flash Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para GLM 4.7 Flash.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 12B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 12B.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 27B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 27B.
Número mínimo de registros por trabajo de inferencia por lotes para Gemma 3 4B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 4B.
Número mínimo de registros por lote: trabajo de inferencia para Kimi K2 Thinking Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Número mínimo de registros por trabajo de inferencia por lotes para Kimi K2.5 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2.5.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 405B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 70B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.1 8B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 11B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 1B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 3B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.2 90B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 3.3 70B Instruct Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 4 Maverick Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Número mínimo de registros por trabajo de inferencia en lotes para Llama 4 Scout Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Número mínimo de registros por trabajo de inferencia por lotes para Magistral Small 2509 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Número mínimo de registros por trabajo de inferencia por lotes para M2 MiniMax Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para MiniMax M2.
Número mínimo de registros por trabajo de inferencia por lotes para M2.1 MiniMax Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para M2.1. MiniMax
Número mínimo de registros por trabajo de inferencia por lotes para Ministral 3 14B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Número mínimo de registros por trabajo de inferencia por lotes para Ministral 3 8B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Número mínimo de registros por trabajo de inferencia por lotes para Ministral 3B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Número mínimo de registros por trabajo de inferencia en lotes para Mistral Large 2 (24.07) Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Número mínimo de registros por trabajo de inferencia por lotes para Mistral Large 3 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Número mínimo de registros por trabajo de inferencia en lotes para Mistral Small Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Mistral Small.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 12B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 3 30B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Número mínimo de registros por trabajo de inferencia por lote para NVIDIA Nemotron Nano 9B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Número mínimo de registros por trabajo de inferencia por lote para Nova 2 Lite Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Lite V1 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Lite V1.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Micro V1 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Micro V1.
Número mínimo de registros por trabajo de inferencia en lotes para Nova Pro V1 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Nova Pro V1.
Número mínimo de registros por trabajo de inferencia en lotes para OpenAI GPT OSS 120b Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Número mínimo de registros por trabajo de inferencia en lotes para OpenAI GPT OSS 20b Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Número mínimo de registros por trabajo de inferencia por lote para OpenAI GPT OSS Safeguard 120b Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Número mínimo de registros por trabajo de inferencia por lote para OpenAI GPT OSS Safeguard 2.0b Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 235B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Qwen3 235B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 32B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Qwen3 32B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 Coder 30B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Número mínimo de registros por trabajo de inferencia en lotes para Qwen3 Coder 480B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 Coder Next Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 Next 80B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Qwen3 Next 80B.
Número mínimo de registros por trabajo de inferencia por lote para Qwen3 VL 235B Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Número mínimo de registros por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Número mínimo de registros por trabajo de inferencia en lotes para Titan Text Embeddings versión 2 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Número mínimo de registros por trabajo de inferencia por lote para Voxtral Mini 3B 2507 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Número mínimo de registros por trabajo de inferencia por lote para Voxtral Small 24B 2507 Cada región admitida: 100 No El número mínimo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Número máximo de tokens optimizados para latencia de invocación de modelos por día para Amazon Nova Pro V1 Cada región compatible: 57 600 000 No El número máximo de tokens que puede enviar para la inferencia de modelos con latencia optimizada en un día para Amazon Nova Pro V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele el número máximo de tokens de invocación por día para Amazon Nova 2 Lite (el doble para las llamadas entre regiones) Cada región admitida: 5 760 000 000 No Número máximo diario de tokens para la inferencia de modelos para Amazon Nova 2 Lite. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Amazon Nova 2 Omni (el doble para las llamadas entre regiones) Cada región admitida: 5 760 000 000 No Número máximo diario de tokens para la inferencia de modelos para Amazon Nova 2 Omni. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Número máximo de tokens de invocación del modelo por día para Amazon Nova 2 Pro Preview (el doble para llamadas entre regiones) Cada región admitida: 720 000 000 No Número máximo diario de tokens para la inferencia de modelos de Amazon Nova 2 Pro Preview. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Amazon Nova Premier V1 (el doble para las llamadas entre regiones) Cada región admitida: 1 440 000 000 No Número máximo diario de tokens para la inferencia de modelos para Amazon Nova Premier V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude 3 Haiku (el doble para las llamadas entre regiones)

us-east-1:2.880.000.000

us-west-2:2.880.000.000

ap-northeast-1:288 000 000

ap-southeast-1:288 000 000

Cada una de las demás regiones compatibles: 432 000 000

No Número máximo diario de fichas para deducir modelos de Anthropic Claude 3 Haiku. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude 3.5 Haiku (el doble para las llamadas entre regiones) Cada región compatible: 2 880 000 000 No Número máximo diario de fichas para la inferencia de modelos para el Haiku Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Sonnet V1 de Anthropic Claude 3.5 (el doble para las llamadas entre regiones) Cada región compatible: 2 880 000 000 No Número máximo diario de fichas para la inferencia de modelos del Sonnet V1 de Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Sonnet V2 de Anthropic Claude 3.5 (el doble para las llamadas entre regiones)

us-east-1:2.880.000.000

us-west-2:2.880.000.000

Cada una de las demás regiones compatibles: 576 000 000

No Número máximo diario de fichas para la inferencia de modelos del Sonnet V2 de Anthropic Claude 3.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Sonnet V1 de Anthropic Claude 3.7 (el doble para las llamadas entre regiones) Cada región admitida: 720 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude 3.7 Sonnet V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Haiku 4.5 (el doble para las llamadas entre regiones) Cada región compatible: 3 600 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Haiku 4.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Opus 4 V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Opus 4.1 (el doble para las llamadas entre regiones) Cada región admitida: 360 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4.1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.5 (el doble para las llamadas entre regiones) Cada región admitida: 1 440 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4.5. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus, con una longitud de contexto de 4,6 millones (el doble para llamadas entre regiones) Cada región admitida: 720 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus con una longitud de contexto de 4,6 m. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Opus 4.6 V1 (el doble para las llamadas entre regiones) Cada región admitida: 1 440 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Opus 4.6 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Sonnet 4 V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Tokens máximos por día de invocación de modelos para Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón (el doble para llamadas entre regiones). Cada región admitida: 720 000 000 No Número máximo diario de tokens para la inferencia del modelo Anthropic Claude Sonnet 4 V1 con longitud de contexto de 1 millón. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Anthropic Claude Sonnet 4.5 V1 (el doble para las llamadas entre regiones) Cada región compatible: 3 600 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4.5 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Tokens máximos por día de invocación de modelos para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón (el doble para las llamadas entre regiones). Cada región admitida: 720 000 000 No Número máximo diario de tokens para la inferencia del modelo para Anthropic Claude Sonnet 4.5 V1 con longitud de contexto de 1 millón. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Anthropic Claude Sonnet 4.6 (el doble para las llamadas entre regiones) Cada región compatible: 3 600 000 000 No Número máximo diario de fichas para la inferencia del modelo Anthropic Claude Sonnet 4.6. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Cohere Embed V4 (el doble para las llamadas entre regiones) Cada región admitida: 216 000 000 No Número máximo diario de tokens para la inferencia de modelos para Cohere Embed V4. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para DeepSeek R1 V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 No Número máximo diario de tokens para la inferencia de modelos para el R1 V1 DeepSeek . Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para la DeepSeek V3 V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para la V3 V1. DeepSeek Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para la DeepSeek versión 3.2 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia de modelos en la versión 3.2. DeepSeek Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para GPT OSS Safeguard 120B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia del modelo GPT OSS Safeguard 120B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para GPT OSS Safeguard 20B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia del modelo GPT OSS Safeguard 20B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Gemma 3 12B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Gemma 3 12B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Gemma 3 27B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Gemma 3 27B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Gemma 3 (4B) (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Gemma 3 4B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Kimi K2 Thinking (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos de Kimi K2 Thinking. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Magistral Small 1.2 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Magistral Small 1.2. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Minimax M2 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Minimax M2. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Minimax M2.1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Minimax M2.1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 14B 3.0 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para el Ministral 14B 3.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 3B 3.0 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo del Ministral 3B 3.0. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Ministral 8B 3.0 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para el Ministral 8B 3.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Mistral Devstral 2 123b (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Mistral Devstral 2 123b. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Mistral Large 3 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos de Mistral Large 3. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para Moonshot AI Kimi K2.5 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Kimi K2.5 de Moonshot AI. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modela el número máximo de tokens de invocación por día para NVIDIA Nemotron Nano 2 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia de modelos de NVIDIA Nemotron Nano 2. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para NVIDIA Nemotron Nano 2 VL (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia de modelos de NVIDIA Nemotron Nano 2 VL. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para el Nemotron Nano 3 30B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Nemotron Nano 3 30B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para OpenAI GPT OSS 120B (el doble para llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia de modelos para OpenAI GPT OSS 120B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para OpenAI GPT OSS 20B (el doble para llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de tokens para la inferencia de modelos para OpenAI GPT OSS 20B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 235B a22b 2507 V1 (el doble para llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Qwen3 235B a22b 2507 V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 32B V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Qwen3 32B V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 Coder 30B a3b V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder 30B a3b V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Token máximo por día de invocación de modelos para Qwen3 Coder 480B a35b V1 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder 480B a35b V1. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 Coder Next (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos para Qwen3 Coder Next. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 Next 80B A3B (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Qwen3 Next 80B A3B. Combina la suma de los tokens de entrada y salida en todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Qwen3 VL 235B A22B (el doble para llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia del modelo Qwen3 VL 235B A22B. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Voxtral Mini 1.0 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos de Voxtral Mini 1.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Voxtral Small 1.0 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de fichas para la inferencia de modelos de Voxtral Small 1.0. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Z.ai GLM-4.7 (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de símbolos para la inferencia del modelo GLM-4.7 de Z.ai. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Modele el número máximo de tokens de invocación por día para Z.ai GLM-4.7 Flash (el doble para las llamadas entre regiones) Cada región admitida: 144 000 000 000 No Número máximo diario de símbolos para la inferencia de modelos en Z.ai GLM-4.7 Flash. Combina la suma de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream Se duplica para las llamadas entre regiones; no se aplica en caso de que se apruebe un aumento del TPM.
Unidades modelo: rendimientos aprovisionados sin compromiso en todos los modelos básicos Cada región admitida: 0 El número máximo de unidades modelo que se pueden distribuir entre los rendimientos aprovisionados sin compromiso para los modelos básicos
Unidades modelo: rendimientos aprovisionados sin compromiso en modelos personalizados Cada región admitida: 0 El número máximo de unidades de modelo que se pueden distribuir entre los rendimientos aprovisionados sin compromiso para los modelos personalizados
Unidades de modelo por modelo aprovisionado para AI21 Labs Jurassic-2 Mid Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Labs Jurassic-2 Mid. AI21
Unidades de modelo por modelo aprovisionado para Labs Jurassic-2 Ultra AI21 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Labs Jurassic-2 Ultra. AI21
Unidades de modelo por modelo aprovisionado para Amazon Nova 2 Lite V1.0 256K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Nova 2 Lite V1.0 256K.
Unidades de modelo por modelo aprovisionado para Amazon Nova Canvas Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Nova Canvas.
Unidades de modelo por modelo aprovisionado para Amazon Titan Embeddings G1 - Text Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Embeddings G1 - Text.
Unidades de modelo por modelo aprovisionado para Amazon Titan Image Generator G1 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Image Generator G1.
Unidades de modelo por modelo aprovisionado para Amazon Titan Image Generator G2 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Image Generator G2.
Unidades de modelo por modelo aprovisionado para Amazon Titan Lite V1 4K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Lite V1 4K.
Unidades de modelo por modelo aprovisionado para Amazon Titan Multimodal Embeddings G1 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Multimodal Embeddings G1.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text Embeddings versión 2 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Embeddings V2.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text G1 - Express 8K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text G1 - Express 8K.
Unidades de modelo por modelo aprovisionado para Amazon Titan Text Premier V1 32K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Amazon Titan Text Premier V1 32K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Haiku 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Haiku 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Haiku 48K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Haiku 48K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Sonnet 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Sonnet 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3 Sonnet 28K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3 Sonnet 28K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 16K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 16K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Haiku 64K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Haiku 64K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 18K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet 51K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet 51K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 18K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 51K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.5 Sonnet V2 51K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 18K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 200K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 51K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude 3.7 V1.0 Sonnet 51K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude Instant V1 100K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude Instant V1 100K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2 100K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2 100K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2 18K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2.1 18K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2.1 18K.
Unidades de modelo por modelo aprovisionado para Anthropic Claude V2.1 200K Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Anthropic Claude V2.1 200K.
Unidades de modelo por modelo aprovisionado para Cohere Command Cada región admitida: 0 El número máximo de unidades modelo que se pueden asignar a un modelo aprovisionado para Cohere Command.
Unidades de modelo por modelo aprovisionado para Cohere Command Light Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Command Light.
Unidades de modelo por modelo aprovisionado para Cohere Command R Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Cohere Command R 128k.
Unidades de modelo por modelo aprovisionado para Cohere Command R Plus Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Cohere Command R Plus 128k.
Unidades de modelo por modelo aprovisionado para Cohere Embed English Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Embed English.
Unidades de modelo por modelo aprovisionado para Cohere Embed Multilingual Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Cohere Embed Multilingual.
Unidades de modelo por modelo aprovisionado para Meta Llama 2 13B Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 13B.
Unidades de modelo por modelo aprovisionado para Meta Llama 2 70B Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 70B.
Unidades de modelo por modelo aprovisionadas para Meta Llama 2 Chat 13B Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 Chat 13B.
Unidades de modelo por modelo aprovisionadas para Meta Llama 2 Chat 70B Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 2 Chat 70B.
Unidades de modelo por modelo aprovisionado para Meta Llama 3 70B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3 70B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3 8B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3 8B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.1 70B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.1 70B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.1 8B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.1 8B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 11B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 11B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 1B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 1B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 3B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 3B Instruct.
Unidades de modelo por modelo aprovisionado para Meta Llama 3.2 90B Instruct Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Meta Llama 3.2 90B Instruct.
Unidades de modelo por modelo aprovisionado para Mistral Large 2407 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para el Mistral Large 2407.
Unidades de modelo por modelo aprovisionado para Mistral Small Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Mistral Small.
Unidades de modelo por modelo aprovisionado para Stability.ai Stable Diffusion XL 0.8 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Stability.ai Stable Diffusion XL 0.8
Unidades de modelo por modelo aprovisionado para Stability.ai Stable Diffusion XL 1.0 Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para Stability.ai Stable Diffusion XL 1.0.
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 128 000 para Amazon Nova Micro Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 128 000 para Amazon Nova Micro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Lite Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Lite
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Micro Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Micro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Pro Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 24 000 para Amazon Nova Pro
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Lite Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Lite
Unidades de modelo por modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Pro Cada región admitida: 0 El número máximo de unidades de modelo que se pueden asignar a un modelo aprovisionado para la variante de longitud de contexto de 300 000 para Amazon Nova Pro.
Las unidades modelo, con el compromiso de aprovisionamiento integral, se crearon para Meta Llama 4 Scout 17B Instruct 10M Cada región admitida: 0 El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Scout 17B Instruct 10M, con compromiso.
Modelo de unidades, con compromiso, para aprovisionamiento integral creado para Meta Llama 4 Scout 17B Instruct 128K Cada región admitida: 0 El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Scout 17B Instruct 128K, con compromiso.
Modelo de unidades, con compromiso, para Provisioned Through creado para Meta Maverick 4 Scout 17B Instruct 128K Cada región admitida: 0 El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Maverick 17B Instruct 128K, con compromiso.
Modelo de unidades, con compromiso, para Provisioned Through creado para Meta Maverick 4 Scout 17B Instruct 1M Cada región admitida: 0 El número máximo de unidades modelo que se pueden asignar a un rendimiento aprovisionado creado para Meta Llama 4 Maverick 17B Instruct 1M, con compromiso.
Unidades modelo sin compromiso para el rendimiento aprovisionado creadas para el modelo base Amazon Nova 2 Lite V1.0 256K Cada región admitida: 0 No El número máximo de unidades de modelo que se pueden asignar a un rendimiento aprovisionado creado para el modelo base Amazon Nova 2 Lite V1.0 (256 K), sin compromiso
Unidades modelo sin compromiso para el rendimiento aprovisionado creadas para el modelo personalizado Amazon Nova 2 Lite V1.0 256K Cada región admitida: 0 No El número máximo de unidades de modelo que se pueden asignar a un rendimiento aprovisionado creado para el modelo personalizado Amazon Nova 2 Lite V1.0 256K, sin compromiso.
Número de enrutadores personalizados de petición por cuenta Cada región admitida: 500 No Número máximo de enrutadores personalizados de petición que puede crear por cuenta y región-
Solicitudes de inferencia de modelos bajo demanda y con latencia optimizada por minuto para Amazon Nova Pro V1 Cada región admitida: 10 No El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro V1. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda y con latencia optimizada por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 100 No El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda y con latencia optimizada por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 100 No El número máximo de solicitudes bajo demanda y optimizadas para la latencia que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda y optimizados para latencia por minuto para Amazon Nova Pro V1 Cada región admitida: 40 000 No La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda y optimizados para latencia optimizada por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 40 000 No La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda y optimizados para latencia optimizada por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 40 000 No La cantidad máxima de tokens optimizados para la latencia bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas asíncronas bajo demanda para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 30 No El número máximo de solicitudes de inferencia de modelos simultáneos asíncronos que puede enviar para Amazon Nova 2 Multimodal Embeddings V1. La cuota considera la suma combinada de Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas asíncronas bajo demanda para Marengo Embed 3.0 TwelveLabs Cada región admitida: 10 El número máximo de solicitudes de inferencia de modelos simultáneos asíncronos que puede enviar para Marengo Embed 3.0. TwelveLabs La cuota considera la suma combinada de Converse,, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas bajo demanda para Amazon Nova 2 Sonic Cada región admitida: 20 No El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova 2 Sonic. La cuota considera la suma combinada de Converse, ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas bajo demanda para Amazon Nova Reel 1.0 Cada región admitida: 10 No El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova Reel 1.0. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas bajo demanda para Amazon Nova Reel1.1 Cada región admitida: 3 No El número máximo de solicitudes de inferencia de modelos simultáneas que puede enviar para Amazon Nova Reel 1.1. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes InvokeModel simultáneas bajo demanda para Amazon Nova Sonic Cada región admitida: 20 No El número máximo de solicitudes simultáneas que puede enviar para la inferencia de modelos para Amazon Nova Sonic.
Solicitudes InvokeModel simultáneas bajo demanda para Twelve Labs Marengo Cada región admitida: 30 No El número máximo de InvokeModel solicitudes simultáneas que puede enviar para la inferencia de modelos para Twelve Labs Marengo.
Solicitudes InvokeModel simultáneas bajo demanda para Twelve Labs Pegasus Cada región admitida: 30 El número máximo de InvokeModel solicitudes simultáneas que puede enviar para la inferencia del modelo Pegasus de Twelve Labs.
Solicitudes de inferencia de modelos optimizadas con latencia optimizada por minuto para Anthropic Claude 3.5 Haiku Cada región admitida: 100 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Anthropic Claude ConverseStream, 3.5 Haiku, si se ha configurado la optimización de la latencia.
Tokens de inferencia de modelos optimizados con latencia optimizada por minuto para Anthropic Claude 3.5 Haiku Cada región admitida: 500 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Anthropic Claude 3.5 Haiku ConverseStream, si se ha configurado la optimización de la latencia.
Solicitudes simultáneas de inferencia de modelos bajo demanda para Luma Ray V2 Cada región admitida: 1 No El número máximo de solicitudes simultáneas que puede enviar para la inferencia de modelos para Luma Ray V2. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para AI21 Labs Jamba 1.5 Large Cada región admitida: 100 No El número máximo de veces que puede realizar una inferencia de modelos en un minuto en el caso de AI21 Labs Jamba 1.5 Large. La cuota considera la suma combinada de las solicitudes de Converse y InvokeModel
Solicitudes de inferencia de modelos a pedido por minuto para AI21 Labs Jamba 1.5 Mini Cada región admitida: 100 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto en el caso de AI21 Labs Jamba 1.5 Mini. La cuota considera la suma combinada de las solicitudes de Converse y InvokeModel
Solicitudes de inferencia de modelos a pedido por minuto para AI21 Labs Jamba Instruct Cada región admitida: 100 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto en el caso de Labs Jamba Instruct. AI21 La cuota considera la suma combinada de las solicitudes de Converse y InvokeModel
Solicitudes de inferencia de modelos a pedido por minuto para AI21 Labs Jurassic-2 Mid Cada región admitida: 400 No El número máximo de veces que puede llamar InvokeModel en un minuto a Labs Jurassic-2 Mid AI21
Solicitudes de inferencia de modelos a pedido por minuto para Labs Jurassic-2 Ultra AI21 Cada región admitida: 100 No El número máximo de veces que puede llamar InvokeModel en un minuto a Labs Jurassic-2 Ultra AI21
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 2000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova 2 Multimodal Embeddings V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Nova Canvas Cada región admitida: 100 No El número máximo de solicitudes que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Canvas. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Nova Lite

us-east-1: 2000

eu-west-2:2.000

Cada una de las demás regiones compatibles: 200

No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Nova Micro

us-east-1: 2000

eu-west-2:2.000

Cada una de las demás regiones compatibles: 200

No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. Esta cuota representa el número total de solicitudes y acciones dirigidas a The Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Nova Pro Cada región admitida: 250 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Rerank 1.0 Cada región admitida: 200 No El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon R 1.0.
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Image Generator G1 Cada región admitida: 60 No El número máximo de veces que puede llamar InvokeModel en un minuto a Amazon Titan Image Generator G1.
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Image Generator G1 V2 Cada región admitida: 60 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Titan Image Generator G1 V2. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Multimodal Embeddings G1 Cada región admitida: 2000 No El número máximo de veces que puede llamar InvokeModel en un minuto a Amazon Titan Multimodal Embeddings G1.
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Embeddings Cada región admitida: 2000 No El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon Titan Text Embeddings
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Embeddings V2 Cada región admitida: 6000 No El número máximo de veces que puedes llamar InvokeModel en un minuto para Amazon Titan Text Embeddings V2
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Express Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Amazon Titan Text Express
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Lite Cada región admitida: 800 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Amazon Titan Text Lite
Solicitudes de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Premier Cada región admitida: 100 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Amazon Titan Text Premier
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Haiku

us-east-1: 1000

us-west-2: 1000

ap-northeast-1:200

ap-southeast-1:200

Cada una de las demás regiones compatibles: 400

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Anthropic ConverseStream, Claude 3 Haiku.
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Opus Cada región admitida: 50 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude 3 Opus. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Sonnet

us-east-1: 500

us-west-2: 500

Cada una de las demás regiones compatibles: 100

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet.
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.5 Haiku

us-west-1:400

Cada una de las demás regiones compatibles: 1000

No El número máximo de solicitudes bajo demanda que se pueden enviar para la inferencia de modelos en un minuto para Anthropic Claude 3.5 Haiku. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.5 Sonnet

us-east-1:50

us-east-2:50

us-west-2:250

ap-northeast-2:50

ap-south-1:50

ap-southeast-2:50

Cada una de las demás regiones admitidas: 20

No El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Soneto Anthropic Claude 3.5. La cuota considera la suma combinada de Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para el Sonnet V2 de Anthropic Claude 3.5

us-west-2:250

Cada una de las demás regiones admitidas: 50

No El número máximo de veces que se puede realizar una inferencia de modelos en un minuto para el Sonnet V2 de Anthropic Claude 3.5. La cuota considera la suma combinada de Converse, y ConverseStream. InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para el Sonnet V1 de Anthropic Claude 3.7 Cada región admitida: 125 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Sonnet V1 de Anthropic Claude 3.7. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude Instant

us-east-1: 1000

us-west-2: 1000

Cada una de las demás regiones compatibles: 400

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Anthropic ConverseStream, Claude Instant
Solicitudes de inferencia de modelos bajo demanda por minuto para Anthropic Claude V2

us-east-1: 500

us-west-2: 500

Cada una de las demás regiones compatibles: 100

No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse y, en el caso de ConverseStream Anthropic, InvokeModel Claude InvokeModelWithResponseStream V2
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Command Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream Cohere ConverseStream Command.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Command Light Cada región admitida: 800 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y, en el caso de ConverseStream Cohere Command, InvokeModelWithResponseStream Light.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Command R Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Cohere Command, R 128k.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Command R Plus Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, InvokeModelWithResponseStream para Cohere Command R Plus 128k.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Embed English Cada región admitida: 2000 No El número máximo de veces que puede llamar InvokeModel en un minuto a Cohere Embed English.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Embed Multilingual Cada región admitida: 2000 No El número máximo de veces que puede llamar InvokeModel en un minuto a Cohere Embed Multilingual.
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Embed V4 Cada región admitida: 1000 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Cohere Rerank 3.5 Cada región admitida: 250 No El número máximo de veces que puedes llamar InvokeModel en un minuto para Cohere Rxeberg 3.5.
Solicitudes de inferencia de modelos bajo demanda por minuto para V3 V1 DeepSeek Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para DeepSeek la V3 V1. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para la versión 3.2 DeepSeek Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para la versión 3.2. DeepSeek Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para GPT OSS Safeguard 120B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para GPT OSS Safeguard 120B. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para GPT OSS Safeguard 20B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para GPT OSS Safeguard 20B. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Gemma 3 12B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 12B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Gemma 3 27B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 27B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Gemma 3 4B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Gemma 3 4B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Modela solicitudes de inferencia bajo demanda por minuto para Kimi K2 Thinking Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Kimi K2 Thinking. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Modela solicitudes de inferencia bajo demanda por minuto para Magistral Small 1.2 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Magistral Small 1.2. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 2 13B Cada región admitida: 800 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y, InvokeModelWithResponseStream para Meta Llama ConverseStream, 2 13B.
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 2 70B Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y, en el caso de Meta Llama ConverseStream, InvokeModelWithResponseStream 2 70B.
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 2 Chat 13B Cada región admitida: 800 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Meta Llama 2 ConverseStream, Chat 13B.
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 2 Chat 70B Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y, InvokeModelWithResponseStream para Meta Llama 2 Chat ConverseStream, 70B.
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3 70B Instruct Cada región admitida: 400 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 70B Instruct. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3 8B Instruct Cada región admitida: 800 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 8B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 200 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 400 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.1 8B Instruct Cada región admitida: 800 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 11B Instruct Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 11B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 1B Instruct Cada región admitida: 800 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. Esta cuota representa el número total de solicitudes a las acciones de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream .
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 3B Instruct Cada región admitida: 800 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 90B Instruct Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para Meta Llama 3.2 90B Instruct. La cuota considera la suma combinada de las solicitudes de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Meta Llama 3.3 70B Instruct Cada región admitida: 400 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. Esta cuota representa el número total de solicitudes a las acciones de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream .
Solicitudes de inferencia de modelos a pedido por minuto para Minimax M2 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax M2. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para Minimax M2.1 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax M2.1. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Ministral 14B 3.0 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 14B 3.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para Ministral 3B 3.0 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 3B 3.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones ConverseStream. InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Ministral 8B 3.0 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 8B 3.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral 7B Instruct Cada región admitida: 800 No El número máximo de veces que puedes llamar InvokeModel en un minuto a Mistral mistral-7 0 b-instruct-v
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral AI Mistral Small Cada región admitida: 400 No El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto para Mistral AI Mistral Small
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral Devstral 2 123b Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Devstral 2 123b. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral Large Cada región admitida: 400 No El número máximo de veces que puedes llamar InvokeModel y InvokeModelWithResponseStream en un minuto para Mistral mistral-large 2402-v1
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral Large 2407 Cada región admitida: 400 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto para el Mistral Large 2407. La cuota considera la suma combinada de las solicitudes de, Converse y InvokeModel InvokeModelWithResponseStream ConverseStream
Solicitudes de inferencia de modelos a pedido por minuto para Mistral Large 3 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Large 3. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Mistral Mixtral 8x7b Instruct Cada región admitida: 400 No El número máximo de veces que puedes llamar InvokeModel en un minuto a Mistral mixtral-8x7b-v0
Solicitudes de inferencia de modelos bajo demanda por minuto para Moonshot AI Kimi K2.5 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para la Moonshot AI Kimi K2.5. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para NVIDIA Nemotron Nano 2 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para NVIDIA Nemotron Nano 2 VL Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2 VL. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para el Nemotron Nano 3 30B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Nemotron Nano 3 30B. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para OpenAI GPT OSS 120B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 120B. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para OpenAI GPT OSS 20B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 20B. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 235B a22b 2507 V1 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 235B a22b 2507 V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 32B V1 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 32B V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 Coder 30B a3b V1 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 30B a3b V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 Coder 480B a35b V1 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 480B a35b V1. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 Coder Next Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder Next. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 Next 80B A3B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Qwen3 Next 80B A3B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Qwen3 VL 235B A22B Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Qwen3 VL 235B A22B. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Diffusion 3 Large Cada región admitida: 15 No El número máximo de veces que puedes llamar InvokeModel en un minuto para Stability.ai Stable Diffusion 3 Large.
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Diffusion 3 Medium Cada región admitida: 60 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Diffusion 3 Medium
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Diffusion 3.5 Large Cada región admitida: 15 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Diffusion 3.5 Large.
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Diffusion XL 0.8 Cada región admitida: 60 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Diffusion XL 0.8
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Diffusion XL 1.0 Cada región admitida: 60 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Diffusion XL 1.0
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Image Core Cada región admitida: 90 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Image Core.
Solicitudes de inferencia de modelos bajo demanda por minuto para Stability.ai Stable Image Ultra Cada región admitida: 10 No El número máximo de veces que puede llamar InvokeModel en un minuto a Stability.ai Stable Image Ultra.
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Conservative Upscale Cada región admitida: 2 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Conservative Upscale. Esta cuota representa el número total de solicitudes a Converse InvokeModel y a InvokeModelWithResponseStream las acciones. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Control Sketch Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Control Sketch. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para una estructura de control de imagen estable Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en una estructura de control de imagen estable. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Creative Upscale Cada región admitida: 2 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Creative Upscale. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Erase Object Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Erase Object. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Fast Upscale Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Fast Upscale. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Inpaint Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Inpaint. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Outpaint Cada región admitida: 2 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Outpaint. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Remove Background Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Remove Background. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Search y Recolor Cada región admitida: 10 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Recolor. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Search and Replace Cada región admitida: 10 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Search and Replace. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Style Guide Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Guide. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Stable Image Style Transfer Cada región admitida: 10 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Stable Image Style Transfer. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Twelve Labs Marengo Cada región admitida: 100 No La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Marengo. Esta cuota representa el número total de solicitudes InvokeModel y InvokeModelWithResponseStream acciones enviadas a Converse. ConverseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Twelve Labs Pegasus Cada región admitida: 60 La cantidad máxima de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Twelve Labs Pegasus. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para TwelveLabs Marengo Embed 3.0 Cada región admitida: 500 El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para TwelveLabs Marengo Embed 3.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para Voxtral Mini 1.0 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Mini 1.0. Esta cuota representa el número total de solicitudes enviadas a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para Voxtral Small 1.0 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Small 1.0. Esta cuota representa el número total de solicitudes y acciones enviadas a Converse. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos bajo demanda por minuto para Z.ai GLM-4.7 Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Solicitudes de inferencia de modelos a pedido por minuto para Z.ai GLM-4.7 Flash Cada región admitida: 10 000 No El número máximo de solicitudes bajo demanda que se pueden enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7 Flash. Esta cuota representa el número total de solicitudes a Converse y de acciones. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele fichas de inferencia por minuto para AI21 Labs Jamba 1.5 Large Cada región admitida: 300 000 No El número máximo de fichas que puede enviar para la inferencia de modelos en un minuto en el caso de AI21 Labs Jamba 1.5 Large. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y. InvokeModel
Modela fichas de inferencia por minuto bajo demanda para AI21 Labs Jamba 1.5 Mini Cada región admitida: 300 000 No El número máximo de fichas que puede enviar para la inferencia de modelos en un minuto en el caso de AI21 Labs Jamba 1.5 Mini. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y. InvokeModel
Modele fichas de inferencia por minuto bajo demanda para AI21 Labs Jamba Instruct Cada región admitida: 300 000 No El número máximo de fichas que puede enviar para la inferencia de modelos en un minuto para AI21 Labs Jamba Instruct. La cuota tiene en cuenta la suma combinada de los tokens de Converse y InvokeModel
Símbolos de inferencia de modelos a pedido por minuto para AI21 Labs Jurassic-2 Mid Cada región admitida: 300 000 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream , para Labs ConverseStream, Jurassic-2 Mid. AI21
Modelos de inferencia por minuto para Labs Jurassic-2 Ultra AI21 Cada región admitida: 300 000 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y InvokeModelWithResponseStream Jurassic-2 Ultra de ConverseStream Labs. AI21
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Nova Lite

us-east-1: 4 000 000

eu-west-2: 4 000 000

Cada una de las demás regiones compatibles: 200 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Lite. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Nova Micro

us-east-1: 4 000 000

eu-west-2: 4 000 000

Cada una de las demás regiones compatibles: 200 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Micro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Nova Pro Cada región admitida: 1 000 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Nova Pro. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Image Generator G1 Cada región admitida: 2000 No El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Amazon Titan Image Generator G1.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Image Generator G1 V2 Cada región admitida: 2000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Amazon Titan Image Generator G1 V2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Multimodal Embeddings G1 Cada región admitida: 300 000 No El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Amazon Titan Multimodal Embeddings G1.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Embeddings Cada región admitida: 300 000 No El número máximo de fichas que puedes proporcionar InvokeModel en un minuto para Amazon Titan Text Embeddings.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Embeddings versión 2 Cada región admitida: 300 000 No El número máximo de fichas que puede proporcionar InvokeModel en un minuto para Amazon Titan Text Embeddings V2.
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Express Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Amazon Titan Text Express. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Lite Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Amazon Titan Text Lite. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Amazon Titan Text Premier Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Amazon Titan Text Premier. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Haiku

us-east-1: 2 000 000

us-west-2: 2 000 000

ap-northeast-1:200.000

ap-southeast-1:200.000

Cada una de las demás regiones compatibles: 300 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Haiku.
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Opus Cada región admitida: 400 000 No El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto en el caso de Anthropic Claude 3 Opus. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3 Sonnet

us-east-1: 1 000 000

us-west-2: 1 000 000

Cada una de las demás regiones compatibles: 200 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Anthropic Claude 3 Sonnet.
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.5 Haiku

us-west-1:300,000

Cada una de las demás regiones compatibles: 2 000 000

No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Anthropic Claude 3.5 Haiku. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.5 Sonnet

us-east-1:400.000

us-east-2:400.000

us-west-2: 2 000 000

ap-northeast-2:400.000

ap-south-1:400.000

ap-southeast-2:400.000

Cada una de las demás regiones apoyadas: 200 000

No El número máximo de fichas que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.5 Sonnet V2

us-west-2: 2 000 000

Cada una de las demás regiones compatibles: 400 000

No El número máximo de tokens que puede enviar para la inferencia del modelo Anthropic Claude 3.5 Sonnet V2 en un minuto. La cuota considera la suma combinada de Converse ConverseStream, InvokeModel y InvokeModelWithResponseStream.
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude 3.7 Sonnet V1 Cada región admitida: 500 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Sonnet V1 de Anthropic Claude 3.7. La cuota considera la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude Instant

us-east-1: 1 000 000

us-west-2: 1 000 000

Cada una de las demás regiones compatibles: 300 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a Anthropic Claude Instant. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Anthropic Claude V2

us-east-1: 500 000

us-west-2: 500 000

Cada una de las demás regiones compatibles: 200 000

No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream de Anthropic Claude V2. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Cohere Command Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream a ConverseStream Cohere Command.
Modele fichas de inferencia por minuto bajo demanda para Cohere Command Light Cada región admitida: 300 000 No El número máximo de veces que puede realizar una llamada a la inferencia de modelos en un minuto. La cuota considera la suma combinada de Converse InvokeModel y ConverseStream, en el caso de Cohere InvokeModelWithResponseStream Command Light.
Tokens de inferencia de modelos bajo demanda por minuto para Cohere Command R Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida en todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream para Cohere Command R 128k. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Cohere Command R Plus Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota considera la suma combinada de los tokens de entrada y salida en todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream para Cohere Command R Plus 128k. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Cohere Embed English Cada región admitida: 300 000 No El número máximo de fichas que puedes proporcionar InvokeModel en un minuto para Cohere Embed English.
Modele fichas de inferencia por minuto bajo demanda para Cohere Embed Multilingual Cada región admitida: 300 000 No El número máximo de fichas que puede proporcionar InvokeModel en un minuto a Cohere Embed Multilingual.
Modele los tokens de inferencia por minuto bajo demanda para Cohere Embed V4 Cada región admitida: 150 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Cohere Embed V4. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Símbolos de inferencia de modelos a pedido por minuto para DeepSeek la versión 3 y la versión 1 Cada región admitida: 100 000 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para DeepSeek la V3 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos a pedido por minuto para la versión 3.2 DeepSeek Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto en el caso de la versión 3.2. DeepSeek La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Modelos de inferencia por minuto según demanda para GPT OSS Safeguard 120B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto en el caso de GPT OSS Safeguard 120B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modelos de inferencia por minuto según demanda para GPT OSS Safeguard 20B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para GPT OSS Safeguard 20B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modela bajo demanda: fichas de inferencia por minuto para Gemma 3 12B Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 12B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele bajo demanda: fichas de inferencia por minuto para Gemma 3 27B Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 27B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modela bajo demanda: fichas de inferencia por minuto para Gemma 3 4B Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia del modelo en un minuto para Gemma 3 4B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele fichas de inferencia por minuto bajo demanda para Kimi K2 Thinking Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para Kimi K2 Thinking. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele fichas de inferencia por minuto bajo demanda para Magistral Small 1.2 Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para Magistral Small 1.2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 2 13B Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Meta Llama 2 13B.
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 2 70B Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream, en el caso de Meta Llama InvokeModelWithResponseStream 2 70B.
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 2 Chat 13B Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Meta Llama 2 Chat 13B.
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 2 Chat 70B Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y ConverseStream InvokeModelWithResponseStream , en el caso de Meta Llama 2 Chat 70B.
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3 70B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3 8B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3 8B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modelos de inferencia por minuto para Meta Llama 3.1 405B Instruct Cada región admitida: 400 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 405B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.1 70B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.1 8B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.1 8B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 11B Instruct Cada región admitida: 300 000 No El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 11B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel InvokeModelWithResponseStream, Converse y. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 1B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 1B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 3B Instruct Cada región admitida: 300 000 No El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 3B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel InvokeModelWithResponseStream, Converse y. ConverseStream
Tokens de inferencia de modelos bajo demanda por minuto para Meta Llama 3.2 90B Instruct Cada región admitida: 300 000 No El número máximo de fichas que puedes enviar para la inferencia de modelos en un minuto para Meta Llama 3.2 90B Instruct. La cuota considera la suma combinada de los tokens de InvokeModel, InvokeModelWithResponseStream, Converse y. ConverseStream
Tokens de inferencia de modelos por minuto bajo demanda para Meta Llama 3.3 70B Instruct Cada región admitida: 300 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Meta Llama 3.3 70B Instruct. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto a pedido para Minimax M2 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Minimax M2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto a pedido para Minimax M2.1 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para Minimax M2.1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modelos de inferencia a pedido por minuto para Ministral 14B 3.0 Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 14B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modelos de inferencia por minuto bajo demanda para Ministral 3B 3.0 Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 3B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, ConverseStream y. InvokeModel InvokeModelWithResponseStream
Modelos de inferencia por minuto bajo demanda para Ministral 8B 3.0 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Ministral 8B 3.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Mistral AI Mistral 7B Instruct Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream , en el caso del Mistral AI ConverseStream, el Mistral 7B Instruct.
Tokens de inferencia de modelos bajo demanda por minuto para Mistral AI Mistral Large Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y, en el caso de Mistral AI, ConverseStream Mistral Large. InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Mistral AI Mistral Small Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse InvokeModel y InvokeModelWithResponseStream , en el caso de Mistral AI ConverseStream, Mistral Small.
Tokens de inferencia de modelos bajo demanda por minuto para Mistral AI Mixtral 8X7BB Instruct Cada región admitida: 300 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse y, en el caso de Mistral AI Mixtral ConverseStream 8X7B InvokeModel Instruct InvokeModelWithResponseStream .
Símbolos de inferencia modelados bajo demanda por minuto para Mistral Devstral 2 123b Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Mistral Devstral 2 123b. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Mistral Large 2407 Cada región admitida: 300 000 No El número máximo de fichas que puede enviar para la inferencia del modelo en un minuto para el Mistral Large 2407. La cuota considera la suma combinada de los tokens de InvokeModel InvokeModelWithResponseStream, Converse y ConverseStream
Símbolos de inferencia del modelo a pedido por minuto para Mistral Large 3 Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puede enviar para la inferencia de modelos en un minuto en el caso de Mistral Large 3. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Moonshot AI Kimi K2.5 modela fichas de inferencia por minuto bajo demanda Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puedes enviar para la inferencia de modelos en un minuto en el caso de Moonshot AI Kimi K2.5. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos bajo demanda por minuto para NVIDIA Nemotron Nano 2 Cada región admitida: 100 000 000 No La cantidad máxima de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos bajo demanda por minuto para NVIDIA Nemotron Nano 2 VL Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puedes enviar para la inferencia de modelos en un minuto para NVIDIA Nemotron Nano 2 VL. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modelo a pedido: fichas de inferencia por minuto para Nemotron Nano 3 30B Cada región admitida: 100 000 000 No El número máximo de fichas bajo demanda que puedes enviar para la inferencia del modelo en un minuto para el Nemotron Nano 3 30B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para OpenAI GPT OSS 120B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 120B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para OpenAI GPT OSS 20B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para OpenAI GPT OSS 20B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Qwen3 235B a22b 2507 V1 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 235B a22b 2507 V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Qwen3 32B V1 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 32B V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Qwen3 Coder 30B a3b V1 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 30B a3b V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Tokens de inferencia de modelos bajo demanda por minuto para Qwen3 Coder 480B a35b V1 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder 480B a35b V1. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse ConverseStream, InvokeModel y. InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto a pedido para Qwen3 Coder Next Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Qwen3 Coder Next. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto para Qwen3 Next 80B A3B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia del modelo en un minuto para el Qwen3 Next 80B A3B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia modelados bajo demanda por minuto para Qwen3 VL 235B A22B Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para el Qwen3 VL 235B A22B. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto bajo demanda para Voxtral Mini 1.0 Cada región admitida: 100 000 000 No La cantidad máxima de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Mini 1.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Modele los tokens de inferencia por minuto bajo demanda para Voxtral Small 1.0 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Voxtral Small 1.0. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos a pedido por minuto para Z.ai GLM-4.7 Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Símbolos de inferencia de modelos a pedido por minuto para Z.ai GLM-4.7 Flash Cada región admitida: 100 000 000 No El número máximo de tokens bajo demanda que puede enviar para la inferencia de modelos en un minuto para Z.ai GLM-4.7 Flash. La cuota tiene en cuenta la suma combinada de los tokens de entrada y salida de todas las solicitudes a Converse, y. ConverseStream InvokeModel InvokeModelWithResponseStream
Funciones de parámetros de base de datos Cada región admitida: 5 Número máximo de parámetros que puede haber en una función de grupo de acciones.
PrepareAgent solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de PrepareAgent API por segundo.
Trabajo de inferencia de registros por lote para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Registros por trabajo de inferencia en lotes para Amazon Nova Premier Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Amazon Nova Premier.
Registros por trabajo de inferencia en lotes para Claude 3 Haiku Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3 Haiku.
Registros por trabajo de inferencia en lotes para Claude 3 Opus Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3 Opus.
Registros por trabajo de inferencia en lotes para Claude 3 Sonnet Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3 Sonnet.
Registros por trabajo de inferencia en lotes para Claude 3.5 Haiku Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Registros por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Registros por trabajo de inferencia en lotes para Claude 3.7 Sonnet Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Trabajo de inferencia de registros por lote para Claude Haiku 4.5 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Trabajos de inferencia de registros por lote para Claude Opus 4.5 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Trabajos de inferencia de registros por lote para Claude Opus 4.6 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Registros por trabajo de inferencia en lotes para Claude Sonnet 4 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Claude Sonnet 4.
Registros por trabajo de inferencia por lote para Claude Sonnet 4.5 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Registros por trabajo de inferencia por lote para Claude Sonnet 4.6 Cada región admitida: 100 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Registros por trabajo de inferencia por lotes para la versión 3.2 DeepSeek Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3.2. DeepSeek
Registros por trabajo de inferencia por lotes para la versión 3 DeepSeek Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para la versión 3. DeepSeek
Registros por trabajo de inferencia por lote para Devstral 2 123B Cada región admitida: 100 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Registros por trabajo de inferencia por lote para GLM 4.7 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para GLM 4.7.
Registra por lote el trabajo de inferencia para GLM 4.7 Flash Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para GLM 4.7 Flash.
Registros por trabajo de inferencia por lote para Gemma 3 12B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 12B.
Registros por trabajo de inferencia por lote para Gemma 3 27B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Gemma 3 27B.
Registros por trabajo de inferencia por lote para Gemma 3 4B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Gemma 3 4B.
Registros por lote: trabajo de inferencia para Kimi K2 Thinking Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Registros por trabajo de inferencia por lote para Kimi K2.5 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Kimi K2.5.
Registros por trabajo de inferencia en lotes para Llama 3.1 405B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.1 70B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.1 8B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 11B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 1B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 3B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.2 90B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Registros por trabajo de inferencia en lotes para Llama 3.3 70B Instruct Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Registros por trabajo de inferencia en lotes para Llama 4 Maverick Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Registros por trabajo de inferencia en lotes para Llama 4 Scout Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Trabajo de inferencia de registros por lote para Magistral Small 2509 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Registros por trabajo de inferencia por lote para M2 MiniMax Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para MiniMax M2.
Registros por trabajo de inferencia por lote para M2.1 MiniMax Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para M2.1. MiniMax
Trabajos de inferencia de registros por lote para Ministral 3 14B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Trabajo de inferencia de registros por lote para Ministral 3 8B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Trabajos de inferencia de registros por lote para Ministral 3B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Registros por trabajo de inferencia en lotes para Mistral Large 2 (24.07) Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Trabajos de inferencia de registros por lote para Mistral Large 3 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Registros por trabajo de inferencia en lotes para Mistral Small Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia en lotes para Mistral Small.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 12B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 3 30B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Registra el trabajo de inferencia por lote para NVIDIA Nemotron Nano 9B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Registros por trabajo de inferencia por lote para Nova 2 Lite Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Registros por trabajo de inferencia en lotes para Nova Lite V1 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Lite V1.
Registros por trabajo de inferencia en lotes para Nova Micro V1 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Micro V1.
Registros por trabajo de inferencia en lotes para Nova Pro V1 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Nova Pro V1.
Registros por trabajo de inferencia en lotes para OpenAI GPT OSS 120b Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Registros por trabajo de inferencia en lotes para OpenAI GPT OSS 20b Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Trabajo de inferencia de registros por lote para OpenAI GPT OSS Safeguard 120b Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Trabajo de inferencia de registros por lote para OpenAI GPT OSS Safeguard 2.0b Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Registros por trabajo de inferencia en lotes para Qwen3 235B Cada región admitida: 50 000 Número máximo de registros por archivo de entrada en un trabajo de inferencia en lotes para Qwen3 235B.
Registros por trabajo de inferencia en lotes para Qwen3 32B Cada región admitida: 50 000 La cantidad máxima de registros entre todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 32B.
Registros por trabajo de inferencia en lotes para Qwen3 Coder 30B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Registros por trabajo de inferencia en lotes para Qwen3 Coder 480B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Registros por trabajo de inferencia por lote para Qwen3 Coder Next Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Registros por trabajo de inferencia por lote para Qwen3 Next 80B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada de un trabajo de inferencia por lotes para Qwen3 Next 80B.
Registros por trabajo de inferencia por lote para Qwen3 VL 235B Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Registros por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Registros por trabajo de inferencia en lotes para Titan Text Embeddings V2 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Registra por lote el trabajo de inferencia para Voxtral Mini 3B 2507 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Registra por lote el trabajo de inferencia para Voxtral Small 24B 2507 Cada región admitida: 50 000 El número máximo de registros en todos los archivos de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Registros por archivo de entrada por trabajo de inferencia por lote para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Amazon Nova 2 Multimodal Embeddings V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Amazon Nova Premier Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Amazon Nova Premier.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Haiku Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Haiku.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Opus Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Opus.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3 Sonnet Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3 Sonnet.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.5 Haiku Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.5 Haiku.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.5 Sonnet Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para el Sonnet Claude 3.5.
Registros por archivo de entrada por trabajo de inferencia en lotes para Claude 3.5 Sonnet v2 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.5 Sonnet v2.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Claude 3.7 Sonnet Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude 3.7 Sonnet.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Haiku 4.5 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Haiku 4.5.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Opus 4.5 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Opus 4.5.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Opus 4.6 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Opus 4.6.
Registros por archivo de entrada por trabajo de inferencia en lotes para Claude Sonnet 4 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Claude Sonnet 4.
Registros por archivo de entrada por trabajo de inferencia por lotes para Claude Sonnet 4.5 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.5.
Registra por archivo de entrada por trabajo de inferencia por lotes para Claude Sonnet 4.6 Cada región admitida: 100 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Claude Sonnet 4.6.
Registra por archivo de entrada por trabajo de inferencia por lotes para la versión 3.2 DeepSeek Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para la versión 3.2. DeepSeek
Registra por archivo de entrada por trabajo de inferencia por lotes para la versión 3 DeepSeek Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para la versión 3. DeepSeek
Registros por archivo de entrada por trabajo de inferencia por lotes para Devstral 2 123B Cada región admitida: 100 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Devstral 2 123B.
Registra por archivo de entrada por trabajo de inferencia por lotes para GLM 4.7 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para GLM 4.7.
Registra por archivo de entrada por trabajo de inferencia por lotes para GLM 4.7 Flash Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para GLM 4.7 Flash.
Registra por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 12B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 12B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 27B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 27B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Gemma 3 4B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Gemma 3 4B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Kimi K2 Thinking Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Kimi K2 Thinking.
Registra por archivo de entrada por trabajo de inferencia por lotes para Kimi K2.5 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Kimi K2.5.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 405B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 405B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 70B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 70B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.1 8B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.1 8B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 11B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 11B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 1B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes Llama 3.2 1B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 3B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 3B Instruct.
Registros por archivo de entrada por trabajo de inferencia en lotes para Llama 3.2 90B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.2 90B Instruct.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 3.3 70B Instruct Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 3.3 70B Instruct.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 4 Maverick Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 4 Maverick.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Llama 4 Scout Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Llama 4 Scout.
Registros por archivo de entrada y por trabajo de inferencia por lotes para Magistral Small 2509 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Magistral Small 2509.
Registros por archivo de entrada por trabajo de inferencia por lotes para M2 MiniMax Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para MiniMax M2.
Registra por archivo de entrada por trabajo de inferencia por lotes para M2.1 MiniMax Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para M2.1. MiniMax
Registros por archivo de entrada por trabajo de inferencia por lotes para Ministral 3 14B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3 14B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Ministral 3 8B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3 8B.
Registros por archivo de entrada por trabajo de inferencia por lotes para Ministral 3B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Ministral 3B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Mistral Large 2 (24.07) Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Mistral Large 2 (24.07).
Registros por archivo de entrada por trabajo de inferencia por lotes para Mistral Large 3 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Mistral Large 3.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Mistral Small Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Mistral Small.
Registra por archivo de entrada por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 12B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 3 30B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para NVIDIA Nemotron Nano 9B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Nova 2 Lite Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Nova 2 Lite.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Lite V1 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Lite V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Micro V1 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Micro V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para Nova Pro V1 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Nova Pro V1.
Registros por archivo de entrada por trabajo de inferencia en lotes para OpenAI GPT OSS 120b Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 120b.
Registros por archivo de entrada por trabajo de inferencia en lotes para OpenAI GPT OSS 20b Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para OpenAI GPT OSS 20b.
Registros por archivo de entrada por trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 120b.
Registros por archivo de entrada por trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 2.0b Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para OpenAI GPT OSS Safeguard 20b.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 235B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 235B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 32B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 32B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 Coder 30B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 30B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Qwen3 Coder 480B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Qwen3 Coder 480B.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Qwen3 Coder Next Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 Coder Next.
Registra por archivo de entrada por trabajo de inferencia por lotes para Qwen3 Next 80B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 Next 80B.
Registra por archivo de entrada por trabajo de inferencia por lotes para Qwen3 VL 235B Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Qwen3 VL 235B.
Registros por archivo de entrada por trabajo de inferencia en lotes para Titan Multimodal Embeddings G1 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Titan Multimodal Embeddings G1.
Registros por archivo de entrada y por trabajo de inferencia en lotes para Titan Text Embeddings V2 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia en lotes para Titan Text Embeddings V2.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Voxtral Mini 3B 2507 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Voxtral Mini 3B 2507.
Registra por archivo de entrada y por trabajo de inferencia por lotes para Voxtral Small 24B 2507 Cada región admitida: 50 000 El número máximo de registros en un archivo de entrada en un trabajo de inferencia por lotes para Voxtral Small 24B 2507.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Amazon Nova 2 Multimodal Embeddings V1 Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados que utilizan un modelo base para Amazon Nova 2 Multimodal Embeddings V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Amazon Nova Premier Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados que utilizan un modelo base para Amazon Nova Premier.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Haiku Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Haiku.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Opus Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Opus.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Sonnet Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3 Sonnet.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Haiku Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Haiku.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet v2 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.5 Sonnet v2.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.7 Sonnet Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude 3.7 Sonnet.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Haiku 4.5 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Haiku 4.5.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.5 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.5.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.6 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Opus 4.6.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.5. Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.5.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.6 Cada región admitida: 100 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Claude Sonnet 4.6.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para la versión 3.2 DeepSeek Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para la versión 3.2. DeepSeek
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para la versión 3 DeepSeek Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para la versión 3. DeepSeek
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Devstral 2 123B Cada región admitida: 100 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Devstral 2 123B.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para GLM 4.7 Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para GLM 4.7.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para GLM 4.7 Flash Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para GLM 4.7 Flash.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 12B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 12B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 27B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 27B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 4B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Gemma 3 4B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2 Thinking Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2 Thinking.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2.5 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Kimi K2.5.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 405B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 405B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 70B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 70B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 8B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.1 8B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 11B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 11B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 1B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 1B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 3B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 3B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 90B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.2 90B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.3 70B Instruct Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 3.3 70B Instruct.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Maverick Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Maverick.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Scout Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Llama 4 Scout.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Magistral Small 2509 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Magistral Small 2509.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para M2 MiniMax Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para M2. MiniMax
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para M2.1 MiniMax Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para M2.1. MiniMax
Suma de los trabajos de inferencia de lotes en curso y presentados utilizando un modelo base para Ministral 3 14B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 14B.
Suma de los trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 8B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para Ministral 3 8B.
Suma de los trabajos de inferencia de lotes en curso y presentados utilizando un modelo base para Ministral 3B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y presentados utilizando un modelo base para el Ministral 3B.
La suma de trabajos de inferencia en lotes en curso y enviados con un modelo base para Mistral Large 2 (24.07) Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Large 2 (24.07).
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Mistral Large 3 Cada región admitida: 20 El número máximo de trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Mistral Large 3.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Small Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Mistral Small.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 12B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 12B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 3 30B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 3 30B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 9B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para NVIDIA Nemotron Nano 9B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Nova 2 Lite Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Nova 2 Lite.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Lite V1 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Lite V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Micro V1 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Micro V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Pro V1 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Nova Pro V1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 120b Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 120b.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 20b Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS 20b.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 120b Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 120b.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 2.0b Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para OpenAI GPT OSS Safeguard 20b.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 235B Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 235B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 32B Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 32B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 30B Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 30B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 480B Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Qwen3 Coder 480B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Coder Next Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Coder Next.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Next 80B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 Next 80B.
Suma de los trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Qwen3 VL 235B Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para el Qwen3 VL 235B.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Multimodal Embeddings G1 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Multimodal Embeddings G1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Text Embeddings V2 Cada región admitida: 20 El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo base para Titan Text Embeddings V2.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Voxtral Mini 3B 2507 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para el Voxtral Mini 3B 2507.
Suma de los trabajos de inferencia de lotes en curso y enviados utilizando un modelo base para Voxtral Small 24B 2507 Cada región admitida: 20 El número máximo de trabajos de inferencia por lotes en curso y enviados utilizando un modelo base para Voxtral Small 24B 2507.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Multimodal Embeddings G1 Cada región admitida: 3 No El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Multimodal Embeddings G1.
Suma de los trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Text Embeddings V2 Cada región admitida: 3 No El número máximo de trabajos de inferencia en lotes en curso y enviados utilizando un modelo personalizado para Titan Text Embeddings V2
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: ListTagsForResource Cada región admitida: 25 por segundo No El número máximo de tiempo de ejecución de Bedrock Data Automation: ListTagsForResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: TagResource Cada región admitida: 25 por segundo No El número máximo de tiempo de ejecución de Bedrock Data Automation: TagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation Runtime: UntagResource Cada región admitida: 25 por segundo No El número máximo de tiempo de ejecución de Bedrock Data Automation: UntagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: ListTagsForResource Cada región admitida: 25 por segundo No La cantidad máxima de Bedrock Data Automation: ListTagsForResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: TagResource Cada región admitida: 25 por segundo No La cantidad máxima de Bedrock Data Automation: TagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para Bedrock Data Automation: UntagResource Cada región admitida: 25 por segundo No La cantidad máxima de Bedrock Data Automation: UntagResource solicitudes que puede realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateBlueprint Cada región admitida: 5 por segundo No El número máximo de CreateBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateBlueprintVersion Cada región admitida: 5 por segundo No El número máximo de CreateBlueprintVersion solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para CreateDataAutomationProject Cada región admitida: 5 por segundo No El número máximo de CreateDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para DeleteBlueprint Cada región admitida: 5 por segundo No El número máximo de DeleteBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para DeleteDataAutomationProject Cada región admitida: 5 por segundo No El número máximo de DeleteDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetBlueprint Cada región admitida: 5 por segundo No El número máximo de GetBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationProject Cada región admitida: 5 por segundo No El número máximo de GetDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para GetDataAutomationStatus Cada región admitida: 10 por segundo No El número máximo de GetDataAutomationStatus solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para InvokeDataAutomationAsync Cada región admitida: 10 por segundo No El número máximo de InvokeDataAutomationAsync solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListBlueprints Cada región admitida: 5 por segundo No El número máximo de ListBlueprints solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para ListDataAutomationProjects Cada región admitida: 5 por segundo No El número máximo de ListDataAutomationProjects solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para UpdateBlueprint Cada región admitida: 5 por segundo No El número máximo de UpdateBlueprint solicitudes que puedes realizar por segundo por cuenta, en la región actual
Límite de velocidad de aceleración para UpdateDataAutomationProject Cada región admitida: 5 por segundo No El número máximo de UpdateDataAutomationProject solicitudes que puedes realizar por segundo por cuenta, en la región actual
UpdateAgent solicitudes por segundo Cada región admitida: 4 No El número máximo de solicitudes de UpdateAgent API por segundo.
UpdateAgentActionGroup solicitudes por segundo Cada región admitida: 6 No El número máximo de solicitudes de UpdateAgentActionGroup API por segundo.
UpdateAgentAlias solicitudes por segundo Cada región admitida: 2 No El número máximo de solicitudes de UpdateAgentAlias API por segundo.
UpdateAgentKnowledgeBase solicitudes por segundo Cada región admitida: 4 No El número máximo de solicitudes de UpdateAgentKnowledgeBase API por segundo.
nota

Para solicitar un aumento de todas las cuotas de su cuenta, siga los siguientes pasos:

  • Si una cuota está marcada como , puede ajustarla siguiendo los pasos que se indican en Solicitar un aumento de cuota en la Guía del usuario de Service Quotas.

  • Si una cuota está marcada como No, puede enviar una solicitud a través del formulario de aumento del límite para que se considere su posibilidad de aumentarla.

  • No puede solicitar un aumento para las cuotas siguientes.

    • InvokeModel Tokens interregionales por minuto para ${model}

    • InvokeModel Solicitudes entre regiones por minuto para ${model}

    • InvokeModel Tokens a pedido por minuto para ${model}

    • InvokeModel Solicitudes bajo demanda por minuto para ${model}

    Para solicitar un aumento de cualquier combinación de estas cuotas, solicita un aumento de los InvokeModel tokens por minuto de ${model} cuota entre regiones siguiendo los pasos que se indican en Solicitar un aumento de cuota en la Guía del usuario de Service Quotas. Cuando lo hagas, el equipo de soporte se pondrá en contacto contigo y te ofrecerá la opción de aumentar también las otras tres cuotas. Debido a la abrumadora demanda, se dará prioridad a los clientes que generen tráfico que consuma la cuota que tienen asignada. La solicitud se denegará si no cumple esta condición.