Soporte de API mejorado: múltiples formatos de API Preguntas frecuentes Manipulación ModelNotReadyException

Invocación del modelo importado

El trabajo de importación del modelo puede tardar varios minutos en importar el modelo después de enviar la CreateModelImportJobsolicitud. Puede comprobar el estado del trabajo de importación en la consola o llamando a la GetModelImportJoboperación y marcando el Status campo de la respuesta. El trabajo de importación está completo si el estado del modelo es Completado.

Una vez que el modelo importado esté disponible en Amazon Bedrock, podrá utilizar el modelo con rendimiento bajo demanda enviando InvokeModelo InvokeModelWithResponseStreamsolicitando llamadas de inferencia al modelo. Para obtener más información, consulte Envíe un único mensaje con InvokeModel.

Para interactuar con el modelo importado mediante el formato de mensajes, puede llamar a Converse o a Operations. ConverseStream Para obtener más información, consulte Mediante la API de Converse.

nota

La API de Converse no es compatible con Qwen2.5, Qwen2-VL, Qwen2.5-vL ni con los modelos. GPT-OSS

Soporte de API mejorado: múltiples formatos de API

A partir del 17 de noviembre de 2025, Amazon Bedrock Custom Model Import admite formatos API integrales compatibles con OpenAI, lo que proporciona flexibilidad a la hora de integrar e implementar sus modelos personalizados. Todos los modelos importados después del 11 de noviembre de 2025 se beneficiarán automáticamente de estas capacidades mejoradas sin necesidad de configuración adicional.

La importación de modelos personalizados ahora admite tres formatos de API:

BedrockCompletion (Texto): compatible con los flujos de trabajo actuales de Bedrock
Compatibilidad con Open AICompletion (Text): OpenAI Completions Schema
AIChatFinalización abierta (texto e imágenes): compatibilidad total con esquemas conversacionales

Estas capacidades mejoradas incluyen salidas estructuradas para aplicar esquemas y patrones de JSON, un mejor soporte de visión con procesamiento de múltiples imágenes, probabilidades de registro para obtener información sobre la confianza de los modelos y capacidades de uso de herramientas para los modelos. GPT-OSS

Para obtener documentación de referencia detallada sobre la API, consulte la documentación oficial de OpenAI:

Finalización: API de terminaciones de OpenAI
ChatCompletion: API de chat OpenAI

Ejemplos de formatos de API

Los siguientes ejemplos muestran cómo utilizar cada uno de los cuatro formatos de API compatibles con los modelos importados.

BedrockCompletion

BedrockCompletionEl formato es compatible con los flujos de trabajo actuales de Bedrock y admite solicitudes de inferencia basadas en texto.

Ejemplo de solicitud:


import json
import boto3

client = boto3.client('bedrock-runtime', region_name='us-east-1')

payload = {
    "prompt": "How is the rainbow formed?",
    "max_gen_len": 100,
    "temperature": 0.5
}

response = client.invoke_model(
    modelId='your-model-arn',
    body=json.dumps(payload),
    accept='application/json',
    contentType='application/json'
)

response_body = json.loads(response['body'].read())

Ejemplo de respuesta:


{
    "generation": " – A scientific explanation\nA rainbow is a beautiful natural phenomenon that occurs when sunlight passes through water droplets in the air. It is formed through a process called refraction, which is the bending of light as it passes from one medium to another.\nHere's a step-by-step explanation of how a rainbow is formed:\n1. Sunlight enters the Earth's atmosphere: The first step in forming a rainbow is for sunlight to enter the Earth's atmosphere. This sunlight is made up of a spectrum of",
    "prompt_token_count": 7,
    "generation_token_count": 100,
    "stop_reason": "length",
    "logprobs": null
}

BedrockCompletion admite salidas estructuradas utilizando response_format parámetros con y tipos. json_object json_schema

OpenAICompletion

AICompletionEl formato abierto proporciona compatibilidad con OpenAI Completions Schema. Para usar este formato, incluya el max_tokens parámetro en lugar de. max_gen_len

Ejemplo de solicitud:


import json
import boto3

client = boto3.client('bedrock-runtime', region_name='us-east-1')

payload = {
    "prompt": "How is the rainbow formed?",
    "max_tokens": 100,
    "temperature": 0.5
}

response = client.invoke_model(
    modelId='your-model-arn',
    body=json.dumps(payload),
    accept='application/json',
    contentType='application/json'
)

response_body = json.loads(response['body'].read())

Ejemplo de respuesta:


{
    "id": "cmpl-b09d5810bd64428f8a853be71c31f912",
    "object": "text_completion",
    "created": 1763166682,
    "choices": [
        {
            "index": 0,
            "text": " The formation of a rainbow is a complex process that involves the interaction of sunlight with water droplets in the air. Here's a simplified explanation: 1. Sunlight enters the Earth's atmosphere and is refracted, or bent, as it passes through the air. 2. When sunlight encounters a water droplet, such as a cloud, mist, or fog, it is refracted again and split into its individual colors, a process known as dispersion. 3. The refracted and",
            "finish_reason": "length"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 107,
        "completion_tokens": 100
    }
}

Open AICompletion admite capacidades de salida totalmente estructuradasjson, que incluyen regexchoice, y grammar restricciones mediante el uso del structured_outputs parámetro.

OpenAIChatCompletion

El formato AIChatOpen Completion proporciona una compatibilidad total con los esquemas conversacionales y admite entradas de texto e imágenes.

Ejemplo de solicitud:


import json
import boto3

client = boto3.client('bedrock-runtime', region_name='us-east-1')

payload = {
    "messages": [
        {
            "role": "user",
            "content": "How is the rainbow formed?"
        }
    ],
    "max_tokens": 100,
    "temperature": 0.5
}

response = client.invoke_model(
    modelId='your-model-arn',
    body=json.dumps(payload),
    accept='application/json',
    contentType='application/json'
)

response_body = json.loads(response['body'].read())

Ejemplo de respuesta:


{
    "id": "chatcmpl-1d84ce1d3d61418e8c6d1973f87173db",
    "object": "chat.completion",
    "created": 1763166683,
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "A rainbow is a beautiful natural phenomenon that occurs when sunlight passes through water droplets in the air. The process of forming a rainbow involves several steps:\n\n1. **Sunlight**: The first requirement for a rainbow is sunlight. The sun should be shining brightly, but not directly overhead.\n2. **Water droplets**: The second requirement is water droplets in the air..."
            },
            "finish_reason": "length"
        }
    ],
    "usage": {
        "prompt_tokens": 41,
        "completion_tokens": 100,
        "total_tokens": 141
    }
}

Open AIChat Completion admite salidas estructuradas mediante el uso de structured_outputs parámetros response_format y. Para obtener capacidades de visión, incluya imágenes en la matriz de contenido con datos de imagen codificados en base64.

nota

Para usar el ChatCompletion formato, la plantilla de chat debe formar parte del. tokenizer_config.json La importación de modelos personalizados no aplicará ninguna plantilla de chat predeterminada a la solicitud.

Necesitará el ARN del modelo para realizar llamadas de inferencia al modelo que acaba de importar. Tras completar correctamente el trabajo de importación y una vez que el modelo importado esté activo, puede obtener el ARN del modelo importado en la consola o enviando una ListImportedModelssolicitud.

Cuando invoca su modelo importado utilizando InvokeModel o InvokeModelWithStream, su solicitud se entrega en cinco minutos o podría recibir una excepción ModelNotReadyException. Para entenderlo ModelNotReadyException, siga los pasos de manipulación ModelNotreadyException que se indican en la siguiente sección.

Preguntas frecuentes

P: ¿Qué formato de API debo usar?

R: Para obtener la máxima compatibilidad con varios formatos SDKs, recomendamos utilizar los formatos Open AICompletion o Open AIChat Completion, ya que proporcionan esquemas compatibles con OpenAI que son ampliamente compatibles con diferentes herramientas y bibliotecas.

P: ¿La importación de modelos personalizados GPT-OSS en Amazon Bedrock es compatible con la API de Converse?

R: No. GPT-OSSlos modelos de importación basados en modelos personalizados no son compatibles con la API o ConverseStream la API de Converse. Debe utilizar la InvokeModelAPI con esquemas compatibles con OpenAI cuando trabaje con GPT-OSS modelos personalizados basados.

P: ¿Qué modelos admiten la función de llamadas a herramientas?

R: Los modelos personalizados GPT-OSS basados en herramientas admiten las capacidades de llamada a las herramientas. La llamada a herramientas permite realizar llamadas a funciones para flujos de trabajo complejos.

P: ¿Qué pasa con los modelos importados antes del 11 de noviembre de 2025?

R: Los modelos importados antes del 11 de noviembre de 2025 siguen funcionando tal cual con sus capacidades y formatos de API actuales.

P: ¿Qué pasa con generation_config.json los modelos basados en OpenAI?

R: Es fundamental que incluya el generation_config.json archivo correcto al importar modelos basados en OpenAI, como. GPT-OSS Debe utilizar el archivo de configuración actualizado (actualizado el 13 de agosto de 2024) disponible en https://huggingface. co/openai/gpt-oss-20b/blob/main/generation_config.json. La configuración actualizada incluye tres end-of-sequence tokens IDs ([200002, 199999, 200012]), mientras que las versiones anteriores solo incluían dos tokens (). [200002, 199999] El uso de un generation_config.json archivo desactualizado provocará errores de tiempo de ejecución durante la invocación del modelo. Este archivo es esencial para el correcto comportamiento del modelo y debe incluirse en las importaciones de modelos basadas en OpenAI.

Manipulación ModelNotReadyException

Importación de modelos personalizados de Amazon Bedrock optimiza la utilización del hardware al eliminar los modelos que no están activos. Si intenta invocar un modelo que se ha eliminado, recibirá una excepción ModelNotReadyException. Una vez eliminado el modelo e invocado el modelo por primera vez, Importación de modelos personalizados empezará a restaurar el modelo. El tiempo de restauración depende del tamaño de la flota bajo demanda y del tamaño del modelo.

Si su solicitud InvokeModel o InvokeModelWithStream devuelve ModelNotReadyException, siga los pasos para gestionar la excepción.

Configure los reintentos.

De forma predeterminada, la solicitud se reintenta automáticamente con un retroceso exponencial. Puede configurar el número máximo de reintentos.

En el siguiente ejemplo se muestra cómo configurar el reintento. Sustituya ${region-name} y 10 por su región, el ARN del modelo y el número máximo de intentos. ${model-arn}


import json
import boto3
from botocore.config import Config


REGION_NAME = ${region-name}
MODEL_ID= '${model-arn}'

config = Config(
    retries={
        'total_max_attempts': 10, //customizable
        'mode': 'standard'
    }
)
message = "Hello"


session = boto3.session.Session()
br_runtime = session.client(service_name = 'bedrock-runtime', 
                                 region_name=REGION_NAME, 
                                 config=config)
    
try:
    invoke_response = br_runtime.invoke_model(modelId=MODEL_ID, 
                                            body=json.dumps({'prompt': message}), 
                                            accept="application/json", 
                                            contentType="application/json")
    invoke_response["body"] = json.loads(invoke_response["body"].read().decode("utf-8"))
    print(json.dumps(invoke_response, indent=4))
except Exception as e:
    print(e)
    print(e.__repr__())

Supervise los códigos de respuesta durante los reintentos

Cada reintento inicia el proceso de restauración del modelo. El tiempo de restauración depende del tamaño de la flota bajo demanda y del modelo. Supervise los códigos de respuesta mientras se lleva a cabo el proceso de restauración.

Si los reintentos fallan de manera constante, continúe con los siguientes pasos.
Compruebe que el modelo se ha importado correctamente

Puede comprobar si el modelo se importó correctamente comprobando el estado del trabajo de importación en la consola o llamando a la GetModelImportJoboperación. Consulte el campo Status de la respuesta. El trabajo de importación se ha realizado correctamente si el estado del modelo es Completado.
Póngase en contacto con nosotros Soporte para seguir investigando

Abra un ticket con Soporte Para obtener más información, consulte Creación de casos de soporte.

Incluya los detalles pertinentes, como el ID del modelo y las marcas horarias, en el ticket de soporte.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Envío de un trabajo de importación de modelos

Funciones de API avanzadas para modelos importados

Invocación del modelo importado

nota

Soporte de API mejorado: múltiples formatos de API

Ejemplos de formatos de API

nota

Preguntas frecuentes

Manipulación ModelNotReadyException

Configure los reintentos.

Supervise los códigos de respuesta durante los reintentos

Compruebe que el modelo se ha importado correctamente

Póngase en contacto con nosotros Soporte para seguir investigando