Requisitos previos Modelos básicos compatibles Implementar un modelo personalizado Utilice una implementación para realizar inferencias bajo demanda Eliminar una implementación de un modelo

Implementar un modelo personalizado para inferencia bajo demanda

Tras crear un modelo personalizado con un trabajo de personalización de modelos o importar un Amazon Nova modelo SageMaker personalizado entrenado por IA, puede configurar la inferencia bajo demanda para el modelo. Con la inferencia bajo demanda, solo paga por lo que utiliza y no necesita configurar recursos de computación aprovisionados.

Para configurar la inferencia bajo demanda para un modelo personalizado, debe implementar el modelo con una implementación de modelo personalizado. Tras implementar el modelo personalizado, se utiliza el Nombre de recurso de Amazon (ARN) de la implementación como el parámetro modelId al enviar las peticiones y generar respuestas con la inferencia del modelo.

Para obtener más información sobre los precios de la inferencia bajo demanda, consulte Precios de Amazon Bedrock. Puede implementar un modelo personalizado para la inferencia bajo demanda en las siguientes regiones (para obtener más información sobre las regiones compatibles con Amazon Bedrock, consulte Puntos de conexión y cuotas de Amazon Bedrock):

Este de EE. UU. (Norte de Virginia)
Oeste de EE. UU. (Oregón)

Requisitos previos para implementar un modelo personalizado para inferencia bajo demanda

Antes de implementar un modelo personalizado para inferencia bajo demanda, asegúrese de cumplir los siguientes requisitos:

Debe usar la región Este de EE. UU. (Norte de Virginia) u Oeste de EE. UU. (Oregón).
Debe personalizar el modelo a partir del 16 de julio de 2025. Para conocer los modelos admitidos, consulte Modelos básicos compatibles.
Su cuenta debe tener permiso de acceso al modelo que va a implementar. Para obtener más información acerca de la personalización, acceso y seguridad de modelos, consulte Personalización, acceso y seguridad de los modelos.
Si el modelo está cifrado con una AWS KMS clave, debe tener permiso para usar esa clave. Para obtener más información, consulte Cifrado de los modelos personalizados.

Modelos básicos compatibles

Puede configurar la inferencia bajo demanda para los siguientes modelos:

Amazon Nova Lite
Amazon Nova Micro
Amazon Nova Pro
Meta Llama 3.3 70B Instruct

Implementar un modelo personalizado

Puede implementar un modelo personalizado con la consola Amazon Bedrock AWS Command Line Interface, o AWS SDKs. Para obtener más información sobre la implementación de la inferencia, consulte Utilice una implementación para realizar inferencias bajo demanda.

Console

Puede implementar un modelo personalizado en la página Modelos personalizados de la siguiente manera. También puede implementar un modelo en la página Modelos personalizados bajo demanda con los mismos campos. Para encontrar esta página, en Inferencia en el panel de navegación, elija Modelo personalizado bajo demanda.

Para implementar un modelo

Inicie sesión Consola de administración de AWS con una identidad de IAM que tenga permisos para usar la consola Amazon Bedrock. A continuación, abra la consola de Amazon Bedrock en https://console.aws.amazon.com/bedrock.
En el panel de navegación de la izquierda, seleccione Modelos personalizados en Ajustar.
En la pestaña Modelos, elija el botón de opción correspondiente al modelo que desea implementar.
Elija Configurar inferencia y seleccione Implementar bajo demanda.
En Detalles de la implementación, indique la siguiente información.
- Nombre de la implementación (obligatorio): introduzca un nombre único para la implementación.
- Descripción (opcional): ingrese una descripción para la implementación.
- Etiquetas (opcional): agregue etiquetas para la asignación de costos y la administración de recursos.
Seleccione Crear. Cuando se muestre que el estado de implementación es Active, el modelo personalizado estará listo para la inferencia bajo demanda. Para obtener más información acerca del modelo personalizado, consulte Utilice una implementación para realizar inferencias bajo demanda.

CLI

Para implementar un modelo personalizado para la inferencia bajo demanda mediante el AWS Command Line Interface, utilice el create-custom-model-deployment comando con el Amazon Resource Name (ARN) del modelo personalizado. Este comando utiliza la operación de la API CreateCustomModelDeployment. La respuesta incluye el ARN de la implementación. Cuando la implementación está activa, se utiliza este ARN como el modelId al realizar solicitudes de inferencia. Para obtener más información sobre la implementación de la inferencia, consulte Utilice una implementación para realizar inferencias bajo demanda.


aws bedrock create-custom-model-deployment \
--model-deployment-name "Unique name" \
--model-arn "Custom Model ARN" \
--description "Deployment description" \
--tags '[
    {
        "key": "Environment",
        "value": "Production"
    },
    {
        "key": "Team",
        "value": "ML-Engineering"
    },
    {
        "key": "Project",
        "value": "CustomerSupport"
    }
]' \
--client-request-token "unique-deployment-token" \
--region region

API

Para implementar un modelo personalizado para la inferencia bajo demanda, utilice la operación de CreateCustomModelDeploymentAPI con el Amazon Resource Name (ARN) de su modelo personalizado. La respuesta incluye el ARN de la implementación. Cuando la implementación está activa, se utiliza este ARN como el modelId al realizar solicitudes de inferencia. Para obtener más información sobre la implementación de la inferencia, consulte Utilice una implementación para realizar inferencias bajo demanda.

El código siguiente muestra cómo utilizar el SDK para Python (Boto3) para implementar un modelo personalizado.


def create_custom_model_deployment(bedrock_client):
    """Create a custom model deployment
    Args:
        bedrock_client: A boto3 Amazon Bedrock client for making API calls

    Returns:
        str: The ARN of the new custom model deployment

    Raises:
        Exception: If there is an error creating the deployment
    """

    try:
        response = bedrock_client.create_custom_model_deployment(
            modelDeploymentName="Unique deployment name",
            modelArn="Custom Model ARN",
            description="Deployment description",
            tags=[
                {'key': 'Environment', 'value': 'Production'},
                {'key': 'Team', 'value': 'ML-Engineering'},
                {'key': 'Project', 'value': 'CustomerSupport'}
            ],
            clientRequestToken=f"deployment-{uuid.uuid4()}"
        )

        deployment_arn = response['customModelDeploymentArn']
        print(f"Deployment created: {deployment_arn}")
        return deployment_arn

    except Exception as e:
        print(f"Error creating deployment: {str(e)}")
        raise

Utilice una implementación para realizar inferencias bajo demanda

Tras implementar el modelo personalizado, se utiliza el Nombre de recurso de Amazon (ARN) de la implementación como el parámetro modelId al enviar las peticiones y generar respuestas con la inferencia del modelo.

Para obtener información sobre cómo realizar solicitudes de inferencia, consulte los siguientes temas:

Eliminar una implementación de un modelo

Una vez que haya terminado de usar su modelo para la inferencia bajo demanda, puede eliminar la implementación Después de eliminar la implementación, no podrá usarla para la inferencia bajo demanda, pero la eliminación de la implementación no eliminará el modelo personalizado subyacente.

Puede eliminar la implementación de un modelo personalizado con la consola Amazon Bedrock AWS Command Line Interface, o AWS SDKs.

importante

La eliminación de una implementación de modelo personalizado es irreversible. Asegúrese de que ya no necesita la implementación antes de proceder a la eliminación. Si necesita volver a utilizar el modelo personalizado para la inferencia bajo demanda, debe crear una nueva implementación.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Adquisición de rendimiento aprovisionado para un modelo personalizado

Cómo compartir un modelo para que lo use otra cuenta