Configurar a inferência para um modelo personalizado
Depois de criar um modelo personalizado, você pode configurar a inferência usando uma das seguintes opções:
-
Comprar throughput provisionado: adquira throughput provisionado para seu modelo e configure capacidade de computação dedicada com throughput garantido para ter um desempenho consistente e menor latência.
Para obter mais informações sobre throughput provisionado, consulte Throughput provisionado. Para ter mais informações sobre o uso de modelos personalizados com throughput provisionado, consulte Comprar throughput provisionado para um modelo personalizado.
-
Configurar um modelo personalizado para inferência sob demanda: para configurar a inferência sob demanda, implante o modelo com uma implantação de modelo personalizado. Após a implantação do modelo, você o invoca usando o ARN para a implantação do modelo personalizado. Com a inferência sob demanda, você paga apenas pelo que usa e não precisa configurar recursos de computação provisionados.
Para ter informações sobre como implantar modelos personalizados para inferência sob demanda, consulte Implementar um modelo personalizado para inferência sob demanda.