

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Opções de inferência na Amazon AI SageMaker
<a name="deploy-model-options"></a>

SageMaker A IA fornece várias opções de inferência para que você possa escolher a opção mais adequada à sua carga de trabalho:
+ [Inferência em tempo real](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html): a *inferência em tempo real* é ideal para inferências online que têm baixa latência ou exigências de Alta throughput. Use inferência em tempo real para um endpoint persistente e totalmente gerenciado (API REST) que pode lidar com tráfego constante, respaldado pelo tipo de instância de sua escolha. A inferência em tempo real comporta tamanhos de carga útil de até 25 MB e tempos de processamento de até 60 segundos para respostas regulares e 8 minutos para respostas de streaming.
+ [Inferência sem servidor: a inferência](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html) *sem servidor é ideal quando você tem padrões de tráfego* intermitentes ou imprevisíveis. SageMaker A IA gerencia toda a infraestrutura subjacente, então não há necessidade de gerenciar instâncias ou políticas de escalabilidade. Você paga apenas por aquilo que usa e não por tempo ocioso. Ele é compatível com tamanhos de carga útil de até 4 MB e tempos de processamento de até 60 segundos.
+ [Transformação em lote](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html): a *transformação em lote* é adequada para processamento offline quando grandes quantidades de dados estão disponíveis antecipadamente e você não precisa de um endpoint persistente. Você também pode usar a transformação em lote para pré-processar conjuntos de dados. Ele pode suportar grandes conjuntos de dados com tamanho e tempos de processamento de dias. GBs 
+ [Inferência assíncrona](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html): a *inferência assíncrona* é ideal quando você deseja enfileirar solicitações e ter grandes cargas com longos tempos de processamento. A Inferência assíncrona é compatível com cargas úteis de até 1 GB e tempos de processamento longos de até uma hora. Você também pode reduzir a escala verticalmente do seu endpoint para 0 quando não há solicitações para processar.