As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Opções de inferência no Amazon SageMaker AI
O SageMaker AI oferece várias opções de inferência para que você possa escolher a opção que melhor atenda à sua workload:
-
Inferência em tempo real: a inferência em tempo real é ideal para inferências online que têm baixa latência ou exigências de Alta throughput. Use inferência em tempo real para um endpoint persistente e totalmente gerenciado (API REST) que pode lidar com tráfego constante, respaldado pelo tipo de instância de sua escolha. A inferência em tempo real comporta tamanhos de carga útil de até 25 MB e tempos de processamento de até 60 segundos para respostas regulares e 8 minutos para respostas de streaming.
-
Inferência Sem Servidor: a Inferência Sem Servidor é ideal quando você tem padrões de tráfego intermitentes ou imprevisíveis. O SageMaker AI gerencia toda a infraestrutura subjacente, portanto, não é necessário gerenciar instâncias ou políticas de escalabilidade. Você paga apenas por aquilo que usa e não por tempo ocioso. Ele é compatível com tamanhos de carga útil de até 4 MB e tempos de processamento de até 60 segundos.
-
Transformação em lote: a transformação em lote é adequada para processamento offline quando grandes quantidades de dados estão disponíveis antecipadamente e você não precisa de um endpoint persistente. Você também pode usar a transformação em lote para pré-processar conjuntos de dados. Compatível com conjuntos de dados grandes com tamanhos na ordem de gigabytes e tempos de processamento de vários dias.
-
Inferência assíncrona: a inferência assíncrona é ideal quando você deseja enfileirar solicitações e ter grandes cargas com longos tempos de processamento. A Inferência assíncrona é compatível com cargas úteis de até 1 GB e tempos de processamento longos de até uma hora. Você também pode reduzir a escala verticalmente do seu endpoint para 0 quando não há solicitações para processar.