Opções de inferência na Amazon AI SageMaker

SageMaker A IA fornece várias opções de inferência para que você possa escolher a opção mais adequada à sua carga de trabalho:

Inferência em tempo real: a inferência em tempo real é ideal para inferências online que têm baixa latência ou exigências de Alta throughput. Use inferência em tempo real para um endpoint persistente e totalmente gerenciado (API REST) que pode lidar com tráfego constante, respaldado pelo tipo de instância de sua escolha. A inferência em tempo real comporta tamanhos de carga útil de até 25 MB e tempos de processamento de até 60 segundos para respostas regulares e 8 minutos para respostas de streaming.
Inferência sem servidor: a inferência sem servidor é ideal quando você tem padrões de tráfego intermitentes ou imprevisíveis. SageMaker A IA gerencia toda a infraestrutura subjacente, então não há necessidade de gerenciar instâncias ou políticas de escalabilidade. Você paga apenas por aquilo que usa e não por tempo ocioso. Ele é compatível com tamanhos de carga útil de até 4 MB e tempos de processamento de até 60 segundos.
Transformação em lote: a transformação em lote é adequada para processamento offline quando grandes quantidades de dados estão disponíveis antecipadamente e você não precisa de um endpoint persistente. Você também pode usar a transformação em lote para pré-processar conjuntos de dados. Ele pode suportar grandes conjuntos de dados com tamanho e tempos de processamento de dias. GBs
Inferência assíncrona: a inferência assíncrona é ideal quando você deseja enfileirar solicitações e ter grandes cargas com longos tempos de processamento. A Inferência assíncrona é compatível com cargas úteis de até 1 GB e tempos de processamento longos de até uma hora. Você também pode reduzir a escala verticalmente do seu endpoint para 0 quando não há solicitações para processar.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Opções para implantação de modelos e obtenção de inferências

Opções de endpoints avançadas