As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Recursos compatíveis
O Amazon SageMaker AI oferece as quatro opções a seguir para implantar modelos para inferência.
-
Inferência em tempo real para workloads de inferência com requisitos em tempo real, interativos e de baixa latência.
-
Transformação em lote para inferência offline com grandes conjuntos de dados.
-
Inferência assíncrona para inferência quase em tempo real com entradas grandes que exigem tempos de pré-processamento mais longos.
-
Inferência sem servidor para cargas de trabalho de inferência que têm períodos de inatividade entre picos de tráfego.
A tabela a seguir resume os principais atributos da plataforma que são compatíveis com cada opção de inferência. Ele não mostra atributos que podem ser fornecidos por estruturas, contêineres Docker personalizados ou por meio do encadeamento de diferentes serviços da AWS>
| Recurso | Inferência em tempo real | Transformação em lote | Inferência assíncrona | Inferência sem servidor | Contêineres de docker |
|---|---|---|---|---|---|
| Suporte de escalonamento automático | ✓ | N/D | ✓ | ✓ | N/D |
| Suporte para GPU | ✓ 1 | ✓ 1 | ✓ 1 | 1P, pré-construído, BYOC | |
| Modelo único | ✓ | ✓ | ✓ | ✓ | N/D |
| Endpoints de vários modelos | ✓ | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | |||
| Endpoint com vários contêineres | ✓ | 1P, pré-construído, Estender pré-construído, BYOC | |||
| Pipeline de inferência serial | ✓ | ✓ | 1P, pré-construído, Estender pré-construído, BYOC | ||
| Inference Recommender | ✓ | 1P, pré-construído, Estender pré-construído, BYOC | |||
| Suporte ao link privado | ✓ | ✓ | ✓ | N/D | |
| Suporte para captura de dados/monitor de modelos | ✓ | ✓ | N/D | ||
| DLCs compatíveis |
1P, pré-construído, Estender pré-construído, BYOC | 1P, pré-construído, Estender pré-construído, BYOC | 1P, pré-construído, Estender pré-construído, BYOC | 1P, pré-construído, Estender pré-construído, BYOC | N/D |
| Protocolos compatíveis | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | N/D |
| Tamanho da carga útil | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | |
| Codificação HTTP em partes | Depende da estrutura, 1P não suportado | N/D | Depende da estrutura, 1P não suportado | Depende da estrutura, 1P não suportado | N/D |
| Tempo limite da solicitação | < 60 segundos | Dias | < 1 hora | < 60 segundos | N/D |
| Barreiras de proteção de implantação: implantações azuis/verdes | ✓ | N/D | ✓ | N/D | |
| Barreiras de proteção de implantação: implantações contínuas | ✓ | N/D | ✓ | N/D | |
| Testes de validação por comparação | ✓ | N/D | |||
| Escalabilidade para zero | N/D | ✓ | ✓ | N/D | |
| Suporte para pacotes de modelos do Market Place | ✓ | ✓ | N/D | ||
| Suporte para nuvens privadas virtuais | ✓ | ✓ | ✓ | N/D | |
| Suporte a múltiplas variantes de produção | ✓ | N/D | |||
| Isolamento de rede | ✓ | ✓ | N/D | ||
| Modele o suporte de atendimento paralelo | ✓ 3 | ✓ | ✓ 3 | ✓ 3 | |
| Criptografia de volumes | ✓ | ✓ | ✓ | ✓ | N/D |
| Cliente AWS KMS | ✓ | ✓ | ✓ | ✓ | N/D |
| Instâncias compatíveis | ✓ | ✓ | ✓ | N/D | |
| suporte inf1 | ✓ | ✓ |
Com o SageMaker AI, você pode implantar um único modelo ou vários modelos por trás de um único endpoint de inferência para inferência em tempo real. A tabela a seguir resume os principais atributos suportados por várias opções de hospedagem que vêm com inferência em tempo real.
| Atributo | Endpoints de modelo único | Endpoints de vários modelos | Pipeline de inferência serial | Endpoint com vários contêineres |
|---|---|---|---|---|
| Suporte de escalonamento automático | ✓ | ✓ | ✓ | ✓ |
| Suporte para GPU | ✓ 1 | ✓ | ✓ | |
| Modelo único | ✓ | ✓ | ✓ | ✓ |
| Endpoints de vários modelos | ✓ | ✓ | N/D | |
| Endpoint com vários contêineres | ✓ | N/D | ||
| Pipeline de inferência serial | ✓ | ✓ | N/D | |
| Inference Recommender | ✓ | |||
| Suporte ao link privado | ✓ | ✓ | ✓ | ✓ |
| Suporte para captura de dados/monitor de modelos | ✓ | N/D | N/D | N/D |
| DLCs compatíveis | 1P, pré-construído, Estender pré-construído, BYOC | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | 1P, pré-construído, Estender pré-construído, BYOC | 1P, pré-construído, Estender pré-construído, BYOC |
| Protocolos compatíveis | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) |
| Tamanho da carga útil | < 6 MB | < 6 MB | < 6 MB | < 6 MB |
| Tempo limite da solicitação | < 60 segundos | < 60 segundos | < 60 segundos | < 60 segundos |
| Barreiras de proteção de implantação: implantações azuis/verdes | ✓ | ✓ | ✓ | ✓ |
| Barreiras de proteção de implantação: implantações contínuas | ✓ | ✓ | ✓ | ✓ |
| Testes de validação por comparação | ✓ | |||
| Suporte para pacotes de modelos do Market Place | ✓ | |||
| Suporte para nuvens privadas virtuais | ✓ | ✓ | ✓ | ✓ |
| Suporte a múltiplas variantes de produção | ✓ | ✓ | ✓ | |
| Isolamento de rede | ✓ | ✓ | ✓ | ✓ |
| Modele o suporte de atendimento paralelo | ✓ 3 | ✓ 3 | ||
| Criptografia de volumes | ✓ | ✓ | ✓ | ✓ |
| Cliente AWS KMS | ✓ | ✓ | ✓ | ✓ |
| Instâncias compatíveis | ✓ | ✓ | ✓ | ✓ |
| suporte inf1 | ✓ |
1 A disponibilidade dos tipos de instância do Amazon EC2 depende da região da AWS. Para ver a disponibilidade de instâncias específicas da AWS, consulte Preço do Amazon SageMaker AI
2 Para usar qualquer outro framework ou algoritmo, use o kit de ferramentas do SageMaker AI Inference para criar um contêiner que ofereça compatibilidade com endpoints multimodelo.
3 Com o SageMaker AI, você pode implantar grandes modelos (até 500 GB) para inferência. Você pode configurar a verificação de integridade do contêiner e as cotas de tempo limite de download, de até 60 minutos. Isso permitirá que você tenha mais tempo para baixar e carregar seu modelo e os recursos associados. Para ter mais informações, consulte Parâmetros de endpoint do SageMaker AI para inferência de grandes modelos. Você pode usar contêineres de inferência de grandes modelos