Recursos compatíveis

A Amazon SageMaker AI oferece as quatro opções a seguir para implantar modelos para inferência.

Real-time inferência para cargas de trabalho de inferência com requisitos em tempo real, interativos e de baixa latência.
Transformação em lote para inferência offline com grandes conjuntos de dados.
Inferência assíncrona para inferência quase em tempo real com entradas grandes que exigem tempos de pré-processamento mais longos.
Inferência sem servidor para cargas de trabalho de inferência que têm períodos de inatividade entre picos de tráfego.

A tabela a seguir resume os principais atributos da plataforma que são compatíveis com cada opção de inferência. Ele não mostra atributos que podem ser fornecidos por estruturas, contêineres Docker personalizados ou por meio do encadeamento de diferentes serviços da AWS >

Recurso	Real-time inferência	Transformação em lote	Inferência assíncrona	Inferência sem servidor	Contêineres de docker
Suporte de escalonamento automático	✓	N/A	✓	✓	N/A
Suporte para GPU	✓ ¹	✓ ¹	✓ ¹		1P, pré-construído, BYOC
Modelo único	✓	✓	✓	✓	N/A
Multi-model endpoint	✓				^{k-nn, XGBoost, aprendiz linear, RCF, Apache MXNet TensorFlow, scikit-learn 2 PyTorch}
Multi-container endpoint	✓				1P, pré-construído, Estender pré-construído, BYOC
Pipeline de inferência serial	✓	✓			1P, pré-construído, Estender pré-construído, BYOC
Inference Recommender	✓				1P, pré-construído, Estender pré-construído, BYOC
Suporte ao link privado	✓	✓	✓		N/A
Suporte para capture/Model monitor de dados	✓	✓			N/A
DLCs compatíveis	1P, pré-construído, Estender pré-construído, BYOC	1P, pré-construído, Estender pré-construído, BYOC	1P, pré-construído, Estender pré-construído, BYOC	1P, pré-construído, Estender pré-construído, BYOC	N/A
Protocolos compatíveis	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	N/A
Tamanho da carga útil	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
Codificação HTTP em partes	Depende da estrutura, 1P não suportado	N/A	Depende da estrutura, 1P não suportado	Depende da estrutura, 1P não suportado	N/A
Tempo limite da solicitação	< 60 segundos	Dias	< 1 hora	< 60 segundos	N/A
Guardrails de implantação: implantações blue/green	✓	N/A	✓		N/A
Barreiras de proteção de implantação: implantações contínuas	✓	N/A	✓		N/A
Testes de validação por comparação	✓				N/A
Escalabilidade para zero		N/A	✓	✓	N/A
Suporte para pacotes de modelos do Market Place	✓	✓	✓		N/A
Suporte para nuvens privadas virtuais	✓	✓	✓		N/A
Suporte a múltiplas variantes de produção	✓				N/A
Isolamento de rede	✓		✓		N/A
Modele o suporte de atendimento paralelo	✓ ³	✓	✓ ³		✓ ³
Criptografia de volumes	✓	✓	✓	✓	N/A
Cliente AWS KMS	✓	✓	✓	✓	N/A
Instâncias compatíveis	✓	✓	✓		N/A
suporte inf1	✓				✓

Com a SageMaker IA, você pode implantar um único modelo ou vários modelos por trás de um único endpoint de inferência para inferência em tempo real. A tabela a seguir resume os principais atributos suportados por várias opções de hospedagem que vêm com inferência em tempo real.

Atributo	Endpoints de modelo único	Multi-model endpoints	Pipeline de inferência serial	Multi-container endpoints
Suporte de escalonamento automático	✓	✓	✓	✓
Suporte para GPU	✓ ¹	✓	✓
Modelo único	✓	✓	✓	✓
Multi-model endpoints		✓	✓	N/A
Multi-container endpoints	✓			N/A
Pipeline de inferência serial	✓	✓	N/A
Inference Recommender	✓
Suporte ao link privado	✓	✓	✓	✓
Suporte para capture/Model monitor de dados	✓	N/A	N/A	N/A
DLCs compatíveis	1P, pré-construído, Estender pré-construído, BYOC	^{k-nn, XGBoost, aprendiz linear, RCF, Apache MXNet TensorFlow, scikit-learn 2 PyTorch}	1P, pré-construído, Estender pré-construído, BYOC	1P, pré-construído, Estender pré-construído, BYOC
Protocolos compatíveis	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
Tamanho da carga útil	< 6 MB	< 6 MB	< 6 MB	< 6 MB
Tempo limite da solicitação	< 60 segundos	< 60 segundos	< 60 segundos	< 60 segundos
Guardrails de implantação: implantações blue/green	✓	✓	✓	✓
Barreiras de proteção de implantação: implantações contínuas	✓	✓	✓	✓
Testes de validação por comparação	✓
Suporte para pacotes de modelos do Market Place	✓
Suporte para nuvens privadas virtuais	✓	✓	✓	✓
Suporte a múltiplas variantes de produção	✓		✓	✓
Isolamento de rede	✓	✓	✓	✓
Modele o suporte de atendimento paralelo	✓ ³		✓ ³
Criptografia de volumes	✓	✓	✓	✓
Cliente AWS KMS	✓	✓	✓	✓
Instâncias compatíveis	✓	✓	✓	✓
suporte inf1	✓

¹ A disponibilidade dos tipos de instância do Amazon EC2 depende da AWS região. Para ver a disponibilidade de instâncias específicas de AWS, consulte Amazon SageMaker AI Pricing.

² Para usar qualquer outra estrutura ou algoritmo, use o kit de ferramentas SageMaker AI Inference para criar um contêiner que ofereça suporte a endpoints de vários modelos.

³ Com a SageMaker IA, você pode implantar modelos grandes (até 500 GB) para inferência. Você pode configurar a verificação de integridade do contêiner e as cotas de tempo limite de download, de até 60 minutos. Isso permitirá que você tenha mais tempo para baixar e carregar seu modelo e os recursos associados. Para obter mais informações, consulte SageMaker Parâmetros de endpoint de IA para inferência de modelos grandes. Você pode usar contêineres de inferência de modelos grandes compatíveis com SageMaker IA. Você também pode usar bibliotecas de paralelização de modelos de terceiros, como Triton com e. FasterTransformer DeepSpeed Você precisa garantir que eles sejam compatíveis com a SageMaker IA.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Atualizar contêineres para o NVIDIA Container Toolkit

Recursos