Instâncias recomendadas do Inferentia

AWS As instâncias de inferência são projetadas para fornecer alto desempenho e economia para cargas de trabalho de inferência de modelos de aprendizado profundo. Especificamente, os tipos de instância Inf2 usam chips AWS Inferentia e o SDK AWS Neuron, que é integrado a estruturas populares de aprendizado de máquina, como e. TensorFlow PyTorch

Os clientes podem usar instâncias Inf2 para executar aplicativos de inferência de machine learning em grande escala, como pesquisa, mecanismos de recomendação, visão computacional, reconhecimento de fala, processamento de linguagem natural, personalização e detecção de fraudes, com o menor custo na nuvem.

nota

O tamanho do modelo deve ser um fator ao selecionar uma instância. Se o modelo exceder a RAM disponível de uma instância, escolha outro tipo de instância com memória suficiente para a aplicação.

As instâncias Amazon EC2 Inf2 têm até 16 chips AWS Inferentia e 100 Gbps de taxa de transferência de rede.

Para obter mais informações sobre como começar a usar a AWS inferência DLAMIs, consulteO chip de AWS inferência com DLAMI.

A seguir

Instâncias recomendadas do Trainium

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

CPU

Trainium