As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Seleção da infraestrutura de implantação para um modelo de classificação de imagens
Recomendamos selecionar a melhor opção de implantação para um endpoint de classificação de imagens considerando três aspectos principais:
-
Tempo de resposta necessário do endpoint
-
Complexidade da solução e recursos humanos disponíveis
-
Limitações de custo
As limitações de tempo de resposta e custo do endpoint são quantificadas com mais facilidade e é melhor determinar primeiro. As restrições de complexidade da solução dependem do equilíbrio entre o tempo e os recursos da equipe. As soluções menos complexas envolvem o uso do Amazon Rekognition ou do Amazon Rekognition Custom Labels. Modelos grandes de visão computacional, quando colocados atrás de uma instância do Amazon API Gateway e de uma AWS Lambda função, podem levar até 1 segundo para responder. O Amazon SageMaker AI Canvas também pode implantar um endpoint que responda em 1 segundo ou menos, com um baixo nível de esforço de desenvolvimento.
Os modelos de classificação de imagens podem ser colocados em AWS Lambda funções usando uma imagem Docker. Quando uma função Lambda é chamada, pode haver uma inicialização a frio que atrasa a resposta do endpoint devido ao tempo de carregamento do modelo. Você também pode usar a opção de simultaneidade provisionada para fazer com que uma função Lambda responda em menos de 1 segundo, para um nível específico de simultaneidade ou de acordo com uma política de auto-scaling.
Os tempos de resposta do modelo variam com base no tempo de processamento do modelo e no tempo de resposta do endpoint implantado. A seguir estão os tempos de resposta para cada opção de implantação, organizados por esforço de implementação:
-
Menor esforço — Amazon Rekognition, Amazon Rekognition Custom Labels e AI Canvas são as opções de implantação com menor esforço. SageMaker Os tempos de resposta para essas soluções podem variar de menos de um segundo a horas.
-
Esforço médio — a SageMaker IA é uma opção de implantação de médio esforço. SageMaker Os endpoints de IA em tempo real podem responder em menos de um segundo, as unidades de inferência sem servidor de SageMaker IA podem responder em vários segundos e as transformações de SageMaker IA em lote normalmente respondem em horas.
-
Maior esforço — Os endpoints e AWS Lambda funções EKS personalizados da Amazon ECS ou da Amazon são a opção de implantação de maior esforço. Os tempos de resposta para esses trabalhos de treinamento personalizados podem variar de menos de um segundo a horas. Para tempos de resposta de menos de um segundo, você pode provisionar a simultaneidade para funções do Lambda.
As soluções de maior esforço têm maior probabilidade de ter custos de infraestrutura mais baixos. No entanto, compare a economia com o custo adicional do tempo de manutenção para engenheiros.
Um padrão comum de implantação é ter um API gateway e uma função Lambda na frente de uma chamada de endpoint, conforme mostrado na imagem a seguir. Isso é preferível em situações em que a resposta de inferência do Amazon Rekognition precisa de processamento adicional antes de ser enviada de volta ao cliente chamador por meio do Amazon Gateway. API
No entanto, situações em que o processamento é muito pesado podem exigir um fluxo de trabalho diferente para reduzir a penalidade de latência da rede resultante do processamento da função Lambda. Para uma latência muito baixa, a função Lambda pode ser omitida ao custo de forçar o Amazon API Rekognition na chamada do Gateway. API
Para sistemas de classificação de imagens que podem tolerar alguns segundos de latência, use um endpoint de inferência sem servidor de SageMaker IA. Tanto para a inferência de SageMaker IA sem servidor quanto para AWS Lambda as implantações, há um limite de 15 minutos no tempo de execução para cada invocação. Essa é uma grande margem de segurança para os modelos de classificação de imagens mais populares.
Para classificação de imagens off-line ou para aplicativos em que o tempo de resposta rápido não é importante, você pode usar a inferência em lote com o Amazon Rekognition. Para obter mais informações, consulte Processamento de imagens em lote com etiquetas personalizadas do Amazon Rekognition