Sélection de l'infrastructure de déploiement pour un modèle de classification d'images

Nous vous recommandons de sélectionner la meilleure option de déploiement pour un point de terminaison de classification d'images en tenant compte de trois aspects principaux :

Temps de réponse requis pour le terminal
Complexité de la solution et ressources humaines disponibles
Limites de coûts

Le temps de réponse et les limites de coût des terminaux sont plus faciles à quantifier et il est préférable de les déterminer au préalable. Les contraintes liées à la complexité des solutions dépendent de l'équilibre entre le temps et les ressources du personnel. Les solutions les moins complexes impliquent l'utilisation d'Amazon Rekognition ou d'étiquettes personnalisées Amazon Rekognition. Les grands modèles de vision par ordinateur, lorsqu'ils sont placés derrière une instance Amazon API Gateway et une AWS Lambda fonction, peuvent prendre jusqu'à une seconde pour répondre. Amazon SageMaker AI Canvas peut également déployer un point de terminaison qui répond en une seconde ou moins, avec un faible effort de développement.

Les modèles de classification d'images peuvent être placés dans AWS Lambda des fonctions à l'aide d'une image Docker. Lorsqu'une fonction Lambda est appelée, un démarrage à froid peut retarder la réponse du point de terminaison en raison du temps de chargement du modèle. Vous pouvez également utiliser l'option de simultanéité provisionnée pour qu'une fonction Lambda réponde en moins d'une seconde, pour un niveau de simultanéité spécifié ou conformément à une politique d'auto-scaling.

Les temps de réponse du modèle varient en fonction du temps de traitement du modèle et du temps de réponse du point de terminaison déployé. Voici les temps de réponse pour chaque option de déploiement, organisés par effort de mise en œuvre :

Effort minimal : Amazon Rekognition, Amazon Rekognition SageMaker Custom Labels et AI Canvas sont les options de déploiement les moins exigeantes. Les temps de réponse pour ces solutions peuvent aller de moins d'une seconde à quelques heures.
Effort moyen — SageMaker L'IA est une option de déploiement à effort moyen. SageMaker Les points de terminaison en temps réel de l'IA peuvent répondre en moins d'une seconde, les unités d'inférence sans serveur basées sur l' SageMaker IA peuvent répondre en quelques secondes et les transformations par lots basées sur l' SageMaker IA répondent généralement en quelques heures.
Effort maximal : les points de terminaison et les AWS Lambda fonctions EKS personnalisés d'Amazon ECS ou d'Amazon constituent l'option de déploiement la plus exigeante. Les temps de réponse pour ces tâches de formation personnalisées peuvent aller de moins d'une seconde à quelques heures. Pour des temps de réponse inférieurs à une seconde, vous pouvez configurer la simultanéité pour les fonctions Lambda.

Les solutions les plus exigeantes sont plus susceptibles de réduire les coûts d'infrastructure. Cependant, comparez les économies au coût supplémentaire du temps de maintenance pour les ingénieurs.

Un modèle de déploiement courant consiste à avoir une API passerelle et une fonction Lambda devant un appel de point de terminaison, comme illustré dans l'image suivante. Cela est préférable dans les situations où la réponse d'inférence d'Amazon Rekognition nécessite un traitement supplémentaire avant d'être renvoyée au client appelant via Amazon Gateway. API

Toutefois, les situations où le traitement est assez lourd peuvent nécessiter un flux de travail différent afin de réduire la pénalité de latence du réseau résultant de la fonction Lambda de traitement. Pour une latence très faible, la fonction Lambda peut être omise au prix de forcer l'envoi d'Amazon Rekognition dans l'appel de passerelle. API API

Pour les systèmes de classification d'images qui peuvent tolérer quelques secondes de latence, utilisez un point de terminaison d'inférence sans serveur basé sur l' SageMaker IA. Tant pour l'inférence sans serveur basée sur l' SageMaker IA que pour AWS Lambda les déploiements, le temps d'exécution de chaque appel est limité à 15 minutes. Il s'agit d'une marge de sécurité importante pour les modèles de classification d'images les plus courants.

Pour la classification d'images hors ligne ou pour les applications où le temps de réponse rapide n'est pas important, vous pouvez utiliser l'inférence par lots avec Amazon Rekognition. Pour plus d'informations, consultez la section Traitement d'images par lots avec les étiquettes personnalisées Amazon Rekognition sur le AWS blog Machine Learning. Vous pouvez également utiliser la transformation par lots SageMaker AI pour un modèle d' SageMaker IA entraîné dans SageMaker AI Canvas ou par d'autres moyens. Pour un exemple, consultez le bloc-notes SageMaker AI Batch Transform for PyTorch Batch Inference sur GitHub.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Tâches de formation personnalisées

Automatiser la maintenance