Stratégies d'exécution de modèles pour les charges de travail liées à l'IA - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Stratégies d'exécution de modèles pour les charges de travail liées à l'IA

Au cœur de toute architecture d'IA se trouve la couche d'exécution du modèle, le composant qui effectue les inférences, alimente les prédictions ou génère du contenu. AWS propose deux méthodes puissantes, prêtes à fonctionner sans serveur, pour exécuter des charges de travail basées sur l'IA :

  • Amazon Bedrock donne accès à des modèles de base (FMs) pour les cas d'utilisation de l'IA générative.

  • Amazon SageMaker Serverless Inference permet le déploiement évolutif de modèles formés sur mesure pour les charges de travail traditionnelles d'apprentissage automatique (ML).

En comprenant quand et comment les utiliser Service AWS, les entreprises peuvent optimiser à la fois leurs besoins commerciaux et leur efficacité opérationnelle.

Amazon Bedrock : modèles de fondation en tant que service

Amazon Bedrock est un service entièrement géré qui fournit un accès sans serveur aux principaux fournisseurs FMs d'IA tels que Anthropic (Claude), Meta (Llama) MistralCohere, et Amazon Titan Amazon Nova. Vous pouvez interagir avec ces modèles à l'aide de simples appels d'API, sans avoir à provisionner l'infrastructure, à gérer GPUs ou à affiner les modèles.

Les principales fonctionnalités d'Amazon Bedrock sont les suivantes :

  • Génération de texte : résumé, réécriture, création de contenu et questions-réponses.

  • Génération de code — Langage naturel pour coder.

  • Classification et extraction : étiquetage, analyse syntaxique et balisage sémantique.

  • Workflows RAG : intégrez-les aux bases de connaissances pour obtenir des réponses fondées.

  • Agents — Activez une orchestration et une utilisation des outils autonomes.

  • Intelligence multimodale — Grâce à Amazon Nova, comprenez et générez du texte, des images et des vidéos.

  • Aide au réglage précis et à la distillation : via Amazon Nova Premier, entraînez des modèles spécifiques à des tâches ou créez des modèles compacts pour étudiants.

  • Performances et coûts échelonnés : choisissez parmi les modèles Amazon Nova Micro, Nova Lite, Nova Pro et Nova Premier pour équilibrer latence, précision et prix.

Les avantages opérationnels d'Amazon Bedrock sont les suivants :

  • Gestion des modèles : aucun hébergement de modèles ni aucune gestion des versions requis.

  • Traitement sécurisé des données : environnement client isolé et absence de formation sur les données utilisateur.

  • Facturation basée sur des jetons : fournit une modélisation des coûts prévisible.

  • Unification multimodale des API : gère input/output les images, les vidéos et le texte via la même interface Amazon Bedrock.

  • Options à faible latence : disponibles avec Amazon Nova Micro et Nova Lite, elles sont idéales pour les applications d'IA générative de pointe et destinées aux utilisateurs.

  • Compatibilité de base pour les entreprises : tous les modèles Amazon Nova sont compatibles avec les architectures Amazon Bedrock Knowledge Bases et Retrieval Augmented Generation (RAG).

Amazon Bedrock s'intègre Services AWS aux autres fonctionnalités de la manière suivante :

  • Déclenché depuis Lambda, Step Functions ou API Gateway

  • Intégré aux agents Amazon Bedrock pour une orchestration axée sur les objectifs

  • Fonctionne parfaitement avec les bases de connaissances Amazon Bedrock et les pipelines RAG

Cas d'utilisation idéaux pour Amazon Bedrock

Amazon Bedrock convient parfaitement à de nombreux scénarios, tels que les suivants :

  • Tâches génératives liées à l'IA : créez du contenu et de la documentation marketing et optimisez les chatbots.

  • Assistants conversationnels - Créez des robots d'assistance et des copilotes internes.

  • Récupération de connaissances — À utiliser pour les tâches de synthèse et de recherche sémantique.

  • Planification dynamique - Systèmes de décision basés sur des agents de puissance.

  • Génération multimodale : utilisez Amazon Nova Canvas pour générer des images, et Amazon Nova Reel pour produire des vidéos à partir d'instructions et d'un contexte structuré.

  • Assistants d'entreprise : utilisez Amazon Nova Pro pour activer des outils de prise de décision axés sur des objectifs basés sur des données propriétaires.

  • Feedback en temps réel sur l'expérience utilisateur : analysez les actions des clients et répondez-y avec une latence inférieure à 100 ms en utilisant Amazon Nova Micro.

Amazon SageMaker Serverless Inference : modèle d'hébergement personnalisé

Amazon SageMaker Serverless Inference est conçu pour les développeurs et les data scientists qui ont formé leurs propres modèles (par exemple,XGBoost, PyTorchScikit-learn, etTensorFlow). En utilisant l'inférence SageMaker sans serveur, ils peuvent déployer leurs modèles dans un environnement évolutif et sans serveur.

Contrairement à Amazon Bedrock, SageMaker Serverless Inference vous permet de contrôler l'architecture du modèle, les données de formation et la logique.

Les principales fonctionnalités de l'inférence SageMaker sans serveur sont les suivantes :

  • Héberge des modèles ML traditionnels tels que la classification, la régression, le traitement du langage naturel (NLP) et les prévisions

  • Prend en charge les terminaux multimodèles

  • Prend en charge le dimensionnement automatique afin que le calcul soit provisionné à la demande et arrêté en cas d'inactivité

  • Exécute l'inférence sur des images de conteneur personnalisées ou des frameworks ML prédéfinis

Les avantages opérationnels de l'inférence SageMaker sans serveur sont les suivants :

  • Pay-per-inference modèle sans coûts d'inactivité

  • Endpoints entièrement gérés et aucune configuration de serveur

  • S'intègre aux pipelines de formation et aux carnets de notes

SageMaker L'inférence sans serveur s'intègre aux autres fonctionnalités Services AWS de la manière suivante :

  • Invoqué à l'aide de AWS Lambda Step Functions ou d'appels au SDK et à l'API

  • Fonctionne avec des SageMaker pipelines pour les opérations d'apprentissage end-to-end automatique (MLOps)

  • Logs et statistiques intégrés à Amazon CloudWatch

Cas d'utilisation idéaux pour l' SageMaker inférence sans serveur

SageMaker L'inférence sans serveur est un bon choix pour diverses applications d'apprentissage automatique :

  • Analyse prédictive : à utiliser pour les modèles de prévision des ventes et de prévision du taux de désabonnement.

  • Classification du texte : prend en charge des tâches telles que la détection du spam et l'analyse des sentiments.

  • Classification des images : permet la reconnaissance optique de caractères (OCR) des documents et les applications d'imagerie médicale.

  • Traitement personnalisé du langage naturel (NLP) : gère les tâches de reconnaissance d'entités et de balisage de documents.

Choisir entre Amazon Bedrock et SageMaker Serverless Inference

Amazon Bedrock et SageMaker Serverless Inference proposent tous deux des solutions sans serveur pour une exécution d'IA évolutive et prête pour la production. Ensemble, ils constituent la couche d'exécution principale des architectures d'IA modernes, pilotées par les événements et sans serveur. AWS Le tableau suivant compare ces services selon des dimensions clés.

Dimension

Amazon Bedrock

SageMaker Inférence sans serveur

Type de modèle

Modèles de fondation (LLMs)

Modèles de ML entraînés sur mesure

Effort de configuration

Minimum (pas de formation ni d'hébergement)

Nécessite une formation et un emballage des modèles

Cas d’utilisation

Génératif, conversationnel et sémantique

Données prédictives, numériques et structurées

Capacité de mise à l’échelle

Entièrement sans serveur et mise à l'échelle automatique

Entièrement sans serveur et mise à l'échelle automatique

Modèle de coût

Payez par jeton

Rémunération par inférence

Integration

API Gateway, Lambda, Amazon Bedrock Agents et RAG

Lambda, Step Functions et pipelines CI/CD

Réglage requis

Aucun (zéro ou quelques coups)

Contrôle total (hyperparamètres et réentraînement)

Le choix du bon service dépend de la nature de votre charge de travail en matière d'IA :

  • Utilisez Amazon Bedrock lorsque vous avez besoin de flexibilité sémantique, de flux de travail axés sur les objectifs et d'itération rapide avec des modèles de base.

  • Utilisez l'inférence SageMaker sans serveur lorsque vous disposez de modèles propriétaires, d'entrées structurées ou lorsque vous avez besoin d'un contrôle total sur la formation et le déploiement.

  • SageMaker JumpStart À utiliser pour choisir parmi des centaines d'algorithmes intégrés avec des modèles préentraînés issus de hubs de modèles, notamment TensorFlow PyTorch HubHugging Face, Hub etMxNet GluonCV.