Comprendre le raisonnement modélisé grâce au raisonnement étendu - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comprendre le raisonnement modélisé grâce au raisonnement étendu

Note

Cette documentation concerne la version 1. Pour plus d'informations sur l'utilisation de la pensée étendue dans la version 2, consultez la section Pensée étendue.

La pensée étendue est un paramètre qui permet à un modèle d'aborder des problèmes complexes avec une phase de raisonnement distincte. Au cours de cette phase, il génère d'abord un contenu de raisonnement dédié sous forme de reasoningContent blocs impliquant une exploration systémique étape par étape d'un problème. Le modèle réfléchit ensuite à son raisonnement, en identifiant les erreurs potentielles ou les approches alternatives. Il finalise ensuite sa réponse. Cela fournit une réponse finale claire tout en fournissant un aperçu transparent du processus du modèle

En raison des exigences informatiques importantes de la pensée étendue, Nova permet l'activation sélective d'une approche hybride. Cela signifie que vous pouvez activer la réflexion approfondie pour les requêtes complexes et nécessitant moins de temps. Pour les requêtes simples ou nécessitant une réponse rapide, vous pouvez désactiver la réflexion étendue afin de réduire la charge des ressources informatiques.

Comment fonctionne le raisonnement étendu

Lorsque la pensée étendue est activée, Nova crée des blocs ReasoningContent dans sa réponse où elle produit son processus de réflexion interne. Le modèle utilise ce raisonnement pour éclairer sa réponse textuelle finale, créant ainsi une séparation claire entre la phase de réflexion et la réponse finale.

Voici une réponse de l'API comprenant des reasoningContent blocs suivis de blocs de contenu de texte :

{ "output": { "message": { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "Let me analyze this optimization problem systematically. First, I need to understand the constraints: 5 warehouses, 12 distribution centers, 200 retail locations, with a 50-mile maximum distance requirement. This is a classic facility location problem with distance constraints...", } } }, { "text": "Based on my analysis, I recommend implementing a two-phase optimization approach. Phase 1 should focus on clustering retail locations using k-means algorithm to identify natural distribution center catchment areas..." } ] } } }

Utiliser un raisonnement étendu

Voici un exemple d'appel d'API Converse avec le raisonnement étendu activé :

import boto3 import json client = boto3.client("bedrock-runtime", region_name="us-east-1") # Enable extended thinking for complex problem-solving response = client.converse( modelId="amazon.nova-lite-1-5-v1:0", messages=[{ "role": "user", "content": [{"text": "I need to optimize a logistics network with 5 warehouses, 12 distribution centers, and 200 retail locations. The goal is to minimize total transportation costs while ensuring no location is more than 50 miles from a distribution center. What approach should I take?"}] }], inferenceConfig={ "maxTokens": 40000, "temperature": 0 }, additionalModelRequestFields={ "reasoningConfig": { "type": "enabled", "maxReasoningEffort": "high" } } ) # The response will contain reasoning blocks followed by the final answer for block in response["output"]["message"]["content"]: if "reasoningContent" in block: reasoning_text = block["reasoningContent"]["reasoningText"]["text"] print(f"Nova's thinking process:\n{reasoning_text}\n") elif "text" in block: print(f"Final recommendation:\n{block['text']}")

Si vous excluez l'reasoningConfigélément, le modèle désactivera la pensée étendue par défaut.

Options de configuration Extended Thinking

Nova fournit des contrôles flexibles pour un comportement de réflexion étendu grâce au paramètre ReasoningConfig, ce qui vous permet d'optimiser l'allocation de calcul du temps d'inférence en fonction de vos besoins spécifiques.

Contrôle du raisonnement

Vous pouvez alterner les capacités de réflexion étendues entre deux modes. Le réglage type sur disabled (valeur par défaut) signifie que Nova utilise un raisonnement latent efficace, optimisant ainsi la vitesse et l'efficacité. Le réglage type sur enabled active la pensée étendue explicite de Nova grâce à un processus de raisonnement visible.

Niveaux d'effort de raisonnement

Lorsque la pensée étendue est activée, vous pouvez contrôler l'effort de calcul que Nova investit dans le processus de raisonnement. Le réglage maxReasoningEffort sur faible convient aux tâches modérément complexes nécessitant un raisonnement supplémentaire. Le paramètre medium fonctionne bien pour les problèmes complexes nécessitant une analyse approfondie. Le paramètre élevé fournit le raisonnement le plus complet pour les tâches très complexes et multidimensionnelles, en utilisant jusqu'à 32 000 jetons de raisonnement.

{ "modelId": "amazon.nova-lite-1-5-v1:0", "inferenceConfig": { "maxTokens": 40000, "temperature": 0 }, "additionalModelRequestFields": { "reasoningConfig": { "type": "enabled", "maxReasoningEffort": "high" } } }
Note

Lors de l'utilisation low et des medium réglages, le contenu du raisonnement sera diffusé au fur et à mesure que chaque jeton est généré lors de l'utilisationConverseStream. Cependant, high cela fonctionne différemment, en appliquant différentes approches pour améliorer la qualité, ce qui permet de produire tout le contenu du raisonnement dans un dernier bloc. Cela peut augmenter considérablement le délai jusqu'au premier jeton et nécessiter un travail supplémentaire côté client pour une gestion efficace.

Les meilleures pratiques pour une réflexion approfondie

Identifier les cas d'utilisation du raisonnement étendu

Cette section passera en revue les cas d'utilisation potentiels où le raisonnement étendu est applicable ou non.

Cas d'utilisation où la pensée étendue est applicable :

  • Résolution de problèmes complexes — Les calculs et preuves mathématiques en plusieurs étapes, les défis algorithmiques nécessitant des approches systématiques, l'analyse scientifique avec de multiples variables interdépendantes et la modélisation financière avec des scénarios et des contraintes complexes bénéficient tous de la capacité du modèle à résoudre les problèmes de manière méthodique dans le cadre d'une phase de réflexion dédiée.

  • Tâches de codage avancées — La refactorisation importante de la base de code sur de multiples fichiers et dépendances, les scénarios de débogage complexes nécessitant l'élimination systématique des possibilités, la conception de l'architecture du système tenant compte de multiples considérations techniques et la planification de la migration entre plusieurs services et plateformes bénéficient de la capacité de Nova à analyser l'espace problématique de manière exhaustive avant de proposer des solutions.

  • Tâches analytiques — L'analyse de documents nécessitant une synthèse entre de multiples sources, la planification stratégique avec des priorités et des contraintes concurrentes, les tâches de recherche nécessitant l'évaluation de preuves contradictoires et les analyses juridiques ou de conformité nécessitant un examen attentif des réglementations bénéficient toutes de la capacité du modèle à traiter systématiquement des informations complexes.

  • Planification en plusieurs étapes — La planification de projets avec des dépendances et des contraintes de ressources, la conception de flux de travail nécessitant une optimisation en fonction de plusieurs critères, l'analyse des risques nécessitant l'évaluation de plusieurs scénarios et l'optimisation des processus métier nécessitant une évaluation systématique bénéficient toutes des capacités de planification améliorées de Nova.

Cas d'utilisation où le raisonnement étendu n'est pas applicable :

  • Requêtes simples — Questions factuelles de base telles que « Quelle est la capitale de la France ? » , des définitions simples telles que « Que signifie API ? » , des calculs simples impliquant des opérations arithmétiques de base et la récupération directe d'informations à partir du contexte fourni fonctionnent tous efficacement avec le mode de raisonnement latent par défaut de Nova.

  • Applications critiques en termes de vitesse : les applications de chat en temps réel où la latence est importante, les appels d'API à haute fréquence dans les systèmes de production, la génération de contenu simple pour les cas d'utilisation à volume élevé et les tâches de classification ou d'analyse des sentiments de base bénéficient des temps de réponse plus rapides du raisonnement latent.

  • Charges de travail sensibles aux coûts : le traitement de gros volumes où la rapidité et le coût importent plus que la profondeur du raisonnement, les tâches d'automatisation simples avec une logique claire, la modération ou le filtrage de contenu de base, ainsi que le traitement et la transformation de routine des données ne nécessitent généralement pas l'investissement informatique supplémentaire lié à une réflexion approfondie.

Choisir les niveaux d'effort de raisonnement

  • Faible : fonctionne de manière optimale pour la révision du code et les suggestions d'amélioration, les tâches d'analyse de base nécessitant une attention supplémentaire, la résolution simple de problèmes bénéficiant d'une approche structurée et la plupart des tâches de day-to-day développement présentant une complexité modérée. Ce niveau fournit une amélioration significative du raisonnement tout en maintenant des caractéristiques de coût et de latence raisonnables.

  • Moyen — Fonctionne bien pour les scénarios de débogage complexes nécessitant une investigation systématique, des calculs en plusieurs étapes avec interdépendances, des tâches de planification modérées avec de multiples contraintes et des analyses nécessitant l'évaluation de plusieurs alternatives. Ce niveau fournit une profondeur de raisonnement substantielle pour les problèmes qui bénéficient d'une analyse plus approfondie.

  • Élevé : fournit les meilleurs résultats pour les problèmes et preuves mathématiques avancés, la conception de systèmes complexes comportant de multiples considérations architecturales, les tâches de recherche nécessitant une analyse et une synthèse approfondies, les scénarios décisionnels critiques aux implications importantes et les flux de travail en plusieurs étapes nécessitant une planification et une vérification minutieuses. Ce niveau permet à Nova d'investir d'importantes ressources informatiques pour résoudre des problèmes complexes de manière globale.

Gestion des coûts et des performances

Optimisation des coûts

L'optimisation des coûts nécessite l'application réfléchie d'une réflexion approfondie. N'utilisez la pensée étendue que lorsque la complexité justifie le coût de calcul supplémentaire, car les jetons de raisonnement sont facturés comme des jetons de sortie. Commencez avec un minimum d'effort et augmentez progressivement en fonction des résultats pour trouver l'équilibre optimal pour vos cas d'utilisation. Surveillez les modèles d'utilisation des jetons de raisonnement dans vos applications afin d'identifier les opportunités d'optimisation. Envisagez le traitement par lots pour non-time-sensitive les tâches fastidieuses afin de réduire les coûts. N'oubliez pas que le raisonnement latent avec la pensée étendue désactivée permet de gérer efficacement la plupart des tâches et doit rester votre approche par défaut.

Optimisation des performances

L'optimisation des performances implique de définir des valeurs MaxTokens appropriées pour tenir compte à la fois du raisonnement et du contenu de la réponse finale. Utilisez le streaming pour les tâches de raisonnement complexes afin d'améliorer les performances perçues et l'expérience utilisateur. Mettez en cache les modèles de raisonnement pour les types de problèmes fréquemment rencontrés dans la mesure du possible. Tenez compte du niveau d'effort de raisonnement en fonction des attentes des utilisateurs et des contraintes de temps, en équilibrant une analyse approfondie avec les exigences en matière de temps de réponse.