Modèles de raisonnement Utilisation du raisonnement modélisé pour Claude 3.7 Sonnet Considérations d’ordre général Considérations d’API relatives à l’extraction et la génération

Configuration de la génération de réponses pour les modèles de raisonnement avec les bases de connaissances

Certains modèles de fondation peuvent effectuer un raisonnement modélisé, dans le cadre duquel ils prennent une tâche plus vaste et complexe et la décomposent en étapes plus petites et plus simples. Ce processus, souvent appelé raisonnement fondé sur la chaîne de pensée (CoT), peut améliorer la précision du modèle en lui donnant la possibilité de réfléchir avant de réagir. Le raisonnement modélisé est particulièrement utile pour des tâches telles que l’analyse en plusieurs étapes, les problèmes mathématiques et les tâches de raisonnement complexes. Pour plus d’informations, consultez Amélioration des réponses des modèles grâce au raisonnement modélisé.

Note

Cette page explique comment utiliser la configuration de raisonnement spécifiquement pour les bases de connaissances Amazon Bedrock. Pour plus d’informations sur la configuration du raisonnement pour l’invocation directe du modèle à l’aide de l’API InvokeModel, consultez Amélioration des réponses des modèles grâce au raisonnement modélisé.

Lorsque le raisonnement modélisé est activé, il peut améliorer la précision avec de meilleurs résultats de citation, mais peut également entraîner une augmentation de la latence. Voici quelques points à prendre en compte lorsque vous interrogez les sources de données et générez des réponses à l’aide de modèles de raisonnement basés sur les bases de connaissances Amazon Bedrock.

Rubriques

Modèles de raisonnement
Utilisation du raisonnement modélisé pour Claude 3.7 Sonnet
Considérations d’ordre général
Considérations d’API relatives à l’extraction et la génération

Modèles de raisonnement

Le raisonnement modélisé est disponible pour les modèles suivants.

Modèle de fondation	ID du modèle	Nombre de jetons	Configuration du raisonnement
Anthropic Claude Opus 4	anthropic.claude-opus-4-20250514-v1:0	Ce modèle comportera 32 768 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement.	Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé.
Anthropic Claude Sonnet 4	anthropic.claude-sonnet-4-20250514-v1:0	Ce modèle comportera 65 536 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement.	Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé.
Anthropic Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v1:0	Ce modèle comportera 65 536 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement.	Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé.
DeepSeek DeepSeek-R1	deepseek.r1-v1:0	Ce modèle comportera 8 192 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement. Le nombre de jetons de réflexion ne peut pas être configuré et le nombre maximum de jetons de sortie ne doit pas être supérieur à 8 192.	Le raisonnement est toujours activé pour ce modèle. Le modèle ne prend pas en charge l’activation ou la désactivation de la capacité de raisonnement.

Utilisation du raisonnement modélisé pour Claude 3.7 Sonnet

Note

Le raisonnement modélisé est toujours activé pour le modèle DeepSeek-R1. Le modèle ne prend pas en charge l’activation ou la désactivation de la capacité de raisonnement.

Lorsque vous utilisez le modèle Claude 3.7 Sonnet, le raisonnement modélisé peut être activé ou désactivé à l’aide du paramètre additionalModelRequestFields de l’API RetrieveAndGenerate. Ce paramètre accepte toutes les paires clé-valeur. Par exemple, vous pouvez ajouter un champ reasoningConfig et utiliser une clé type pour activer ou désactiver le raisonnement, comme indiqué ci-dessous.


{
   "input": { 
      "text": "string",
      "retrieveAndGenerateConfiguration": { 
      "knowledgeBaseConfiguration": { 
         "generationConfiguration": { 
            "additionalModelRequestFields": {
                "reasoningConfig" : {
                    "type": "enabled",
                    "budget_tokens": INT_VAL, #required when enabled
                }
            }
         },
         "knowledgeBaseId": "string",
      },
      "type": "string"
   },
   "sessionId": "string"
}

Considérations d’ordre général

Voici quelques considérations générales relatives à l’utilisation des modèles de raisonnement pour les bases de connaissances.

Les modèles de raisonnement auront jusqu’à cinq minutes pour répondre à une requête. Si le modèle met plus de cinq minutes à répondre à la requête, cela entraîne un délai d’attente.
Pour éviter de dépasser le délai de cinq minutes, le raisonnement du modèle est activé uniquement à l’étape de génération lorsque vous configurez vos requêtes et la génération de réponses. L’étape d’orchestration ne peut pas reposer sur le raisonnement du modèle.
Les modèles de raisonnement peuvent utiliser jusqu’à 8 192 jetons pour répondre aux requêtes, qui incluront à la fois les jetons de sortie et les jetons de réflexion. Toute demande demandant un nombre maximum de jetons de sortie supérieur à cette limite entraînera une erreur.

Considérations d’API relatives à l’extraction et la génération

Voici quelques points à prendre en compte lors de l’utilisation de l’API RetrieveAndGenerate pour les modèles de raisonnement.

Par défaut, lorsque le raisonnement est désactivé pour tous les modèles, y compris le Claude 3.7 Sonnet, la température est réglée sur zéro. Lorsque le raisonnement est activé, la température doit être réglée sur un.
```
"inferenceConfig": {
    "textInferenceConfig": {
        "maxTokens": 8192,
        "temperature": 1
    }
}
```
Le paramètre Top P doit être désactivé lorsque le raisonnement est activé pour le modèle Claude 3.7 Sonnet. Top P est un champ de demande de modèle supplémentaire qui détermine le percentile des jetons possibles à sélectionner lors de la génération. Par défaut, la valeur Top P pour les autres modèles d’Anthropic Claude est de un. Pour le modèle Claude 3.7 Sonnet, cette valeur sera désactivée par défaut.
Lorsque le raisonnement modélisé est utilisé, cela peut entraîner une augmentation des temps de latence. Lorsque vous utilisez cette opération d’API et l’opération d’API RetrieveAndGenerateStream, vous remarquerez peut-être un retard dans la réception de la réponse de l’API.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration et personnalisation de requêtes et de réponses

Déploiement de votre base de connaissances pour votre application