Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration de la génération de réponses pour les modèles de raisonnement avec les bases de connaissances
Certains modèles de fondation peuvent effectuer un raisonnement modélisé, dans le cadre duquel ils prennent une tâche plus vaste et complexe et la décomposent en étapes plus petites et plus simples. Ce processus, souvent appelé raisonnement fondé sur la chaîne de pensée (CoT), peut améliorer la précision du modèle en lui donnant la possibilité de réfléchir avant de réagir. Le raisonnement modélisé est particulièrement utile pour des tâches telles que l’analyse en plusieurs étapes, les problèmes mathématiques et les tâches de raisonnement complexes. Pour plus d’informations, consultez Amélioration des réponses des modèles grâce au raisonnement modélisé.
Note
Cette page explique comment utiliser la configuration de raisonnement spécifiquement pour les bases de connaissances Amazon Bedrock. Pour plus d’informations sur la configuration du raisonnement pour l’invocation directe du modèle à l’aide de l’API InvokeModel, consultez Amélioration des réponses des modèles grâce au raisonnement modélisé.
Lorsque le raisonnement modélisé est activé, il peut améliorer la précision avec de meilleurs résultats de citation, mais peut également entraîner une augmentation de la latence. Voici quelques points à prendre en compte lorsque vous interrogez les sources de données et générez des réponses à l’aide de modèles de raisonnement basés sur les bases de connaissances Amazon Bedrock.
Rubriques
Modèles de raisonnement
Le raisonnement modélisé est disponible pour les modèles suivants.
| Modèle de fondation | ID du modèle | Nombre de jetons | Configuration du raisonnement |
|---|---|---|---|
| Anthropic Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 | Ce modèle comportera 32 768 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement. | Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé. |
| Anthropic Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | Ce modèle comportera 65 536 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement. | Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé. |
| Anthropic Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 | Ce modèle comportera 65 536 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement. | Le raisonnement peut être activé ou désactivé pour ce modèle à l’aide d’un budget de jetons configurable. Par défaut, le raisonnement est désactivé. |
| DeepSeek DeepSeek-R1 | deepseek.r1-v1:0 | Ce modèle comportera 8 192 jetons, qui incluent à la fois des jetons de sortie et des jetons de raisonnement. Le nombre de jetons de réflexion ne peut pas être configuré et le nombre maximum de jetons de sortie ne doit pas être supérieur à 8 192. | Le raisonnement est toujours activé pour ce modèle. Le modèle ne prend pas en charge l’activation ou la désactivation de la capacité de raisonnement. |
Utilisation du raisonnement modélisé pour Claude 3.7 Sonnet
Note
Le raisonnement modélisé est toujours activé pour le modèle DeepSeek-R1. Le modèle ne prend pas en charge l’activation ou la désactivation de la capacité de raisonnement.
Lorsque vous utilisez le modèle Claude 3.7 Sonnet, le raisonnement modélisé peut être activé ou désactivé à l’aide du paramètre additionalModelRequestFields de l’API RetrieveAndGenerate. Ce paramètre accepte toutes les paires clé-valeur. Par exemple, vous pouvez ajouter un champ reasoningConfig et utiliser une clé type pour activer ou désactiver le raisonnement, comme indiqué ci-dessous.
{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }
Considérations d’ordre général
Voici quelques considérations générales relatives à l’utilisation des modèles de raisonnement pour les bases de connaissances.
-
Les modèles de raisonnement auront jusqu’à cinq minutes pour répondre à une requête. Si le modèle met plus de cinq minutes à répondre à la requête, cela entraîne un délai d’attente.
-
Pour éviter de dépasser le délai de cinq minutes, le raisonnement du modèle est activé uniquement à l’étape de génération lorsque vous configurez vos requêtes et la génération de réponses. L’étape d’orchestration ne peut pas reposer sur le raisonnement du modèle.
-
Les modèles de raisonnement peuvent utiliser jusqu’à 8 192 jetons pour répondre aux requêtes, qui incluront à la fois les jetons de sortie et les jetons de réflexion. Toute demande demandant un nombre maximum de jetons de sortie supérieur à cette limite entraînera une erreur.
Considérations d’API relatives à l’extraction et la génération
Voici quelques points à prendre en compte lors de l’utilisation de l’API RetrieveAndGenerate pour les modèles de raisonnement.
-
Par défaut, lorsque le raisonnement est désactivé pour tous les modèles, y compris le Claude 3.7 Sonnet, la température est réglée sur zéro. Lorsque le raisonnement est activé, la température doit être réglée sur un.
"inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } } -
Le paramètre Top P doit être désactivé lorsque le raisonnement est activé pour le modèle Claude 3.7 Sonnet. Top P est un champ de demande de modèle supplémentaire qui détermine le percentile des jetons possibles à sélectionner lors de la génération. Par défaut, la valeur Top P pour les autres modèles d’Anthropic Claude est de un. Pour le modèle Claude 3.7 Sonnet, cette valeur sera désactivée par défaut.
-
Lorsque le raisonnement modélisé est utilisé, cela peut entraîner une augmentation des temps de latence. Lorsque vous utilisez cette opération d’API et l’opération d’API
RetrieveAndGenerateStream, vous remarquerez peut-être un retard dans la réception de la réponse de l’API.