Como funciona Modelos, regiões e limites oferecidos Gerenciamento de cache simplificado para modelos Claude Como usar efetivamente o cache imediato Introdução

Armazenamento em cache de prompts para agilizar a inferência do modelo

O armazenamento em cache de prompts é um recurso opcional que você pode usar com modelos compatíveis no Amazon Bedrock para reduzir a latência da resposta de inferência e os custos de token de entrada. Ao adicionar partes do contexto a um cache, o modelo pode utilizar o cache para ignorar o recálculo das entradas, permitindo que o Bedrock se beneficie da economia de computação e reduza a latência das respostas.

O armazenamento em cache de prompts pode ajudar quando você tem workloads com contextos longos e repetidos que são frequentemente reutilizados para várias consultas. Por exemplo, se você tiver um chatbot em que os usuários possam fazer upload de documentos e fazer perguntas a esses documentos, o modelo pode demorar para processá-los sempre que o usuário fornecer entradas. Com o armazenamento em cache de prompts, é possível armazenar um documento em cache para que futuras consultas contendo o documento não precisem reprocessá-lo.

Ao usar o armazenamento em cache de prompts, é aplicada uma taxa de cobrança reduzida pelos tokens lidos do cache. Dependendo do modelo, pode ser aplicada uma taxa de cobrança mais alta aos tokens gravados em cache do que a dos tokens de entrada não armazenados em cache. Todos os tokens não lidos ou gravados em cache são cobrados de acordo com a taxa de token de entrada padrão desse modelo. Para obter mais informações, consulte a página de preços do Amazon Bedrock.

Como funciona

Se você optar por usar o armazenamento em cache de prompts, o Amazon Bedrock criará um cache composto de pontos de verificação de cache. Esses são marcadores que definem a subseção contígua do prompt que você deseja armazenar em cache (geralmente chamada de prefixo do prompt). Esses prefixos de prompt devem ser estáticos entre as solicitações. Alterações no prefixo do prompt em solicitações subsequentes resultarão em ausências no cache.

Os pontos de verificação de cache têm um número mínimo e máximo de tokens, dependendo do modelo específico que você está usando. Só é possível criar um ponto de verificação de cache se o prefixo total do prompt atender ao número mínimo de tokens. Por exemplo, o modelo Claude 3.7 Sonnet da Anthropic requer pelo menos 1.024 tokens por ponto de verificação de cache. Isso significa que seu primeiro ponto de verificação de cache pode ser definido após 1.024 tokens e seu segundo ponto de verificação de cache pode ser definido após 2.048 tokens. Se você tentar adicionar um ponto de verificação de cache antes de atingir o número mínimo de tokens, a inferência ainda assim será bem-sucedida, mas o prefixo não será armazenado em cache. O cache tem um Time To Live (TTL), que é redefinido a cada acesso bem-sucedido ao cache. Durante esse período, o contexto no cache é preservado. Se nenhum acerto de cache ocorrer na janela de TTL, o cache expirará. A maioria dos modelos oferece suporte a TTL de 5 minutos, enquanto Claude Opus 4,5Claude Haiku 4.5, e Claude Sonnet 4.5 também oferece suporte a uma opção TTL estendida de 1 hora.

Você pode usar o armazenamento em cache de prompts sempre que obtiver inferência do modelo no Amazon Bedrock para modelos compatíveis. Os seguintes recursos do Amazon Bedrock permitem usar o armazenamento em cache de prompts:

Converse e ConverseStream APIs: Você pode manter uma conversa com um modelo em que especifica pontos de verificação de cache em seus prompts.
InvokeModel e InvokeModelWithResponseStream APIs: Você pode enviar solicitações de prompt único nas quais habilita o armazenamento em cache de prompts e especifica os pontos de verificação de cache.
Armazenamento em cache de prompts com inferência entre regiões: O armazenamento em cache de prompts pode ser usado em conjunto com a inferência entre regiões. A inferência entre regiões seleciona automaticamente a AWS região ideal em sua geografia para atender à sua solicitação de inferência, maximizando assim os recursos disponíveis e a disponibilidade do modelo. Em momentos de alta demanda, essas otimizações podem aumentar as gravações em cache.
Gerenciamento de Prompts do Amazon Bedrock: Ao criar ou modificar um prompt, você pode optar por ativar o armazenamento em cache de prompts. Dependendo do modelo, é possível armazenar em cache os prompts do sistema, as instruções do sistema e as mensagens (usuário e assistente). Também é possível optar por desabilitar o armazenamento em cache de prompts.

Eles APIs fornecem a você a maior flexibilidade e controle granular sobre o cache de solicitações. É possível definir um ponto de verificação de cache individual nos prompts. Você pode ampliar o cache criando mais pontos de verificação de cache, até o número máximo de pontos de verificação de cache permitido para o modelo em questão. Para obter mais informações, consulte Modelos, regiões e limites oferecidos.

Modelos, regiões e limites oferecidos

A tabela a seguir lista os modelos compatíveis, bem como os tokens mínimos, o número máximo de pontos de verificação de cache e os campos que permitem pontos de verificação de cache.

Nome do modelo	ID do modelo	Tipo de versão	Número mínimo de tokens por ponto de verificação de cache	Número máximo de pontos de verificação de cache por solicitação	TTL suportado	Campos que aceitam pontos de verificação de armazenamento em cache de prompts
Claude Opus4.5	antropic.claude-opus-4-5-20251101-v 1:0	Disponível para o público	4.096	4	5 minutos, 1 hora	“system”, “messages” e “tools”
Claude Opus4.1	anthropic.claude-opus-4-1-20250805-v1:0	Disponível para o público	1,024	4	5 minutos	“system”, “messages” e “tools”
Claude Opus 4	anthropic.claude-opus-4-20250514-v1:0	Disponível para o público	1,024	4	5 minutos	“system”, “messages” e “tools”
Claude Sonnet 4.5	anthropic.claude-sonnet-4-5-20250929-v1:0	Disponível para o público	1,024	4	5 minutos, 1 hora	“system”, “messages” e “tools”
Claude Haiku 4.5	anthropic.claude-haiku-4-5-20251001-v1:0	Disponível para o público	4.096	4	5 minutos, 1 hora	“system”, “messages” e “tools”
Claude Sonnet 4	anthropic.claude-sonnet-4-20250514-v1:0	Disponível para o público	1,024	4	5 minutos	“system”, “messages” e “tools”
Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v 1:0	Disponível para o público	1,024	4	5 minutos	“system”, “messages” e “tools”
Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	Disponível para o público	2.048	4	5 minutos	“system”, “messages” e “tools”
Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	Demonstração	1,024	4	5 minutos	“system”, “messages” e “tools”
Amazon Nova Micro	amazônia. nova-micro-v1:0	Disponível ao público	1.000¹	4	5 minutos	“system” e “messages”
Amazon Nova Lite	amazônia. nova-lite-v1:0	Disponível ao público	1.000¹	4	5 minutos	“system” e “messages”²
Amazon Nova Pro	amazônia. nova-pro-v1:0	Disponível ao público	1.000¹	4	5 minutos	“system” e “messages”²
Amazon Nova Premier	amazônia. nova-premier-v1:0	Disponível ao público	1.000¹	4	5 minutos	“system” e “messages”²
Amazon Nova 2 Lite	amazon.nova-2-lite-v 1:0	Disponível ao público	1.000¹	4	5 minutos	“system” e “messages”²

1. Os modelos do Amazon Nova comportam no máximo 20 mil tokens para armazenamento em cache de prompts.

2. O armazenamento em cache de prompts destina-se principalmente a solicitações de texto.

Para usar a opção TTL de 1 hora com modelos compatíveis (Claude Opus4.5,, eClaude Sonnet 4.5)Claude Haiku 4.5, especifique o ttl campo em seu ponto de verificação de cache. Na API Converse, adicione "ttl": "1h" ao seu cachePoint objeto. Na InvokeModel API para modelos Claude, adicione "ttl": "1h" ao seu cache_control objeto. Se nenhum ttl valor for fornecido, o comportamento padrão de armazenamento em cache de 5 minutos será aplicado. O TTL de 1 hora é útil para sessões de execução mais longa ou cenários de processamento em lote nos quais você deseja manter o cache por longos períodos.

O Amazon Nova oferece armazenamento em cache de prompts automático para todos os prompts de texto, inclusive para mensagens User e System. Esse mecanismo pode fornecer benefícios de latência quando os prompts começam com partes repetitivas, mesmo sem configuração explícita. No entanto, para reduzir os custos e garantir benefícios de desempenho mais consistentes, recomendamos optar pelo armazenamento em cache de prompts explícito.

Gerenciamento de cache simplificado para modelos Claude

Para os modelos Claude, o Amazon Bedrock oferece uma abordagem simplificada para o gerenciamento de cache que reduz a complexidade da colocação manual de pontos de verificação de cache. Em vez de exigir que você especifique os locais exatos dos pontos de verificação de cache, é possível usar o gerenciamento de cache automático com um único ponto de interrupção no final do conteúdo estático.

Ao habilitar o gerenciamento de cache simplificado, o sistema verifica automaticamente os acertos de cache nos limites anteriores do bloco de conteúdo, analisando aproximadamente vinte blocos de conteúdo a partir do ponto de interrupção especificado. Isso permite que o modelo encontre o prefixo correspondente mais longo do cache sem exigir que você preveja os locais ideais dos pontos de verificação. Para usar isso, coloque um único ponto de verificação de cache no final do conteúdo estático, antes de qualquer conteúdo dinâmico ou variável. O sistema encontrará automaticamente a melhor correspondência de cache.

Para ter um controle mais granular, você ainda pode usar vários pontos de verificação de cache (até quatro para os modelos Claude) para especificar limites exatos de cache. Você deve usar vários pontos de verificação de cache se estiver armazenando seções que mudam em frequências diferentes ou se quiser ter maior controle sobre exatamente o que é armazenado em cache.

Importante

A verificação automática de prefixo só analisa aproximadamente vinte blocos de conteúdo do ponto de verificação de cache. Se o conteúdo estático ultrapassar esse intervalo, considere a possibilidade de usar vários pontos de verificação de cache ou reestruturar o prompt para colocar o conteúdo reutilizado com maior frequência dentro desse intervalo.

Como usar efetivamente o cache imediato

Se você tiver solicitações que são usadas em um ritmo regular (ou seja, solicitações do sistema que são usadas com mais frequência do que a cada 5 minutos), continue usando o cache de 5 minutos, pois ele continuará sendo atualizado sem custo adicional.

O cache de 1 hora é melhor usado nos seguintes cenários:

Quando você tem avisos que provavelmente são usados com menos frequência do que 5 minutos, mas com mais frequência do que a cada hora. Por exemplo, quando um agente secundário agente demora mais de 5 minutos ou quando armazena uma longa conversa de bate-papo com um usuário e você geralmente espera que o usuário não responda nos próximos 5 minutos.
Quando a latência é importante e suas solicitações de acompanhamento podem ser enviadas além de 5 minutos.
Quando você quiser melhorar a utilização do limite de taxa, já que os acessos ao cache não são deduzidos do seu limite de taxa.

Você pode usar controles de cache de 1 hora e 5 minutos na mesma solicitação, mas com uma restrição importante: entradas de cache com TTL mais longo devem aparecer antes de mais curtas TTLs (ou seja, uma entrada de cache de 1 hora deve aparecer antes de qualquer entrada de cache de 5 minutos).

Introdução

As seções a seguir mostram uma breve visão geral de como usar o recurso de armazenamento em cache de prompts para cada método de interação com modelos por meio do Amazon Bedrock.

A API Converse oferece opções avançadas e flexíveis para implementar o armazenamento em cache de prompts em conversas de vários turnos. Para ter mais informações sobre os requisitos de prompt para cada modelo, consulte a seção anterior Modelos, regiões e limites oferecidos.

Exemplo de solicitação

Os exemplos a seguir mostram um ponto de verificação de cache definido nos campos messages, system ou tools de uma solicitação para a API Converse. É possível colocar pontos de verificação em qualquer um desses locais para uma determinada solicitação. Por exemplo, ao enviar uma solicitação ao modelo Claude 3.5 Sonnet v2, você pode colocar dois pontos de verificação de cache em messages, um ponto de verificação de cache em system e um em tools. Para ter informações mais detalhadas e exemplos de estruturação e envio de solicitações de API Converse, consulte Realizar uma conversa com as operações de API Converse.

Especifique o valor de ttl desejado conforme abaixo, quando o valor de ttl não for especificado, o comportamento padrão de 5 minutos de armazenamento em cache se aplica.


"cachePoint" : {
    "type": "default",
    "ttl" : "5m | 1h"
}

messages checkpoints

Neste exemplo, o primeiro campo, image, fornece uma imagem para o modelo e o segundo, text, solicita que o modelo analise a imagem. Desde que o número de tokens anteriores ao cachePoint no objeto content atenda à contagem mínima de tokens do modelo, um ponto de verificação de cache será criado.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

Neste exemplo, o prompt do sistema é fornecido no campo text. Além disso, você pode adicionar um campo cachePoint para armazenar em cache o prompt do sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

Neste exemplo, a definição da ferramenta é fornecida no campo toolSpec. (Como alternativa, você pode chamar uma ferramenta que você definiu anteriormente. Para ter mais informações, consulte Use uma ferramenta para concluir uma resposta do modelo do Amazon Bedrock.) Depois, você pode adicionar um campo cachePoint para armazenar a ferramenta em cache.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

A resposta do modelo da Converse API inclui três novos campos que são específicos para o cache de solicitações. Os valores CacheReadInputTokens e CacheWriteInputTokens informam quantos tokens foram lidos do cache e quantos tokens foram gravados no cache em resposta à sua solicitação anterior. Os CacheDetails valores informam o ttl usado para o número de tokens gravados no cache. Esses são os valores com base nos quais o Amazon Bedrock aplica cobranças, a uma taxa inferior ao custo de inferência de modelo completa.

O cache de prompts é ativado por padrão quando você chama a InvokeModelAPI. Você pode definir pontos de verificação de cache em qualquer ponto do corpo da solicitação, de modo semelhante ao exemplo anterior da API Converse.

Anthropic Claude

O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o modelo Anthropic Claude 3.5 Sonnet v2. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo do corpo de solicitação e resposta para diferentes modelos, consulte Parâmetros de solicitação de inferência e campos de resposta para modelos de base.

Especifique o valor de ttl desejado conforme abaixo, quando o valor de ttl não for especificado, o comportamento padrão de 5 minutos de armazenamento em cache se aplica.


"cache_control" : {
    "type": "ephemeral",
    "ttl" : "5m | 1h"
}


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Amazon Nova

O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o Amazon Nova modelo. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo do corpo de solicitação e resposta para diferentes modelos, consulte Parâmetros de solicitação de inferência e campos de resposta para modelos de base.


{
    "system": [{
        "text": "Reply Concisely"
    }],
    "messages": [{
        "role": "user",
        "content": [{
            "text": "Describe the best way to learn programming"
        },
        {
            "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
            "cachePoint": {
                "type": "default"
            }
        }]
    }],
    "inferenceConfig": {
        "maxTokens": 300,
        "topP": 0.1,
        "topK": 20,
        "temperature": 0.3
    }
}

Para obter mais informações sobre o envio de uma InvokeModel solicitação, consulteEnvie uma única solicitação com InvokeModel.

Em um playground de chat no console do Amazon Bedrock, é possível ativar a opção de armazenamento em cache de prompts para que o Amazon Bedrock crie automaticamente pontos de verificação de cache para você.

Siga as instruções em Gerar respostas no console usando playgrounds para começar a usar prompts em um playground do Amazon Bedrock. Para modelos compatíveis, o armazenamento em cache de prompts é ativado automaticamente no playground. No entanto, se não estiver, faça o seguinte para ativá-lo:

No painel lateral esquerdo, abra o menu Configurações.
Ative o botão Armazenamento em cache de prompts.
Execute seus prompts.

Depois que as entradas e respostas do modelo atingem, em conjunto, o número mínimo necessário de tokens para um ponto de verificação (que varia de acordo com o modelo), o Amazon Bedrock cria automaticamente o primeiro ponto de verificação de cache para você. Conforme o chat continua, a cada vez subsequente que o número mínimo de tokens é atingido, é criado um ponto de verificação, até o número máximo de pontos de verificação permitido para o modelo. É possível visualizar os pontos de verificação de cache a qualquer momento escolhendo Visualizar pontos de verificação de cache ao lado do botão Armazenamento em cache de prompts, conforme mostrado na captura de tela a seguir.

Ativação e desativação da interface de usuário para armazenamento em cache de prompts em um playground de texto do Amazon Bedrock.

É possível ver quantos tokens estão sendo lidos e gravados no cache em resposta a cada interação com o modelo visualizando o pop-up Métricas de cache ( ) nas respostas do playground.

Caixa de métricas de armazenamento em cache que mostra o número de tokens lidos e gravados no cache.

Se você desativar o botão de armazenamento em cache de prompts no meio de uma conversa, poderá continuar conversando com o modelo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solicitar um aumento das cotas do Amazon Bedrock

Capacidades adicionais