

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Defina o SageMaker comportamento de cache do modelo de endpoint multimodelo de IA
<a name="multi-model-caching"></a>

Por padrão, os endpoints multimodelo armazenam em cache os modelos usados com frequência na memória (CPU ou GPU, dependendo se você tem instâncias baseadas em CPU ou GPU) e no disco para fornecer inferência de baixa latência. Os modelos em cache são descarregados e and/or excluídos do disco somente quando um contêiner fica sem memória ou espaço em disco para acomodar um modelo recém-direcionado.

Você pode alterar o comportamento do armazenamento em cache de um endpoint multimodelo e habilitar ou desabilitar explicitamente o cache do modelo definindo o parâmetro `ModelCacheSetting` ao chamar [create\$1model.](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_model)

Recomendamos definir o valor do parâmetro `ModelCacheSetting` em `Disabled` para casos de uso que não se beneficiam do armazenamento em cache do modelo. Por exemplo, quando um grande número de modelos precisa ser servido a partir do endpoint, mas cada modelo é invocado apenas uma vez (ou com pouca frequência). Para esses casos de uso, definir o valor do parâmetro `ModelCacheSetting` em `Disabled` para permitir maiores transações por segundo (TPS) para `invoke_endpoint` solicitações em comparação com o modo de cache padrão. O TPS mais alto nesses casos de uso ocorre porque a SageMaker IA faz o seguinte após a `invoke_endpoint` solicitação:
+ Descarrega assincronamente o modelo da memória e o exclui do disco imediatamente após ser invocado.
+ Fornece maior simultaneidade para baixar e carregar modelos no contêiner de inferência. Para endpoints com suporte de CPU e GPU, a simultaneidade é um fator do número de v da instância CPUs do contêiner.

Para obter diretrizes sobre como escolher um tipo de instância de SageMaker AI ML para um endpoint multimodelo, consulte. [Recomendações de instâncias para implantações de endpoint multimodelo](multi-model-endpoint-instance.md)