Métriques pour les points de terminaison multi-conteneurs avec appel direct - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Métriques pour les points de terminaison multi-conteneurs avec appel direct

Outre les mesures relatives aux terminaux répertoriées dansMétriques Amazon SageMaker AI sur Amazon CloudWatch, l' SageMaker IA fournit également des mesures par conteneur.

Les métriques par conteneur pour les points de terminaison multi-conteneurs avec invocation directe sont situées CloudWatch et classées dans deux espaces de noms : et. AWS/SageMaker aws/sagemaker/Endpoints L'espace de noms AWS/SageMaker inclut des métriques liées à l'appel, et l'espace de noms aws/sagemaker/Endpoints inclut les métriques d'utilisation de la mémoire et de l'UC.

Le tableau suivant répertorie les métriques par conteneur pour les points de terminaison multi-conteneurs avec appel direct. Toutes les métriques utilisent la dimension [EndpointName, VariantName, ContainerName], qui filtre les métriques au niveau d'un point de terminaison spécifique, pour une variante spécifique et correspondant à un conteneur spécifique. Ces métriques partagent les mêmes noms de métriques que les pipelines d'inférence, mais par conteneur [EndpointName, VariantName, ContainerName].

Nom de la métrique Description Dimension NameSpace
Invocations Nombre de demandes InvokeEndpoint envoyées à un conteneur à l'intérieur d'un point de terminaison. Pour obtenir le nombre total de demandes envoyées à ce conteneur, utilisez la statistique Sum. Unités : aucune. Statistiques valides :Sum, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors Nombre de demandes InvokeEndpoint pour lesquelles le modèle a retourné un code de réponse HTTP 4xx pour un conteneur spécifique. Pour chaque 4xx réponse, l' SageMaker IA envoie un1. Unités : aucune. Statistiques valides :Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors Nombre de demandes InvokeEndpoint pour lesquelles le modèle a retourné un code de réponse HTTP 5xx pour un conteneur spécifique. Pour chaque 5xx réponse, l' SageMaker IA envoie un1. Unités : aucune. Statistiques valides :Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency Le temps qu'il a fallu au conteneur cible pour répondre, vu par l' SageMaker IA. ContainerLatencyinclut le temps nécessaire pour envoyer la demande, récupérer la réponse dans le conteneur du modèle et terminer l'inférence dans le conteneur. Unités : microsecondes. Statistiques valides :Average, Sum, Min, Max, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency Le temps ajouté au temps nécessaire pour répondre à une demande d'un client par l' SageMaker IA concernant les frais généraux. OverheadLatencyest mesuré à partir du moment où l' SageMaker IA reçoit la demande jusqu'à ce qu'elle renvoie une réponse au client, moins leModelLatency. La latence de surcharge peut varier en fonction de différents facteurs, dont les tailles des charges utiles de demande et de réponse, la fréquence des demandes, ainsi que l'authentification ou l'autorisation de la demande. Unités : microsecondes. Statistiques valides :Average, Sum, Min, Max, « nombre d'échantillons » EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization Pourcentage d'unités d'UC utilisées par chaque conteneur en cours d'exécution sur une instance. La valeur est comprise entre 0 % et 100 % et est multipliée par le nombre de CPUs. Par exemple, s'il y en a quatre CPUs, cela CPUUtilization peut aller de 0 % à 400 %. Pour les points de terminaison dotés d'un appel direct, le nombre de CPUUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton Pourcentage de mémoire utilisée par chaque conteneur en cours d'exécution sur une instance. Cette valeur est comprise entre 0 % et 100 %. De même CPUUtilization, dans les points de terminaison dotés d'un appel direct, le nombre de MemoryUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

Toutes les métriques du tableau précédent sont spécifiques aux points de terminaison multi-conteneurs avec appel direct. Outre ces métriques spéciales par conteneur, il existe des métriques au niveau de la variante avec la dimension [EndpointName, VariantName] pour toutes les métriques du tableau qui attendent ContainerLatency.