Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Métriques pour les points de terminaison multi-conteneurs avec appel direct
Outre les mesures relatives aux terminaux répertoriées dansMétriques Amazon SageMaker AI sur Amazon CloudWatch, l' SageMaker IA fournit également des mesures par conteneur.
Les métriques par conteneur pour les points de terminaison multi-conteneurs avec invocation directe sont situées CloudWatch et classées dans deux espaces de noms : et. AWS/SageMaker
aws/sagemaker/Endpoints
L'espace de noms AWS/SageMaker
inclut des métriques liées à l'appel, et l'espace de noms aws/sagemaker/Endpoints
inclut les métriques d'utilisation de la mémoire et de l'UC.
Le tableau suivant répertorie les métriques par conteneur pour les points de terminaison multi-conteneurs avec appel direct. Toutes les métriques utilisent la dimension [EndpointName, VariantName,
ContainerName
], qui filtre les métriques au niveau d'un point de terminaison spécifique, pour une variante spécifique et correspondant à un conteneur spécifique. Ces métriques partagent les mêmes noms de métriques que les pipelines d'inférence, mais par conteneur [EndpointName, VariantName, ContainerName
].
Nom de la métrique | Description | Dimension | NameSpace |
Invocations
|
Nombre de demandes InvokeEndpoint envoyées à un conteneur à l'intérieur d'un point de terminaison. Pour obtenir le nombre total de demandes envoyées à ce conteneur, utilisez la statistique Sum . Unités : aucune. Statistiques valides :Sum , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation4XX Errors
|
Nombre de demandes InvokeEndpoint pour lesquelles le modèle a retourné un code de réponse HTTP 4xx pour un conteneur spécifique. Pour chaque 4xx réponse, l' SageMaker IA envoie un1 . Unités : aucune. Statistiques valides :Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation5XX Errors
|
Nombre de demandes InvokeEndpoint pour lesquelles le modèle a retourné un code de réponse HTTP 5xx pour un conteneur spécifique. Pour chaque 5xx réponse, l' SageMaker IA envoie un1 . Unités : aucune. Statistiques valides :Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
ContainerLatency
|
Le temps qu'il a fallu au conteneur cible pour répondre, vu par l' SageMaker IA. ContainerLatency inclut le temps nécessaire pour envoyer la demande, récupérer la réponse dans le conteneur du modèle et terminer l'inférence dans le conteneur. Unités : microsecondes. Statistiques valides :Average , Sum , Min , Max , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
OverheadLatency
|
Le temps ajouté au temps nécessaire pour répondre à une demande d'un client par l' SageMaker IA concernant les frais généraux. OverheadLatency est mesuré à partir du moment où l' SageMaker IA reçoit la demande jusqu'à ce qu'elle renvoie une réponse au client, moins leModelLatency . La latence de surcharge peut varier en fonction de différents facteurs, dont les tailles des charges utiles de demande et de réponse, la fréquence des demandes, ainsi que l'authentification ou l'autorisation de la demande. Unités : microsecondes. Statistiques valides :Average , Sum , Min , Max , « nombre d'échantillons » |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
CPUUtilization
|
Pourcentage d'unités d'UC utilisées par chaque conteneur en cours d'exécution sur une instance. La valeur est comprise entre 0 % et 100 % et est multipliée par le nombre de CPUs. Par exemple, s'il y en a quatre CPUs, cela CPUUtilization peut aller de 0 % à 400 %. Pour les points de terminaison dotés d'un appel direct, le nombre de CPUUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
MemoryUtilizaton
|
Pourcentage de mémoire utilisée par chaque conteneur en cours d'exécution sur une instance. Cette valeur est comprise entre 0 % et 100 %. De même CPUUtilization, dans les points de terminaison dotés d'un appel direct, le nombre de MemoryUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
Toutes les métriques du tableau précédent sont spécifiques aux points de terminaison multi-conteneurs avec appel direct. Outre ces métriques spéciales par conteneur, il existe des métriques au niveau de la variante avec la dimension [EndpointName, VariantName]
pour toutes les métriques du tableau qui attendent ContainerLatency
.