Métriques pour les points de terminaison multi-conteneurs avec appel direct

Outre les mesures relatives aux points de terminaison répertoriées dansMétriques Amazon SageMaker AI sur Amazon CloudWatch, l' SageMaker IA fournit également des mesures par conteneur.

Les métriques par conteneur pour les points de terminaison multi-conteneurs avec invocation directe sont situées CloudWatch et classées dans deux espaces de noms : et. AWS/SageMaker aws/sagemaker/Endpoints L’espace de noms AWS/SageMaker inclut des métriques liées à l’invocation, et l’espace de noms aws/sagemaker/Endpoints inclut les métriques d’utilisation de la mémoire et de l’UC.

Le tableau suivant répertorie les métriques par conteneur pour les points de terminaison multi-conteneurs avec appel direct. Toutes les métriques utilisent la dimension [EndpointName, VariantName, ContainerName], qui filtre les métriques au niveau d’un point de terminaison spécifique, pour une variante spécifique et correspondant à un conteneur spécifique. Ces métriques partagent les mêmes noms de métriques que les pipelines d’inférence, mais par conteneur [EndpointName, VariantName, ContainerName].

Nom de la métrique	Description	Dimension	NameSpace
`Invocations`	Nombre de demandes `InvokeEndpoint` envoyées à un conteneur à l’intérieur d’un point de terminaison. Pour obtenir le nombre total de demandes envoyées à ce conteneur, utilisez la statistique `Sum`. Unités : aucune. Statistiques valides :`Sum`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation4XX Errors`	Nombre de demandes `InvokeEndpoint` pour lesquelles le modèle a retourné un code de réponse HTTP `4xx` pour un conteneur spécifique. Pour chaque `4xx` réponse, l' SageMaker IA envoie un`1`. Unités : aucune. Statistiques valides :`Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation5XX Errors`	Nombre de demandes `InvokeEndpoint` pour lesquelles le modèle a retourné un code de réponse HTTP `5xx` pour un conteneur spécifique. Pour chaque `5xx` réponse, l' SageMaker IA envoie un`1`. Unités : aucune. Statistiques valides :`Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`ContainerLatency`	Le temps qu'il a fallu au conteneur cible pour répondre, vu par l' SageMaker IA. `ContainerLatency`inclut le temps nécessaire pour envoyer la demande, récupérer la réponse dans le conteneur du modèle et terminer l'inférence dans le conteneur. Unités : microsecondes. Statistiques valides : `Average`, `Sum`, `Min`, `Max`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`OverheadLatency`	Le temps ajouté au temps nécessaire pour répondre à une demande d'un client par l' SageMaker IA concernant les frais généraux. `OverheadLatency`est mesuré à partir du moment où l' SageMaker IA reçoit la demande jusqu'à ce qu'elle renvoie une réponse au client, moins le`ModelLatency`. La latence de surcharge peut varier en fonction de différents facteurs, dont les tailles des données utiles de demande et de réponse, la fréquence des demandes, ainsi que l’authentification ou l’autorisation de la demande. Unités : microsecondes. Statistiques valides : `Average`, `Sum`, `Min`, `Max`, « nombre d’échantillons »	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`CPUUtilization`	Pourcentage d’unités d’UC utilisées par chaque conteneur en cours d’exécution sur une instance. La valeur est comprise entre 0 % et 100 % et est multipliée par le nombre de CPUs. Par exemple, s'il y en a quatre CPUs, cela `CPUUtilization` peut aller de 0 % à 400 %. Pour les points de terminaison dotés d'un appel direct, le nombre de CPUUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`
`MemoryUtilizaton`	Pourcentage de mémoire utilisée par chaque conteneur en cours d’exécution sur une instance. Cette valeur est comprise entre 0 % et 100 %. De même CPUUtilization, dans les points de terminaison dotés d'un appel direct, le nombre de MemoryUtilization métriques est égal au nombre de conteneurs contenus dans ce point de terminaison. Unités : pourcentage	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`

Toutes les métriques du tableau précédent sont spécifiques aux points de terminaison multi-conteneurs avec appel direct. Outre ces métriques spéciales par conteneur, il existe des métriques au niveau de la variante avec la dimension [EndpointName, VariantName] pour toutes les métriques du tableau qui attendent ContainerLatency.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Sécurité avec les terminaux multi-conteneurs avec invocation directe

Scalabilité automatique de points de terminaison multi-conteneurs