CloudWatch soluzione: carico di lavoro della GPU NVIDIA su Amazon EC2 - Amazon CloudWatch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CloudWatch soluzione: carico di lavoro della GPU NVIDIA su Amazon EC2

Questa soluzione consente di configurare la raccolta delle out-of-the-box metriche utilizzando CloudWatch agenti per i carichi di lavoro delle GPU NVIDIA in esecuzione su istanze. EC2 Inoltre, ti aiuta a configurare una dashboard preconfigurata. CloudWatch Per informazioni generali su tutte le soluzioni CloudWatch di osservabilità, vedere. CloudWatch soluzioni di osservabilità

Requisiti

Questa soluzione è rilevante per le seguenti condizioni:

  • Elaborazione: Amazon EC2

  • Supporta fino a 500 EC2 istanze GPUs in una determinata istanza Regione AWS

  • Versione più recente dell'agente CloudWatch

  • Agente SSM installato sull'istanza EC2

  • L' EC2 istanza deve avere un driver NVIDIA installato. I driver NVIDIA sono preinstallati su alcune Amazon Machine Images ()AMIs. In caso contrario, il driver può essere installato manualmente. Per ulteriori informazioni, consulta Installazione dei driver NVIDIA sulle istanze Linux.

Nota

AWS Systems Manager (agente SSM) è preinstallato su alcune Amazon Machine Images (AMIs) fornite da terze parti AWS affidabili. Se l'agente non è installato, puoi installarlo manualmente utilizzando la procedura per il tipo di sistema operativo.

Vantaggi

La soluzione offre il monitoraggio NVIDIA, fornendo approfondimenti preziosi per i seguenti casi d'uso:

  • Analisi dell'utilizzo di GPU e memoria per individuare eventuali problemi di prestazioni o la necessità di risorse aggiuntive.

  • Monitora la temperatura e l'assorbimento di corrente per garantire il GPUs funzionamento entro limiti di sicurezza.

  • Valutazione delle prestazioni dell'encoder per i carichi di lavoro video basati su GPU.

  • Verifica la PCIe connettività per la generazione e la larghezza previste.

  • Monitoraggio della velocità di clock della GPU per rilevare problemi di scalabilità e limitazione.

Di seguito sono riportati i principali vantaggi della soluzione:

  • Automatizza la raccolta delle metriche per NVIDIA utilizzando la configurazione degli CloudWatch agenti, eliminando la strumentazione manuale.

  • Fornisce una dashboard preconfigurata e consolidata per le metriche NVIDIA. CloudWatch La dashboard gestirà automaticamente le metriche delle nuove EC2 istanze NVIDIA configurate utilizzando la soluzione, anche se tali metriche non esistono quando si crea la dashboard per la prima volta.

L'immagine seguente mostra un esempio di pannello di controllo per questa soluzione.

Pannello di controllo di esempio per la soluzione GPU NVIDIA.

Costi

Questa soluzione crea e utilizza risorse nel tuo account. Ti verranno addebitati i costi standard di utilizzo, inclusi i seguenti:

  • Tutte le metriche raccolte dall' CloudWatch agente vengono addebitate come metriche personalizzate. Il numero di metriche utilizzate da questa soluzione dipende dal numero di host. EC2

    • Ogni EC2 host configurato per la soluzione pubblica un totale di 17 metriche per GPU.

  • Un pannello di controllo personalizzato.

  • Operazioni API richieste dall' CloudWatch agente per pubblicare le metriche. Con la configurazione predefinita per questa soluzione, l' CloudWatch agente le chiama PutMetricDatauna volta al minuto per ogni EC2 host. Ciò significa che l'PutMetricDataAPI verrà chiamata 30*24*60=43,200 tra 30 giorni al mese per ogni EC2 host.

Per ulteriori informazioni sui CloudWatch prezzi, consulta la pagina CloudWatch dei prezzi di Amazon.

Il calcolatore dei prezzi può aiutarti a stimare i costi mensili approssimativi per l'utilizzo di questa soluzione.

Per utilizzare il calcolatore dei prezzi per stimare i costi mensili della soluzione
  1. Apri il calcolatore CloudWatch dei prezzi di Amazon.

  2. In Scegli una regione, seleziona la regione in cui vuoi implementare la soluzione.

  3. Nella sezione Metriche, per Numero di metriche, inserisci 17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution.

  4. Nella APIssezione, per Numero di richieste API, inserisci43200 * number of EC2 instances configured for this solution.

  5. Per impostazione predefinita, l' CloudWatch agente esegue un'PutMetricDataoperazione al minuto per ogni EC2 host.

  6. Nella sezione Pannello di controllo e allarmi, per Numero di pannelli di controllo, inserisci 1.

  7. Puoi vedere i costi mensili stimati nella parte inferiore del calcolatore dei prezzi.

CloudWatch configurazione dell'agente per questa soluzione

L' CloudWatch agente è un software che viene eseguito in modo continuo e autonomo sui server e in ambienti containerizzati. Raccoglie metriche, log e tracce dall'infrastruttura e dalle applicazioni e li invia a e X-Ray. CloudWatch

Per ulteriori informazioni sull'agente, vedere. CloudWatch Raccogli metriche, log e tracce utilizzando l'agente CloudWatch

La configurazione degli agenti in questa soluzione raccoglie una serie di metriche per aiutarti a iniziare a monitorare e osservare la tua GPU NVIDIA. Per impostazione predefinita, l' CloudWatch agente può essere configurato per raccogliere più metriche della GPU NVIDIA rispetto a quelle visualizzate nella dashboard. Per un elenco di tutte le metriche GPU NVIDIA che puoi raccogliere, consulta Raccolta dei parametri della GPU NVIDIA.

Configurazione dell'agente per questa soluzione

Le metriche raccolte dall'agente sono definite nella configurazione dell'agente. La soluzione fornisce configurazioni degli agenti per raccogliere le metriche consigliate con dimensioni adeguate per il pannello di controllo della soluzione.

Utilizza la seguente configurazione dell' CloudWatch agente sulle EC2 istanze con NVIDIA. GPUs La configurazione verrà memorizzata come metrica nel Parameter Store di SSM, come descritto più avanti nella sezione Fase 2: Archiviare il file di configurazione CloudWatch dell'agente consigliato in Systems Manager Parameter Store.

{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }

Implementazione dell'agente per la soluzione

Esistono diversi approcci per l'installazione dell' CloudWatch agente, a seconda del caso d'uso. Si consiglia di utilizzare Systems Manager per questa soluzione. Fornisce un'esperienza da console e semplifica la gestione di una flotta di server gestiti all'interno di un unico AWS account. Le istruzioni in questa sezione utilizzano Systems Manager e sono destinate a quando l' CloudWatch agente non è in esecuzione con configurazioni esistenti. È possibile verificare se l' CloudWatch agente è in esecuzione seguendo la procedura riportata di seguito. Verifica che l' CloudWatch agente sia in esecuzione

Se stai già eseguendo l' CloudWatch agente sugli EC2 host in cui viene distribuito il carico di lavoro e gestisci le configurazioni degli agenti, puoi saltare le istruzioni in questa sezione e seguire il meccanismo di distribuzione esistente per aggiornare la configurazione. Assicurati di unire la configurazione dell'agente della GPU NVIDIA con la configurazione dell'agente esistente, quindi implementa la configurazione unita. Se si utilizza Systems Manager per archiviare e gestire la configurazione per l' CloudWatch agente, è possibile unire la configurazione al valore del parametro esistente. Per ulteriori informazioni, vedere Gestione dei file di configurazione CloudWatch dell'agente.

Nota

L'utilizzo di Systems Manager per distribuire le seguenti configurazioni di CloudWatch agenti sostituirà o sovrascriverà qualsiasi configurazione CloudWatch dell'agente esistente sulle istanze. EC2 Puoi modificare questa configurazione per adattarla al tuo ambiente o caso d'uso specifico. Le metriche definite nella configurazione sono le minime richieste per il pannello di controllo fornito dalla soluzione.

Il processo di implementazione include i seguenti passaggi:

  • Passaggio 1: assicurati che le EC2 istanze di destinazione dispongano delle autorizzazioni IAM richieste.

  • Passaggio 2: archiviare il file di configurazione dell'agente consigliato nel Parameter Store di Systems Manager.

  • Passaggio 3: installa l' CloudWatch agente su una o più EC2 istanze utilizzando uno stack. CloudFormation

  • Passaggio 4: verificare che la configurazione dell'agente sia corretta.

Passaggio 1: assicurati che le EC2 istanze di destinazione dispongano delle autorizzazioni IAM richieste

È necessario concedere l'autorizzazione a Systems Manager per installare e configurare l' CloudWatch agente. È inoltre necessario concedere all' CloudWatch agente l'autorizzazione a pubblicare dati di telemetria dall'istanza a EC2 . CloudWatch Assicurati che il ruolo IAM associato all'istanza abbia CloudWatchAgentServerPolicyle policy di Amazon SSMManaged InstanceCore IAM allegate.

Fase 2: Archiviare il file di configurazione CloudWatch dell'agente consigliato in Systems Manager Parameter Store

Parameter Store semplifica l'installazione dell' CloudWatch agente su un' EC2 istanza archiviando e gestendo in modo sicuro i parametri di configurazione, eliminando la necessità di valori codificati. Ciò garantisce un processo di implementazione più sicuro e flessibile, che consente una gestione centralizzata e aggiornamenti più semplici delle configurazioni su più istanze.

Utilizzate i seguenti passaggi per memorizzare il file di configurazione dell' CloudWatch agente consigliato come parametro in Parameter Store.

Per creare il file di configurazione CloudWatch dell'agente come parametro
  1. Apri la AWS Systems Manager console all'indirizzo https://console.aws.amazon.com/systems-manager/.

  2. Verifica che la Regione selezionata sulla console sia quella in cui è in esecuzione il carico di lavoro della GPU NVIDIA.

  3. Dal pannello di navigazione, scegli Gestione applicazioni, Parameter Store.

  4. Per creare un nuovo parametro per la configurazione, segui questi passaggi.

    1. Scegli Create parameter (Crea parametro).

    2. Nella casella Nome, inserisci un nome che utilizzerai per fare riferimento al file di configurazione dell' CloudWatch agente nei passaggi successivi. Ad esempio, AmazonCloudWatch-NVIDIA-GPU-Configuration.

    3. (Facoltativo) Nella casella Descrizione, digita una descrizione per il parametro.

    4. Per Livello parametri, scegli Standard.

    5. Per Type (Tipo), scegliere String.

    6. Per Tipo di dati, scegli testo.

    7. Nella casella Valore, incolla il blocco JSON corrispondente elencato in Configurazione dell'agente per questa soluzione.

    8. Scegli Create parameter (Crea parametro).

Passaggio 3: installare l' CloudWatch agente e applicare la configurazione utilizzando un CloudFormation modello

È possibile utilizzare AWS CloudFormation per installare l'agente e configurarlo in modo da utilizzare la configurazione dell' CloudWatch agente creata nei passaggi precedenti.

Per installare e configurare l' CloudWatch agente per questa soluzione
  1. Apri la procedura guidata CloudFormationQuick create stack utilizzando questo link: https://console.aws.amazon.com/cloudformation/ home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw - -1.0.0.json. agent-installation-template

  2. Verifica che la Regione selezionata sulla console sia quella in cui è in esecuzione il carico di lavoro della GPU NVIDIA.

  3. Per Nome dello stack, inserisci un nome per identificare questo stack, ad esempio CWAgentInstallationStack.

  4. Nella sezione Parametri, specifica quanto segue:

    1. Per CloudWatchAgentConfigSSM, immettere il nome del parametro Systems Manager per la configurazione dell'agente creata in precedenza, ad esempioAmazonCloudWatch-NVIDIA-GPU-Configuration.

    2. Per selezionare le istanze di destinazione, sono disponibili due opzioni.

      1. Per InstanceIds, specifica un elenco delimitato da virgole di un elenco di istanze IDs IDs in cui desideri installare l' CloudWatch agente con questa configurazione. Puoi elencare una singola istanza o più istanze.

      2. Se esegui la distribuzione su larga scala, puoi specificare l'TagKeye la corrispondente TagValueper indirizzare tutte le EC2 istanze con questo tag e valore. Se si specifica a TagKey, è necessario specificare un corrispondente. TagValue (Per un gruppo Auto Scaling, specificare TagKeye specificare aws:autoscaling:groupName il nome del gruppo Auto Scaling da distribuire su tutte le TagValueistanze all'interno del gruppo Auto Scaling.)

  5. Esamina le impostazioni e quindi scegli Crea stack.

Se desideri prima modificare il file modello per personalizzarlo, scegli l'opzione Carica un file modello in Procedura guidata creazione stack per caricare il modello modificato. Per ulteriori informazioni, consulta Creazione di uno stack sulla console. CloudFormation

Nota

Una volta completato questo passaggio, questo parametro Systems Manager verrà associato agli CloudWatch agenti in esecuzione nelle istanze di destinazione. Ciò significa che:

  1. Se il parametro Systems Manager viene eliminato, l'agente si arresta.

  2. Se il parametro Systems Manager viene modificato, le modifiche alla configurazione verranno applicate automaticamente all'agente alla frequenza pianificata, che per impostazione predefinita è di 30 giorni.

  3. Se si desidera applicare immediatamente le modifiche a questo parametro Systems Manager, è necessario eseguire nuovamente questo passaggio. Per ulteriori informazioni sulle associazioni, consulta Utilizzo delle associazioni in Systems Manager.

Passaggio 4: verificare che la configurazione dell'agente sia corretta

È possibile verificare se l' CloudWatch agente è installato seguendo la procedura riportata di seguito. Verifica che l' CloudWatch agente sia in esecuzione Se l' CloudWatch agente non è installato e non è in esecuzione, assicurati di aver configurato tutto correttamente.

Se tutto è configurato correttamente, dovresti vedere le metriche della GPU NVIDIA pubblicate su. CloudWatch Puoi controllare la CloudWatch console per verificare che vengano pubblicate.

Per verificare che le metriche della GPU NVIDIA vengano pubblicate su CloudWatch
  1. Apri la console all' CloudWatch indirizzo. https://console.aws.amazon.com/cloudwatch/

  2. Scegli Metriche, Tutte le metriche.

  3. Assicurati di aver selezionato la regione in cui hai distribuito la soluzione e scegli Namespace personalizzati,. CWAgent

  4. Cerca le metriche menzionate in Configurazione dell'agente per questa soluzione, ad esempio nvidia_smi_utilization_gpu. Se vedi risultati per queste metriche, significa che le metriche vengono pubblicate su. CloudWatch

Crea il pannello di controllo della soluzione GPU NVIDIA

La dashboard fornita da questa soluzione presenta le metriche NVIDIA aggregando e presentando GPUs le metriche relative a tutte le istanze. Il pannello di controllo mostra una ripartizione dei collaboratori principali (widget dei principali 10 per metrica) per ogni metrica. Questo ti aiuta a identificare rapidamente i valori anomali o le istanze che contribuiscono in modo significativo alle metriche osservate.

Per creare il pannello di controllo, puoi utilizzare le seguenti opzioni:

  • Usa la CloudWatch console per creare la dashboard.

  • Usa AWS CloudFormation la console per distribuire la dashboard.

  • Scarica l' AWS CloudFormation infrastruttura come codice e integrala come parte della tua automazione di integrazione continua (CI).

Utilizzando la CloudWatch console per creare una dashboard, puoi visualizzarne l'anteprima prima di crearla effettivamente e ricevere l'addebito.

Nota

La dashboard creata con CloudFormation questa soluzione mostra le metriche della regione in cui viene distribuita la soluzione. Assicurati di creare lo CloudFormation stack nella regione in cui sono pubblicate le metriche della GPU NVIDIA.

Se hai specificato uno spazio dei nomi personalizzato diverso CWAgent dalla configurazione dell' CloudWatch agente, dovrai modificare il CloudFormation modello per la dashboard per sostituirlo CWAgent con lo spazio dei nomi personalizzato che stai utilizzando.

Per creare la dashboard tramite Console CloudWatch
  1. Apri la CloudWatch console Create Dashboard utilizzando questo link: https://console.aws.amazon.com/cloudwatch/home? #dashboards? Modello di dashboard = NvidiaGpuOnEc 2&referrer=os-catalog.

  2. Verifica che la Regione selezionata sulla console sia quella in cui è in esecuzione il carico di lavoro della GPU NVIDIA.

  3. Immetti il nome del pannello di controllo e scegli Crea pannello di controllo.

    Per distinguere facilmente questo pannello di controllo da altri simili in Regioni diverse, consigliamo di includere il nome della Regione nel nome del pannello di controllo, ad esempio NVIDIA-GPU-Dashboard-us-east-1.

  4. Visualizza l'anteprima del pannello di controllo e scegli Salva per creare il pannello di controllo.

Per creare la dashboard tramite CloudFormation
  1. Apri la procedura guidata di creazione CloudFormation rapida dello stack utilizzando questo link: https://console.aws.amazon.com/cloudformation/ home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

  2. Verifica che la Regione selezionata sulla console sia quella in cui è in esecuzione il carico di lavoro della GPU NVIDIA.

  3. Per Nome dello stack, inserisci un nome per identificare questo stack, ad esempio NVIDIA-GPU-DashboardStack.

  4. Nella sezione Parametri, specifica il nome del pannello di controllo sotto il parametro. DashboardName

  5. Per distinguere facilmente questo pannello di controllo da altri simili in Regioni diverse, consigliamo di includere il nome della Regione nel nome del pannello di controllo, ad esempio NVIDIA-GPU-Dashboard-us-east-1.

  6. Riconosci le capacità di accesso per le trasformazioni nella sezione Capacità e trasformazioni. Tieni presente che CloudFormation non aggiunge alcuna risorsa IAM.

  7. Esamina le impostazioni e quindi scegli Crea stack.

  8. Una volta che lo stato dello stack è CREATE_COMPLETE, scegli la scheda Risorse sotto lo stack creato, quindi scegli il link in ID fisico per accedere al pannello di controllo. Puoi anche accedere alla dashboard nella CloudWatch console selezionando Dashboard nel riquadro di navigazione a sinistra della console e trovando il nome della dashboard in Dashboard personalizzate.

Se desideri modificare il file modello per personalizzarlo per qualsiasi scopo, puoi utilizzare l'opzione Carica un file modello in Procedura guidata creazione stack per caricare il modello modificato. Per ulteriori informazioni, consulta Creazione di uno stack sulla console CloudFormation Puoi utilizzare questo link per scaricare il modello: https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/ CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

Nozioni di base sul pannello di controllo GPU NVIDIA

Ecco alcune attività che puoi provare con il nuovo pannello di controllo GPU NVIDIA. Queste attività ti consentono di verificare che la dashboard funzioni correttamente e di fornirti un'esperienza pratica nell'utilizzarla per monitorare la tua NVIDIA. GPUs Provandole, acquisirai familiarità con la navigazione nel pannello di controllo e l'interpretazione delle metriche visualizzate.

Verifica dell'utilizzo della GPU

Nella sezione Utilizzo, trova i widget Utilizzo della GPU e Utilizzo della memoria. Questi mostrano rispettivamente la percentuale di tempo in cui la GPU viene utilizzata attivamente per i calcoli e la percentuale di memoria globale in lettura o scrittura. Un utilizzo elevato potrebbe indicare potenziali rallentamenti nelle prestazioni o la necessità di risorse GPU aggiuntive.

Analisi dell'utilizzo della memoria della GPU

Nella sezione Memoria, trova i widget Memoria totale, Memoria usata e Memoria libera. Queste forniscono informazioni sulla capacità di memoria complessiva di GPUs e sulla quantità di memoria attualmente consumata o disponibile. La pressione della memoria potrebbe portare a problemi o out-of-memory errori di prestazioni, quindi è importante monitorare questi parametri e assicurarsi che sia disponibile memoria sufficiente per i carichi di lavoro.

Monitoraggio della temperatura e dell'assorbimento di energia

Nella sezione Temperatura/Energia, trova i widget Temperatura GPU e Assorbimento energia. Queste metriche sono essenziali per garantire il GPUs funzionamento entro limiti termici e di potenza sicuri.

Identificazione delle prestazioni dell'encoder

Nella sezione Encoder, trova i widget Numero di sessioni dell'encoder, FPS medi e Latenza media. Queste metriche sono pertinenti se esegui carichi di lavoro di codifica video sul tuo. GPUs Monitora queste metriche per assicurarti che i tuoi encoder funzionino in modo ottimale e identificare eventuali rallentamenti o problemi di prestazioni.

Controlla lo stato del link PCIe

Nella PCIesezione, trova i widget PCIe Link Generation e PCIe Link Width. Queste metriche forniscono informazioni sul PCIe collegamento che collega la GPU al sistema host. Assicurati che il collegamento funzioni alla generazione e alla larghezza previste per evitare potenziali limitazioni delle prestazioni dovute a PCIe colli di bottiglia.

Controllo dei clock della GPU

Nella sezione Clock, trova i widget Clock grafica, Clock SM, Clock memoria e Clock video. Queste metriche mostrano le frequenze operative correnti dei vari componenti della GPU. Il monitoraggio di questi clock può aiutare a identificare potenziali problemi relativi al ridimensionamento del clock della GPU o alla limitazione della frequenza, che potrebbero influire sulle prestazioni.