Fasi successive per l’inferenza con Amazon SageMaker AI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fasi successive per l’inferenza con Amazon SageMaker AI

Dopo aver creato un endpoint e aver compreso il flusso di lavoro di inferenza generale, è possibile utilizzare le seguenti funzionalità di SageMaker AI per migliorare il flusso di lavoro di inferenza.

Monitoraggio

Per tracciare il modello nel tempo attraverso parametri come la precisione e la deviazione del modello, è possibile utilizzare Monitoraggio modello. Con Monitoraggio modello, puoi impostare avvisi che ti notificano quando ci sono deviazioni nella qualità del tuo modello. Per ulteriori informazioni, consultare la documentazione di Monitoraggio modello.

Per ulteriori informazioni sugli strumenti che possono essere utilizzati per monitorare gli eventi e le implementazioni dei modelli che modificano l’endpoint, consulta Monitoraggio di Amazon SageMaker AI. Ad esempio, puoi monitorare lo stato dell'endpoint attraverso parametri come errori invocazioni e latenza del modello utilizzando i parametri di Amazon CloudWatch. Le metriche di invocazione degli endpoint di SageMaker AI possono fornirti informazioni preziose sulle prestazioni del tuo endpoint.

CI/CD per la distribuzione di un modello

Per combinare soluzioni di machine learning in SageMaker AI, puoi utilizzare SageMaker AI MLOps. È possibile utilizzare questa funzione per automatizzare le fasi del flusso di lavoro di machine learning ed esercitarsi con CI/CD. È possibile utilizzare i modelli di progetto MLOps per facilitare la configurazione e l’implementazione dei progetti SageMaker AI MLOps. SageMaker AI supporta anche l’utilizzo di un repository Git di terze parti per la creazione di un sistema CI/CD.

Per le tue pipeline ML, usa Model Registry per gestire le versioni, la distribuzione e l'automazione dei tuoi modelli.

Guardrail di implementazione

Se desideri aggiornare il modello mentre è in produzione senza influire sulla produzione stessa, puoi utilizzare i guardrail di implementazione. I guardrail di implementazione sono un insieme di opzioni di implementazione dei modelli disponibili in SageMaker AI Inference che consentono di aggiornare i modelli di machine learning in produzione. Utilizzando le opzioni di implementazione completamente gestite, è possibile controllare il passaggio dal modello corrente in produzione a uno nuovo. Le modalità di trasferimento del traffico ti offrono un controllo granulare sul processo di trasferimento del traffico e le protezioni integrate come il rollback automatico ti aiutano a individuare tempestivamente i problemi.

Per ulteriori informazioni sui guardrail di implementazione, consulta la documentazione sui guardrail di implementazione.

Inferentia

Se devi eseguire applicazioni di machine learning e deep learning su larga scala, puoi utilizzare un’istanza Inf1 con un endpoint in tempo reale. Questo tipo di istanza è indicato per casi d’uso come riconoscimento di immagini o vocale, elaborazione del linguaggio naturale (NLP), personalizzazione, previsione o rilevamento di frodi.

Inf1 le istanze sono create per supportare applicazioni di inferenza di machine learning e dispongono dei chip Inferentia AWS. Le istanze Inf1 offrono un throughput più elevato e un costo per inferenza inferiore rispetto alle istanze basate su GPU.

Per implementare un modello sulle istanze Inf1, compila il tuo modello con SageMaker Neo e scegli un'istanza per l'opzione di implementazione Inf1. Per saperne di più, consulta Ottimizzazione delle prestazioni dei modelli con SageMaker Neo.

Ottimizzazione delle prestazioni del modello

SageMaker AI fornisce funzionalità per la gestione delle risorse e l’ottimizzazione delle prestazioni di inferenza durante l’implementazione dei modelli di machine learning. È possibile utilizzare gli algoritmi integrati e i modelli predefiniti di SageMaker AI e le immagini Docker predefinite, sviluppate per il machine learning.

Per addestrare i modelli e ottimizzarli per l’implementazione, consulta le Immagini Docker predefinite Ottimizzazione delle prestazioni dei modelli con SageMaker Neo. SageMaker Neo consente di addestrare i modelli TensorFlow, Apache MXNet, Pytorch, ONNX e XGBoost, per poi ottimizzarli e implementarli su processori ARM, Intel e Nvidia.

Dimensionamento automatico

Se la quantità di traffico verso gli endpoint è variabile, potresti provare il dimensionato automaticamente. Ad esempio, durante le ore di picco, potresti aver bisogno di più istanze per elaborare le richieste. Nei periodi di traffico ridotto, invece, potresti voler ridurre l’uso delle risorse di calcolo. Per regolare dinamicamente il numero di istanze assegnate in risposta alle modifiche nel carico di lavoro, consulta Ridimensionamento automatico dei modelli di SageMaker intelligenza artificiale di Amazon.

Se il traffico è imprevedibile o se non desideri impostare policy di dimensionamento, puoi anche utilizzare l’inferenza serverless per un endpoint. Quindi, SageMaker AI gestisce il dimensionamento automatico per tuo conto. Durante i periodi di traffico ridotto, SageMaker AI riduce verticalmente l’endpoint e, se il traffico si intensifica, lo aumenta verticalmente. Per ulteriori informazioni, consulta la documentazione Implementa modelli con Amazon SageMaker Serverless Inference.