Selezione dell'infrastruttura di implementazione per un modello di classificazione delle immagini - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Selezione dell'infrastruttura di implementazione per un modello di classificazione delle immagini

Consigliamo di selezionare l'opzione di implementazione migliore per un endpoint di classificazione delle immagini prendendo in considerazione tre aspetti principali:

  • Tempo di risposta dell'endpoint richiesto

  • Complessità della soluzione e risorse umane disponibili

  • Limitazioni dei costi

I tempi di risposta degli endpoint e le limitazioni dei costi sono quantificabili più facilmente ed è meglio determinarli prima. I vincoli di complessità della soluzione dipendono dal bilanciamento del tempo e delle risorse del personale. Le soluzioni meno complesse prevedono l'utilizzo di Amazon Rekognition o Amazon Rekognition Custom Labels. I modelli di visione artificiale di grandi dimensioni, se posizionati dietro un'istanza Amazon API Gateway e una AWS Lambda funzione, possono impiegare fino a 1 secondo per rispondere. Amazon SageMaker AI Canvas può anche implementare un endpoint che risponde entro 1 secondo o meno, con un basso livello di impegno di sviluppo.

I modelli di classificazione delle immagini possono essere inseriti nelle AWS Lambda funzioni utilizzando un'immagine Docker. Quando viene chiamata una funzione Lambda, può verificarsi un avvio a freddo che ritarda la risposta dell'endpoint a causa del tempo di caricamento del modello. Puoi anche utilizzare l'opzione provisioned concurrency per far sì che una funzione Lambda risponda in meno di 1 secondo, per un livello di concorrenza specificato o in base a una politica di auto-scaling.

I tempi di risposta del modello variano in base al tempo di elaborazione del modello e al tempo di risposta dell'endpoint distribuito. Di seguito sono riportati i tempi di risposta per ciascuna opzione di implementazione, organizzati per attività di implementazione:

  • Sforzo minimo: Amazon Rekognition, Amazon Rekognition SageMaker Custom Labels e AI Canvas sono le opzioni di implementazione più semplici. I tempi di risposta per queste soluzioni possono variare da meno di un secondo a ore.

  • Impegno medio: l' SageMaker intelligenza artificiale è un'opzione di implementazione a medio impegno. SageMaker Gli endpoint AI in tempo reale possono rispondere in meno di un secondo, le unità di inferenza senza server SageMaker AI possono rispondere in più secondi e le trasformazioni in batch dell' SageMaker IA in genere rispondono in poche ore.

  • Massimo impegno: gli endpoint e AWS Lambda le funzioni EKS personalizzati di Amazon ECS o Amazon sono l'opzione di implementazione più impegnativa. I tempi di risposta per questi lavori di formazione personalizzati possono variare da meno di un secondo a ore. Per tempi di risposta inferiori a un secondo, puoi fornire la concorrenza per le funzioni Lambda.

È più probabile che le soluzioni più impegnative abbiano costi di infrastruttura inferiori. Tuttavia, confrontate i risparmi con i costi aggiuntivi dei tempi di manutenzione per gli ingegneri.

Un modello di implementazione comune consiste nell'avere un API gateway e una funzione Lambda davanti a una chiamata endpoint, come mostrato nell'immagine seguente. Ciò è preferibile in situazioni in cui la risposta di inferenza di Amazon Rekognition necessita di un'ulteriore elaborazione prima di essere rispedita al client chiamante tramite Amazon Gateway. API

Schema di distribuzione comune

Tuttavia, le situazioni in cui l'elaborazione è piuttosto impegnativa possono richiedere un flusso di lavoro diverso per ridurre la penalità di latenza di rete derivante dall'elaborazione della funzione Lambda. Per una latenza molto bassa, la funzione Lambda può essere omessa al costo di forzare Amazon Rekognition nella chiamata Gateway. API API

Per i sistemi di classificazione delle immagini in grado di tollerare alcuni secondi di latenza, utilizza un endpoint di inferenza AI serverless. SageMaker Sia per l'inferenza che per le AWS Lambda implementazioni senza server SageMaker AI, esiste un limite di 15 minuti al tempo di esecuzione per ogni chiamata. Si tratta di un ampio margine di sicurezza per i modelli di classificazione delle immagini più diffusi.

Per la classificazione delle immagini offline o per applicazioni in cui i tempi di risposta rapidi non sono importanti, puoi utilizzare l'inferenza in batch con Amazon Rekognition. Per ulteriori informazioni, consulta Elaborazione di immagini in batch con Amazon Rekognition Custom Labels nel Machine Learning Blog. AWS Puoi anche utilizzare la trasformazione in batch SageMaker AI per un modello di SageMaker intelligenza artificiale addestrato in SageMaker AI Canvas o in altri modi. Per un esempio, consulta il notebook SageMaker AI Batch Transform for PyTorch Batch Inference su GitHub.