Strategie di esecuzione dei modelli per carichi di lavoro di intelligenza artificiale - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Strategie di esecuzione dei modelli per carichi di lavoro di intelligenza artificiale

Alla base di qualsiasi architettura di intelligenza artificiale c'è il livello di esecuzione del modello, il componente che esegue l'inferenza, alimenta le previsioni o genera contenuti. AWS offre due percorsi potenti e predisposti per l'esecuzione di carichi di lavoro di intelligenza artificiale:

Comprendendo quando e come utilizzarli Servizio AWS, le aziende possono ottimizzarli sia per le esigenze aziendali che per l'efficienza operativa.

Amazon Bedrock: modelli Foundation come servizio

Amazon Bedrock è un servizio completamente gestito che fornisce l'accesso senza server ai principali fornitori di intelligenza artificiale come Anthropic (Claude), Meta (Llama) MistralCohere, e Amazon Titan Amazon Nova. FMs Puoi interagire con questi modelli utilizzando semplici chiamate API, senza dover fornire l'infrastruttura GPUs, gestire o perfezionare i modelli.

Le funzionalità principali di Amazon Bedrock includono quanto segue:

  • Generazione di testo: riepilogo, riscrittura, creazione di contenuti e domande e risposte.

  • Generazione di codice: linguaggio naturale per codificare.

  • Classificazione ed estrazione: etichettatura, analisi e etichettatura semantica.

  • Flussi di lavoro RAG: integrazione con le knowledge base per risposte fondate.

  • Agenti: abilita l'orchestrazione e l'uso degli strumenti autonomi.

  • Intelligenza multimodale: tramite Amazon Nova, comprendi e genera testi, immagini e video.

  • Supporto per la messa a punto e la distillazione: tramite Amazon Nova Premier, puoi addestrare modelli specifici per attività o creare modelli compatti per studenti.

  • Prestazioni e costi su più livelli: scegli tra i modelli Amazon Nova Micro, Nova Lite, Nova Pro e Nova Premier per bilanciare latenza, precisione e prezzo.

I vantaggi operativi di Amazon Bedrock includono:

  • Gestione dei modelli: non è richiesto l'hosting o il controllo delle versioni del modello.

  • Gestione sicura dei dati: ambiente isolato degli inquilini e nessuna formazione sui dati degli utenti.

  • Fatturazione basata su token: fornisce una modellazione dei costi prevedibile.

  • Unificazione delle API multimodali: gestisce immagini input/output , video e testo tramite la stessa interfaccia Amazon Bedrock.

  • Opzioni a bassa latenza: disponibili con Amazon Nova Micro e Nova Lite, ideali per app di intelligenza artificiale generativa edge e rivolte agli utenti.

  • Compatibilità aziendale: tutti i modelli Amazon Nova sono compatibili con le architetture Amazon Bedrock Knowledge Bases e Retrieval Augmented Generation (RAG).

Amazon Bedrock si integra con altre Servizi AWS funzionalità nei seguenti modi:

Casi d'uso ideali per Amazon Bedrock

Amazon Bedrock è adatto a una varietà di scenari, come i seguenti:

  • Attività di intelligenza artificiale generativa: crea contenuti e documentazione di marketing e potenzia i chatbot.

  • Assistenti conversazionali: crea bot di supporto e copiloti interni.

  • Recupero della conoscenza: da utilizzare per attività di riepilogo e ricerca semantica.

  • Pianificazione dinamica: potenti sistemi decisionali basati su agenti.

  • Generazione multimodale: usa Amazon Nova Canvas per generare immagini e Amazon Nova Reel per produrre video da istruzioni e contesti strutturati.

  • Assistenti aziendali: usa Amazon Nova Pro per abilitare strumenti decisionali orientati agli obiettivi basati su dati proprietari.

  • Feedback sull'esperienza utente in tempo reale: analizza e rispondi alle azioni dei clienti con una latenza inferiore a 100 ms utilizzando Amazon Nova Micro.

Amazon SageMaker Serverless Inference: hosting con modelli personalizzati

Amazon SageMaker Serverless Inference è progettato per sviluppatori e data scientist che hanno addestrato i propri modelli (ad esempio, XGBoost PyTorchScikit-learn, eTensorFlow). Utilizzando SageMaker Serverless Inference, possono distribuire i propri modelli in un ambiente scalabile e senza server.

A differenza di Amazon Bedrock, SageMaker Serverless Inference ti dà il controllo sull'architettura del modello, sui dati di addestramento e sulla logica.

Le funzionalità chiave di SageMaker Serverless Inference includono quanto segue:

  • Ospita modelli ML tradizionali come classificazione, regressione, elaborazione del linguaggio naturale (NLP) e previsione

  • Supporta endpoint multimodello

  • Supporta il ridimensionamento automatico in modo che l'elaborazione venga fornita su richiesta e spenta quando è inattiva

  • Esegue l'inferenza su immagini di container personalizzate o framework ML predefiniti

I vantaggi operativi di SageMaker Serverless Inference includono quanto segue:

  • Pay-per-inference modello con zero costi di inattività

  • Endpoint completamente gestiti e nessuna configurazione del server

  • Si integra con pipeline di formazione e notebook

SageMaker Serverless Inference si integra con altre funzionalità nei seguenti modi: Servizi AWS

  • Richiamato utilizzando AWS Lambda Step Functions o chiamate SDK e API

  • Funziona con SageMaker Pipelines per operazioni di apprendimento end-to-end automatico () MLOps

  • Log e metriche integrati con Amazon CloudWatch

Casi d'uso ideali per Serverless Inference SageMaker

SageMaker Serverless Inference è una buona scelta per varie applicazioni di machine learning:

  • Analisi predittiva: utilizzata per la previsione delle vendite e i modelli di previsione del tasso di abbandono.

  • Classificazione del testo: supporta attività come il rilevamento dello spam e l'analisi del sentiment.

  • Classificazione delle immagini: consente il riconoscimento ottico dei caratteri (OCR) dei documenti e le applicazioni di imaging medico.

  • Elaborazione personalizzata del linguaggio naturale (NLP): gestisce le attività di riconoscimento delle entità e di etichettatura dei documenti.

Scelta tra Amazon Bedrock e SageMaker Serverless Inference

Sia Amazon Bedrock che SageMaker Serverless Inference offrono percorsi serverless per un'esecuzione AI scalabile e pronta per la produzione. Insieme, costituiscono il livello di esecuzione principale delle architetture AI moderne, basate sugli eventi e senza server. AWS La tabella seguente confronta questi servizi tra le dimensioni chiave.

Dimensione

Amazon Bedrock

SageMaker Inferenza senza server

Tipo di modello

Modelli di base () LLMs

Modelli ML addestrati su misura

Sforzo di configurazione

Minimo (nessuna formazione o hosting)

Richiede la formazione e l'imballaggio del modello

Caso d’uso

Generativo, colloquiale e semantico

Dati predittivi, numerici e strutturati

Scalabilità

Completamente serverless e scalabile automaticamente

Completamente serverless e scalabile automaticamente

Modello di costi

Pagamento per token

Pagamento per inferenza

Integrazione

API Gateway, Lambda, Amazon Bedrock Agents e RAG

Lambda, Step Functions e pipeline CI/CD

Ottimizzazione richiesta

Nessuna (zero-shot o few-shot)

Controllo completo (iperparametri e riqualificazione)

La scelta del servizio giusto dipende dalla natura del carico di lavoro di intelligenza artificiale:

  • Usa Amazon Bedrock quando hai bisogno di flessibilità semantica, flussi di lavoro orientati agli obiettivi e iterazione rapida con i modelli di base.

  • Usa SageMaker Serverless Inference quando disponi di modelli proprietari, input strutturati o hai bisogno del pieno controllo su formazione e implementazione.

  • Utilizzalo SageMaker JumpStart per scegliere tra centinaia di algoritmi integrati con modelli preaddestrati provenienti da hub di modelli, tra cui TensorFlow Hub, Hub e. PyTorch Hugging Face MxNet GluonCV