Algoritmi integrati o modelli preaddestrati in Amazon SageMaker - Amazon SageMaker AI

Algoritmi integrati o modelli preaddestrati in Amazon SageMaker

Amazon SageMaker offre una suite di algoritmi integrati, modelli preaddestrati e modelli di soluzioni predefiniti per aiutare i data scientist e i professionisti del machine learning a iniziare rapidamente ad addestrare e implementare modelli di machine learning. Per chi è alle prime armi con SageMaker, scegliere l'algoritmo giusto per il proprio caso d'uso particolare può essere un compito impegnativo. La tabella seguente fornisce un breve foglio informativo che mostra come iniziare con un problema o un caso d'uso di esempio e trovare un algoritmo integrato appropriato offerto da SageMaker valido per quel tipo di problema. Ulteriori indicazioni organizzate per paradigmi di apprendimento (supervisionati e non supervisionati) e domini di dati importanti (testo e immagini) sono fornite nelle sezioni che seguono la tabella.

Tabella: Mappatura dei casi d'uso agli algoritmi integrati

Esempi di problemi e casi d'uso Paradigma o dominio di apprendimento Tipi di problema Formato di input dei dati algoritmi integrati

Ecco alcuni esempi dei 15 tipi di problemi che possono essere risolti dai modelli pre-addestrati e dai modelli di soluzione predefiniti forniti da SageMaker JumpStart:

Risposta alle domande: chatbot che fornisce una risposta a una determinata domanda.

Analisi del testo: analizza testi basati di modelli specifici di un settore come quello finanziario.

Modelli preaddestrati e modelli di soluzioni preinstallati

Classificazione delle immagini

Classificazione tabulare

Regressione tabulare

Classificazione del testo

Rilevamento di oggetti

Incorporamento del testo

Risposta alle domande

Classificazione delle coppie di frasi

Incorporamento di immagini

Riconoscimento delle entità denominate

Segmentazione delle istanze

Generazione di testo

Riepilogo testo

Segmentazione semantica

Traduzione automatica

Immagine, testo, tabella

Modelli popolari, tra cui Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM e CatBoost

Per un elenco dei modelli pre-addestrati disponibili, consulta Modelli JumpStart.

Per un elenco dei modelli di soluzioni predefiniti disponibili, consulta Soluzioni JumpStart.

Prevedi se un articolo appartiene a una categoria: un filtro antispam per le e-mail

Apprendimento supervisionato

Classificazione multi-classe/Binaria

Tabulare

AutoGluon-Tabular, CatBoost, Algoritmo delle macchine di fattorizzazione, Algoritmo K-Nearest Neighbors (k-NN), LightGBM, Algoritmo di apprendimento lineare, TabTransformer, Algoritmo XGBoost con Amazon SageMaker AI

Prevedi un valore numerico/continuo: stima il valore di una casa

Regressione

Tabulare

AutoGluon-Tabular, CatBoost, Algoritmo delle macchine di fattorizzazione, Algoritmo K-Nearest Neighbors (k-NN), LightGBM, Algoritmo di apprendimento lineare, TabTransformer, Algoritmo XGBoost con Amazon SageMaker AI

Basato su dati storici per un comportamento, prevedi il comportamento futuro: prevedi le vendite di un nuovo prodotto sulla base dei dati di vendita precedenti.

Previsione di serie temporali

Tabulare

Utilizzo dell’algoritmo di previsione SageMaker AI DeepAR

Migliora l'incorporamento dei dati degli oggetti ad alta dimensione: identifica i ticket di assistenza duplicati o trova l'instradamento corretto in base alla somiglianza del testo nei ticket

Incorporamenti: converte oggetti ad alta dimensione in uno spazio a bassa dimensione. Tabulare Algoritmo Object2Vec

Elimina quelle colonne da un set di dati che hanno una relazione debole con la variabile etichetta/destinazione: il colore di un'auto nella previsione del suo chilometraggio.

Apprendimento non supervisionato

Ingegneria delle funzionalità: riduzione della dimensionalità

Tabulare

Algoritmo PCA (Principal Component Analysis)

Rileva comportamenti anomali nell'applicazione: individua quando un sensore IoT invia letture anomale

Rilevamento anomalie

Tabulare

Algoritmo Random Cut Forest (RCF)

Proteggi la tua applicazione da utenti sospetti: rileva se un indirizzo IP che accede a un servizio potrebbe provenire da un malintenzionato

Rilevamento di anomalie IP

Tabulare

IP Insights

Raggruppa oggetti/dati simili: trova clienti con spese elevate, medie e basse utilizzando la cronologia delle transazioni

Raggruppamento o raggruppamento

Tabulare

Algoritmo K-Means

Organizza una serie di documenti in argomenti (non noti in anticipo): contrassegna un documento come appartenente a una categoria medica in base ai termini utilizzati nel documento.

Modellazione degli argomenti

Testo

Algoritmo Allocazione latente di Dirichlet (LDA, Latent Dirichlet Allocation), Algoritmo Modello neurale di argomenti (NTM)

Assegna categorie predefinite ai documenti di un corpus: classifica i libri di una biblioteca in discipline accademiche

Analisi testuale

Classificazione del testo

Testo

Algoritmo BlazingText, Classificazione del testo - TensorFlow

Converti il testo da una lingua all'altra: da spagnolo a inglese

Traduzione automatica

Algoritmo
Testo

Algoritmo Sequence-to-Sequence

Riassumi un corpus di testo lungo: un riassunto per un documento di ricerca

Riepilogo testo

Testo

Algoritmo Sequence-to-Sequence

Converti file audio in testo: trascrive le conversazioni del call center per ulteriori analisi

da parlato a testo scritto

Testo

Algoritmo Sequence-to-Sequence

Etichetta/tagga un'immagine in base al contenuto dell'immagine: avvisa sui contenuti per adulti in un'immagine

Elaborazione di immagini

Classificazione multi-etichetta e immagine

Immagine

Classificazione delle immagini - MXNet

Classifica qualcosa in un'immagine utilizzando l'apprendimento del trasferimento.

Classificazione delle immagini Immagine

Classificazione delle immagini - TensorFlow

Rileva persone e oggetti in un'immagine: la polizia esamina una grande galleria fotografica di una persona scomparsa

Rilevamento di oggetti e classificazione

Immagine

Rilevamento degli oggetti - MXNet, Rilevamento degli oggetti - TensorFlow

Etichetta singolarmente ogni pixel di un'immagine con una categoria: le auto a guida autonoma si preparano a identificare gli oggetti sul percorso

Visione artificiale

Immagine

Algoritmo di segmentazione semantica

Per informazioni importanti sui seguenti elementi comuni a tutti gli algoritmi integrati forniti da SageMaker AI, consulta Parametri per gli algoritmi integrati.

  • Percorsi del registro Docker

  • formati dei dati

  • tipi di istanza Amazon EC2 consigliati

  • Log CloudWatch

Le seguenti sezioni forniscono indicazioni aggiuntive per gli algoritmi integrati di Amazon SageMaker AI raggruppati in base ai paradigmi di apprendimento senza supervisione a cui appartengono. Per le descrizioni di questi paradigmi di apprendimento e dei tipi di problemi associati, consulta Tipi di algoritmi. Sono inoltre disponibili sezioni per gli algoritmi integrati di SageMaker AI disponibili per due importanti domini di machine learning: l’analisi del testo e l’elaborazione delle immagini.

Modelli preaddestrati e modelli di soluzioni

SageMaker JumpStart offre un’ampia gamma di modelli preaddestrati, modelli di soluzioni predefiniti ed esempi per i tipi di problemi più diffusi. Questi utilizzano SageMaker SDK e Studio Classic. Per ulteriori informazioni su questi modelli, soluzioni e sui notebook di esempio forniti da SageMaker JumpStart, vedere Modelli di SageMaker JumpStart preaddestrati.

Apprendimento supervisionato

Amazon SageMaker AI fornisce diversi algoritmi di uso generico integrati che possono essere utilizzati per problemi di classificazione o regressione.

  • AutoGluon-Tabular: un framework AutoML open source che riesce a raggruppare modelli e impilarli su più livelli.

  • CatBoost: un'implementazione dell'algoritmo alberi potenziati dal gradiente che introduce il potenziamento ordinato e un algoritmo innovativo per l'elaborazione delle funzionalità categoriche.

  • Algoritmo delle macchine di fattorizzazione: si tratta di un’estensione di un modello lineare che è stato progettato per acquisire in modo economico le interazioni tra le funzionalità all’interno del set di dati sparsi altamente dimensionali.

  • Algoritmo K-Nearest Neighbors (k-NN): un metodo non parametrico che utilizza i k punti etichettati più vicini per assegnare un valore. Per la classificazione, si tratta di un’etichetta per un nuovo punto dati. Per la regressione, è un valore di destinazione previsto sulla base della media dei k punti più vicini.

  • LightGBM: un’implementazione dell’algoritmo alberi potenziati dal gradiente che aggiunge due nuove tecniche per migliorare l’efficienza e la scalabilità. Queste due nuove tecniche sono Gradient-based One-Side Sampling (GOSS) ed Exclusive Feature Bundling (EFB).

  • Algoritmo di apprendimento lineare: apprende una funzione lineare per la regressione o una funzione di soglia lineare per la classificazione.

  • TabTransformer: una nuova architettura di modellazione dei dati tabulare approfondita basata su Trasformatori basati sull'autoattenzione.

  • Algoritmo XGBoost con Amazon SageMaker AI: un'implementazione dell'algoritmo di alberi potenziati dal gradiente che combina un insieme di stime di una serie di modelli più semplici e più deboli.

Amazon SageMaker AI fornisce anche diversi algoritmi di apprendimento supervisionato integrati che vengono utilizzati per attività più specializzate durante l’ingegneria delle caratteristiche e la previsione a partire da dati di serie temporali.

  • Algoritmo Object2Vec: un nuovo algoritmo multiuso altamente personalizzabile utilizzato per l'ingegneria delle funzionalità. Può apprendere incorporamenti densi a bassa dimensione di oggetti ad alta dimensione per produrre funzionalità che migliorano l'efficienza di addestramento per i modelli downstream. Sebbene si tratti di un algoritmo supervisionato, esistono molti scenari in cui le etichette delle relazioni possono essere ottenute esclusivamente da cluster naturali di dati. Anche se per l’addestramento richiede dati etichettati, ciò può avvenire senza alcuna annotazione umana esplicita.

  • Utilizzo dell’algoritmo di previsione SageMaker AI DeepAR: l'algoritmo di apprendimento supervisionato per la previsione di serie temporali (unidimensionali) scalari mediante reti neurali ricorrenti (RNN, Recurrent Neural Network).

Apprendimento non supervisionato

Amazon SageMaker AI offre diversi algoritmi integrati che possono essere utilizzati per queste attività di apprendimento senza supervisione. Tali attività includono operazioni come il clustering, la riduzione delle dimensioni, il riconoscimento dei modelli e il rilevamento delle anomalie.

  • Algoritmo PCA (Principal Component Analysis): riduce la dimensionalità (numero di funzionalità) all'interno di un set di dati proiettando i punti dati sui primi componenti principali. L'obiettivo è conservare quante più informazioni o variazioni possibili. Per i matematici, i componenti principali sono gli autovettori della matrice di covarianza dei dati.

  • Algoritmo K-Means: individua i raggruppamenti discreti all’interno dei dati. Questo si verifica dove i membri di un gruppo sono il più possibile simili l’uno all’altro e il più possibile diversi dai membri di altri gruppi.

  • IP Insights: apprende i modelli di utilizzo degli indirizzi IPv4. È concepito per acquisire associazioni tra indirizzi IPv4 e varie entità, come ID utente o numeri di account.

  • Algoritmo Random Cut Forest (RCF): rileva punti dati anomali all'interno di un set di dati che divergono da dati altrimenti ben strutturati o modellati.

Analisi testuale

SageMaker AI fornisce algoritmi personalizzati per l’analisi di documenti testuali. Questo include i testi utilizzati nell’elaborazione del linguaggio naturale, nella classificazione o riepilogo dei documenti, nella modellazione o classificazione degli argomenti e nella trascrizione o traduzione della lingua.

Elaborazione di immagini

SageMaker AI fornisce anche algoritmi di elaborazione delle immagini utilizzati per la classificazione delle immagini, il rilevamento degli oggetti e la visione artificiale.

  • Classificazione delle immagini - MXNet: utilizza dati di esempio con delle risposte (definito come algoritmo supervisionato). Utilizza questo algoritmo per classificare le immagini.

  • Classificazione delle immagini - TensorFlow: utilizza modelli TensorFlow Hub preaddestrati per ottimizzare attività specifiche (denominati algoritmi supervisionati). Utilizza questo algoritmo per classificare le immagini.

  • Algoritmo di segmentazione semantica: fornisce un approccio a livello di pixel in modo granulare per lo sviluppo di applicazioni di visione artificiale.

  • Rilevamento degli oggetti - MXNet: rileva e classifica gli oggetti nelle immagini utilizzando un'unica rete neurale profonda. È un algoritmo di apprendimento supervisionato che accetta le immagini come input e identifica tutte le istanze degli oggetti all'interno della scena dell'immagine.

  • Rilevamento degli oggetti - TensorFlow: rileva i riquadri di delimitazione e le etichette degli oggetti in un'immagine. Si tratta di un algoritmo di apprendimento supervisionato che supporta l’apprendimento del trasferimento con i modelli TensorFlow preaddestrati disponibili.