Impostazioni avanzate dei modelli di previsione numerici e categorici Impostazioni avanzate del modello di previsione delle serie temporali

Configurazioni avanzate per la creazione dei modelli

Amazon SageMaker Canvas supporta diverse impostazioni avanzate che puoi configurare durante la creazione di un modello. La pagina seguente elenca tutte le impostazioni avanzate insieme a informazioni aggiuntive sulle relative opzioni e configurazioni.

Nota

Le impostazioni avanzate seguenti sono attualmente supportate solo per i tipi di modelli di previsione numerici, categorici e delle serie temporali.

Impostazioni avanzate dei modelli di previsione numerici e categorici

Canvas supporta le seguenti impostazioni avanzate per i tipi di modelli di previsione numerici e categorici.

Parametro obiettivo

La metrica obiettivo è la metrica che Canvas deve ottimizzare durante la creazione del modello. Se non selezioni un parametro, Canvas ne sceglie uno automaticamente per te per impostazione predefinita. Per una descrizione delle metriche disponibili, consulta Riferimento per le metriche.

Metodo di addestramento

Canvas può selezionare automaticamente il metodo di addestramento in base alla dimensione del set di dati oppure puoi selezionarlo manualmente. Puoi scegliere tra i seguenti metodi di addestramento:

Ensembling: l' SageMaker intelligenza artificiale sfrutta la AutoGluon libreria per addestrare diversi modelli di base. Per trovare la combinazione ottimale per il tuo set di dati, la modalità ensemble esegue 5-10 prove con diverse impostazioni dei modelli e dei metaparametri. Quindi, questi modelli vengono combinati utilizzando un metodo ensemble di sovrapposizione per creare un modello di previsione ottimale. Per un elenco degli algoritmi supportati dalla modalità ensemble per i dati tabulari, consulta la sezione Algoritmi seguente.
Ottimizzazione degli iperparametri (HPO): l' SageMaker intelligenza artificiale trova la versione migliore di un modello ottimizzando gli iperparametri utilizzando l'ottimizzazione bayesiana o l'ottimizzazione multifidelity mentre esegue lavori di formazione sul set di dati. La modalità HPO seleziona gli algoritmi più pertinenti al set di dati e seleziona la migliore gamma di iperparametri per ottimizzare i modelli. Per ottimizzare i modelli, la modalità HPO esegue fino a 100 prove (impostazione predefinita) per trovare le impostazioni ottimali degli iperparametri all'interno dell'intervallo selezionato. Se la dimensione del set di dati è inferiore a 100 MB, l'intelligenza artificiale utilizza l'ottimizzazione bayesiana. SageMaker SageMaker L'intelligenza artificiale sceglie l'ottimizzazione a più fedeltà se il set di dati è più grande di 100 MB.

Per un elenco degli algoritmi supportati dalla modalità HPO per i dati tabulari, consulta la sezione seguente Algoritmi.
Automatico: l' SageMaker IA sceglie automaticamente la modalità ensembling o la modalità HPO in base alle dimensioni del set di dati. Se il set di dati è più grande di 100 MB, SageMaker AI sceglie la modalità HPO. Altrimenti, esso sceglie la modalità raggruppamento.

Algoritmi

In modalità ensemble, Canvas supporta i seguenti algoritmi di machine learning:

LightGBM: un framework ottimizzato che utilizza algoritmi ad albero con aumento del gradiente. Questo algoritmo utilizza alberi che crescono in larghezza anziché in profondità ed è altamente ottimizzato per la velocità.
CatBoost— Un framework che utilizza algoritmi basati su alberi con potenziamento del gradiente. Ottimizzato per la gestione di variabili categoriche.
XGBoost: un framework che utilizza algoritmi ad albero con aumento del gradiente che cresce in profondità, anziché in larghezza.
Random Forest: un algoritmo ad albero che utilizza diversi alberi decisionali su sottocampioni casuali di dati con sostituzione. Gli alberi sono suddivisi in nodi ottimali a ciascun livello. Le decisioni di ogni albero vengono calcolate insieme per evitare un sovradimensionamento e migliorare le previsioni.
Extra Trees: un algoritmo ad albero che utilizza diversi alberi decisionali sull'intero set di dati. Gli alberi vengono suddivisi casualmente ad ogni livello. Le decisioni di ogni albero vengono calcolate per evitare un sovradimensionamento e per migliorare le previsioni. Gli alberi aggiuntivi aggiungono un grado di randomizzazione rispetto all'algoritmo della foresta casuale.
Linear Models: un framework che utilizza un'equazione lineare per modellare la relazione tra due variabili nei dati osservati.
Neural network torch: un modello di rete neurale implementato utilizzando Pytorch.
Neural network fast.ai: un modello di rete neurale implementato utilizzando fast.ai.

In modalità HPO, Canvas supporta i seguenti algoritmi di machine learning:

XGBoost: un apprendimento supervisionato che tenta di prevedere con precisione una variabile di destinazione combinando un insieme di stime da un set di modelli più semplici e deboli.
Deep learning algorithm (Algoritmo deep learning): un perceptron multistrato (MLP) e una rete neurale artificiale feedforward. Questo algoritmo è in grado di gestire dati che non sono separabili linearmente.

Suddivisione dei dati

Puoi specificare come dividere il set di dati tra il set di addestramento (la parte del set di dati utilizzata per creare il modello) e il set di convalida (la parte del set di dati utilizzata per verificare l’accuratezza del modello). Ad esempio, un rapporto di suddivisione utilizzato di frequente è 80% addestramento e 20% convalida, che significa che l’80% dei dati viene impiegato per creare il modello e il 20% per misurarne le prestazioni. Se non specifichi un rapporto personalizzato, Canvas suddivide automaticamente il set di dati.

Numero massimo di candidati

Nota

Questa funzionalità è disponibile solo nella modalità di addestramento HPO.

Puoi specificare il numero massimo di modelli candidati generati da Canvas durante la creazione del modello. Ti consigliamo di mantenere il numero predefinito di candidati, 100, per creare modelli più accurati. Il numero massimo che puoi specificare è 250. La riduzione del numero di modelli candidati può influire sull’accuratezza del modello.

Massimo runtime del processo

Puoi specificare il massimo runtime del processo o il tempo massimo che Canvas può dedicare alla creazione del modello. Trascorso questo intervallo di tempo, Canvas arresta la creazione e seleziona il miglior modello candidato.

Il tempo massimo che puoi specificare è 720 ore. Consigliamo vivamente di impostare il massimo runtime del processo su un valore superiore a 30 minuti per garantire a Canvas il tempo sufficiente per generare modelli candidati e completare la creazione del modello.

Impostazioni avanzate del modello di previsione delle serie temporali

Per i modelli di previsione delle serie temporali, Canvas supporta la metrica obiettivo, elencata nella sezione precedente.

I modelli di previsione delle serie temporali supportano anche le impostazioni avanzate seguenti:

Selezione degli algoritmi

Quando crei un modello di previsione delle serie temporali, Canvas utilizza un ensemble (o una combinazione) di algoritmi statistici e di machine learning per generare previsioni delle serie temporali estremamente accurate. Per impostazione predefinita, Canvas seleziona la combinazione ottimale di tutti gli algoritmi disponibili in base alle serie temporali del set di dati. Tuttavia, hai la possibilità di specificare uno o più algoritmi da utilizzare per il tuo modello di previsione. In questo caso, Canvas determina la combinazione migliore basandosi solo sugli algoritmi selezionati. Se hai dubbi sull’algoritmo da selezionare per addestrare il modello, ti consigliamo di scegliere tutti gli algoritmi disponibili.

Nota

La selezione degli algoritmi è supportata solo per le build standard. Se non selezioni alcun algoritmo nelle impostazioni avanzate, per impostazione predefinita l' SageMaker IA esegue una compilazione rapida e addestra i modelli candidati utilizzando un unico algoritmo di apprendimento basato su un albero. Per ulteriori informazioni sulla differenza tra le build rapide e quelle standard, consulta Funzionamento dei modelli personalizzati.

Canvas supporta i seguenti algoritmi di previsione delle serie temporali:

Modello autoregressivo integrato a media mobile (ARIMA): un semplice modello stocastico di serie temporali che utilizza l’analisi statistica per interpretare i dati e generare previsioni future. Questo algoritmo è utile per set di dati semplici con meno di 100 serie temporali.
Rete neurale convoluzionale - Regressione quantile (CNN-QR): un algoritmo di apprendimento proprietario e supervisionato che addestra un modello globale da un'ampia raccolta di serie temporali e utilizza un decodificatore quantile per fare previsioni. CNN-QR funziona al meglio con set di dati di grandi dimensioni contenenti centinaia di serie temporali.
DeepAR+: un algoritmo di apprendimento proprietario e supervisionato per la previsione di serie temporali scalari che utilizza reti neurali ricorrenti (RNN) per addestrare contemporaneamente un singolo modello su tutte le serie temporali. DeepAR+ funziona al meglio con set di dati di grandi dimensioni che contengono centinaia di serie temporali di funzionalità.
Non-Parametric Time Series (NPTS): un sistema di previsione di base scalabile e probabilistico che prevede la distribuzione futura del valore di una determinata serie temporale campionando da osservazioni passate. NPTS è utile quando si lavora con serie temporali sparse o intermittenti (ad esempio, per la previsione della domanda di singoli articoli, in cui la serie temporale presenta molti 0 o numeri bassi).
Livellamento esponenziale (ETS): un metodo di previsione che produce previsioni che corrispondono alle medie ponderate di osservazioni precedenti, in cui il peso delle osservazioni precedenti diminuisce esponenzialmente. L’algoritmo è particolarmente utile per set di dati semplici con meno di 100 serie temporali e set di dati con modelli di stagionalità.
Prophet: un modello di regressione additivo che funziona al meglio con serie temporali che hanno forti effetti stagionali e diverse stagioni di dati cronologici. L’algoritmo è utile per set di dati con tendenze di crescita non lineare che si avvicinano a un limite.

Quantili di previsione

Per la previsione delle serie temporali, l' SageMaker intelligenza artificiale forma 6 candidati modello con le serie temporali target. Quindi, l' SageMaker intelligenza artificiale combina questi modelli utilizzando un metodo di sovrapposizione per creare un modello di previsione ottimale per una determinata metrica oggettiva. Ogni modello di previsione genera una previsione probabilistica producendo previsioni con quantili compresi tra P1 e P99. Questi quantili vengono utilizzati per tenere conto dell'incertezza delle previsioni. Per impostazione predefinita, vengono generate previsioni per 0,1 (p10), 0,5 (p50) e 0,9 (p90). Puoi scegliere di specificare fino a cinque quantili da 0,01 (p1) a 0,99 (p99), con incrementi di 0,01 o superiori.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Crea un modello

Modifica di un set di dati di immagini