

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Comprensione dell'algoritmo ML utilizzato da Amazon Quick Sight
<a name="concept-of-ml-algorithms"></a>


|  | 
| --- |
|  Non è necessaria alcuna esperienza tecnica nell'apprendimento automatico per utilizzare le funzionalità basate su ML di Amazon Quick Sight. Questa sezione si occupa degli aspetti tecnici dell'algoritmo, per coloro che desiderano dettagli su come funziona. Non è necessario leggere queste informazioni per utilizzare le funzionalità.   | 

Amazon Quick Sight utilizza una versione integrata dell'algoritmo Random Cut Forest (RCF). Le sezioni seguenti spiegano cosa significa e come viene utilizzato in Amazon Quick Sight.

Innanzitutto analizziamo la terminologia utilizzata: 
+ Anomalia: qualcosa che è caratterizzato dalla differenza rispetto alla maggior parte delle altre cose nello stesso campione. Conosciuta anche come un outlier, un'eccezione, una deviazione e così via.
+ Punto dati: un'unità discreta, o semplicemente una riga, in un set di dati. Tuttavia, una riga può avere più punti dati se si utilizza una misura su dimensioni diverse.
+ Albero delle decisioni: un modo di visualizzare il processo decisionale dell'algoritmo che valuta modelli nei dati.
+ Previsione: una previsione del comportamento futuro in base al comportamento passato e presente.
+ Modello: una rappresentazione matematica dell'algoritmo o ciò che l'algoritmo apprende.
+ Stagionalità: i comportamenti ripetitivi che si verificano ciclicamente nei dati delle serie temporali.
+ Serie temporali: un set ordinato di dati relativi a orario o data in un campo o in una colonna.

**Topics**
+ [Qual è la differenza tra rilevamento delle anomalie e previsione?](difference-between-anomaly-detection-and-forecasting.md)
+ [Che cos'è un RCF?](what-is-random-cut-forest.md)
+ [Applicazione dell'algoritmo RCF per rilevare le anomalie](how-does-rcf-detect-anomalies.md)
+ [Applicazione dell'algoritmo RCF per generare le previsioni](how-does-rcf-generate-forecasts.md)
+ [Riferimenti per machine learning e RCF](learn-more-about-machine-learning-and-rcf.md)

# Qual è la differenza tra rilevamento delle anomalie e previsione?
<a name="difference-between-anomaly-detection-and-forecasting"></a>

Il rilevamento delle anomalie identifica gli outlier e i fattori che contribuiscono a rispondere alla domanda "Che cosa è successo che non accade abitualmente?" Una previsione risponde alla domanda: "Se tutto continua ad accadere come previsto, che cosa succederà in futuro?" La matematica che permette le previsioni ci permette anche di chiederci: "Se alcune cose cambiano, che cosa accadrà?" 

Sia il rilevamento che la previsione delle anomalie iniziano con l'esame dei punti dati attualmente noti. Il rilevamento delle anomalie di Amazon Quick Sight inizia da ciò che è noto, in modo da poter stabilire cosa si trova al di fuori del set noto e identificare tali punti dati come anomali (valori anomali). Le previsioni di Amazon Quick Sight escludono i punti dati anomali e si attengono allo schema noto. La previsione si concentra sul modello stabilito di distribuzione dei dati. Al contrario, il rilevamento delle anomalie si concentra sui punti dati che deviano da quanto previsto. Ogni metodo adotta un approccio al processo decisionale da una direzione diversa. 

# Che cos'è un RCF?
<a name="what-is-random-cut-forest"></a>

Un *random cut forest* (RCF) è un tipo speciale di algoritmo *random forest* (RF), una tecnica largamente utilizzata nel machine learning. Utilizza un set di punti di dati casuali, li ridimensiona allo stesso numero di punti e in seguito crea una raccolta di modelli. Al contrario, un modello corrisponde a un albero decisionale, da cui il nome foresta. Poiché non RFs possono essere facilmente aggiornate in modo incrementale, RCFs sono state inventate con variabili nella costruzione ad albero progettate per consentire aggiornamenti incrementali. 

In qualità di algoritmo non controllato, RCF impiega cluster di analisi per rilevare picchi in dati di serie temporali, interruzioni nella periodicità o stagionalità ed eccezioni dei punti dati. Gli algoritmi random cut forest possono operare come sinossi o sketch di un flusso di dati dinamico (o una sequenza di numeri indicizzata temporalmente). Le risposte alle nostre domande sul flusso derivano da quella sinossi. Le seguenti caratteristiche affrontano il flusso e come eseguiamo connessioni al rilevamento e alla previsione di anomalie.
+ Un *algoritmo di streaming *è un algoritmo online con footprint della memoria ridotto. Un algoritmo online prende la decisione sul punto di input indicizzato dal tempo **t** prima di osservare il **(t\$11)-**esimo punto. La memoria ridotta favorisce algoritmi agili che possono produrre risposte con bassa latenza e permettere a un utente di interagire con i dati.
+ Il rispetto dell'ordine imposto dal tempo, come in un algoritmo *online*, è necessario nel rilevamento delle anomalie e nelle previsioni. Se sappiamo già cosa accadrà dopodomani, allora prevedere cosa accadrà domani non è una previsione, ma solo l'interpolazione di un valore mancante sconosciuto. Analogamente, un nuovo prodotto introdotto oggi può essere un'anomalia, ma non necessariamente resterà tale alla fine del prossimo trimestre. 

# Applicazione dell'algoritmo RCF per rilevare le anomalie
<a name="how-does-rcf-detect-anomalies"></a>

Un essere umano può facilmente riconoscere un punto dati che spicca rispetto al resto dei dati. RCF fa la stessa cosa creando una "foresta" di alberi decisionali e quindi monitorando il modo in cui i nuovi punti dati modificano la foresta. 

Un'*anomalia* è un punto dati che distoglie l'attenzione dai punti normali: si pensi all'immagine di un fiore rosso in un campo di fiori gialli. Questo "spostamento dell'attenzione" è codificato nella posizione (prevista) di un albero (ovvero un modello in RCF) che sarebbe occupata dal punto di input. L'idea è creare una foresta in cui ogni albero decisionale ha origine da una partizione dei dati campionati per il training dell'algoritmo. In termini più tecnici, ogni albero crea un tipo specifico di albero di partizionamento dello spazio binario sui campioni. Man mano che Amazon Quick Sight campiona i dati, RCF assegna a ciascun punto dati un punteggio di anomalia. I punteggi maggiori vengono assegnati ai punti dati che appaiono anomali. Il punteggio è, nel ravvicinamento, inversamente proporzionale alla profondità risultante del punto nell'albero. Random Cut Forest assegna un punteggio di anomalia calcolando il punteggio medio di ogni albero costituente e adattando il risultato alla dimensione del campione. 

I voti o punteggi dei diversi modelli vengono aggregati perché ciascun modello è in se stesso un indicatore di previsione debole. Amazon Quick Sight identifica un punto dati come anomalo quando il suo punteggio è significativamente diverso dai punti recenti. Cosa viene definito come un'anomalia varia a seconda dell'applicazione. 

Il paper [Random Cut Forest Based Anomaly Detection On Streams](http://proceedings.mlr.press/v48/guha16.pdf) fornisce diversi esempi di questo rilevamento di anomalie state-of-the-art online (rilevamento di anomalie in serie temporali). RCFsvengono utilizzati su segmenti contigui o «insiemi» di dati, in cui i dati del segmento immediato fungono da contesto per quello più recente. Le versioni precedenti degli algoritmi di rilevamento delle anomalie basati su RCF assegnano un punteggio a un'intera sovrapposizione. L'algoritmo di Amazon Quick Sight fornisce anche una posizione approssimativa dell'anomalia nel contesto esteso corrente. Questa posizione approssimativa può essere utile nello scenario in cui si verifica un ritardo nel rilevare l'anomalia. I ritardi si verificano perché qualsiasi algoritmo deve caratterizzare le "deviazioni precedentemente osservate" come "deviazioni anomale" e questo può richiedere diverso tempo. 

# Applicazione dell'algoritmo RCF per generare le previsioni
<a name="how-does-rcf-generate-forecasts"></a>

Per prevedere il valore successivo in una sequenza di tempo stazionaria, l'algoritmo RCF risponde alla domanda: "Quale sarebbe la conclusione più probabile una volta ottenuto un valore candidato?" L'algoritmo usa un singolo albero nella RCF per eseguire una ricerca del candidato migliore. Vengono aggregati i candidati di alberi diversi, perché ogni albero è in se stesso un indicatore di previsione debole. L'aggregazione permette anche la generazione di errori di quantile. Questo processo viene ripetuto **t** volte per prevedere il **t**-esimo valore in futuro. 

L'algoritmo di Amazon Quick Sight si chiama *BIFOCAL*. Ne usa due RCFs per creare un'architettura CALibrated BI-. FOrest La prima RCF viene usata per escludere le anomalie e fornire una previsione debole, che viene corretta dalla seconda. Nel complesso, questo approccio fornisce foreste significativamente più affidabili rispetto agli altri algoritmi ampiamente disponibili, ad esempio ETS. 

Il numero di parametri nell'algoritmo di previsione di Amazon Quick Sight è notevolmente inferiore rispetto ad altri algoritmi ampiamente disponibili. Questo aspetto lo rende utile immediatamente, senza modifiche da parte dell'utente per un numero elevato di punti dati di serie temporali. Man mano che si accumulano più dati in una particolare serie temporale, le previsioni di Amazon Quick Sight possono adattarsi alle variazioni dei dati e ai cambiamenti di modello. Per le serie temporali che mostrano tendenze, il rilevamento delle tendenze viene eseguito innanzitutto per rendere le serie stazionarie. La previsione della sequenza stazionaria viene prevista di nuovo con la tendenza. 

Poiché l'algoritmo si basa su un algoritmo online efficiente (RCF), può supportare query di simulazione interattive. In queste query alcune delle previsioni possono essere alterate e considerate ipotetiche per fornire previsioni condizionali. Da qui deriva la possibilità di esplorare scenari ipotetici durante l'analisi. 

# Riferimenti per machine learning e RCF
<a name="learn-more-about-machine-learning-and-rcf"></a>

Per ulteriori informazioni su Machine Learning e su questo algoritmo, suggeriamo di consultare le risorse seguenti:
+ L'articolo [Robust Random Cut Forest (RRCF): A No Math Explanation](https://www.linkedin.com/pulse/robust-random-cut-forest-rrcf-math-explanation-logan-wilt/) offre una descrizione chiara senza equazioni matematiche. 
+ Il libro [*The Elements of Statistical Learning: Data Mining, Inference, and Prediction*, seconda edizione (Springer Series in Statistics)](https://www.amazon.com/Elements-Statistical-Learning-Prediction-Statistics/dp/0387848576) offre nozioni di base complete sul machine learning. 
+ [http://proceedings.mlr.press/v48/guha16.pdf](http://proceedings.mlr.press/v48/guha16.pdf), è un whitepaper accademico che analizza gli aspetti tecnici del rilevamento e della previsione delle anomalie e ne fornisce degli esempi. 

Un approccio diverso a RCF appare in altri AWS servizi. Se desideri ottenere maggiori informazioni su come RCF viene utilizzato in altri servizi, consulta quanto segue:
+ *Servizio gestito Amazon per Apache Flink [Riferimento SQL: [RANDOM\$1CUT\$1FOREST e RANDOM\$1CUT\$1FOREST\$1WITH\$1EXPLANATION](https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest.html)](https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest-with-explanation.html)*
+ *Guida per SageMaker sviluppatori Amazon:* [algoritmo Random Cut Forest (RCF)](https://docs.aws.amazon.com/sagemaker/latest/dg/randomcutforest.html). Questo approccio viene descritto anche in [The Random Cut Forest Algorithm](https://freecontent.manning.com/the-randomcutforest-algorithm/), un capitolo di [Machine Learning for Business](https://www.amazon.com/Machine-Learning-Business-Doug-Hudgeon/dp/1617295833/ref=sr_1_3) (ottobre 2018). 