IP Insights - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

IP Insights

Amazon SageMaker AI IP Insights è un algoritmo di apprendimento senza supervisione che apprende i modelli di utilizzo per gli indirizzi IPv4. È concepito per acquisire associazioni tra indirizzi IPv4 e varie entità, come ID utente o numeri di account. Puoi ad esempio utilizzarlo per identificare un utente che tenta di accedere a un servizio Web da un indirizzo IP anomalo oppure puoi usarlo per identificare un account che sta tentando di creare risorse di calcolo da un indirizzo IP insolito. I modelli IP Insight possono essere ospitati in un endpoint per effettuare previsioni in tempo reale o essere utilizzati per l'elaborazione di trasformazioni in batch.

SageMaker AI IP Insights acquisisce i dati storici come coppie (entità-indirizzo IPv4) e apprende i modelli di utilizzo IP di ciascuna entità. Quando viene effettuata una query con un evento (entità, indirizzo IPv4), un modello SageMaker AI IP Insights restituisce un punteggio che indica quanto anomalo sia il pattern dell’evento. Ad esempio, quando un utente tenta di accedere da un indirizzo IP, se il punteggio di IP Insights è sufficientemente alto, un server di accesso Web può decidere di attivare un sistema di autenticazione a più fattori. Nelle soluzioni più avanzate, puoi includere il punteggio di IP Insights in un altro modello di Machine Learning. Ad esempio, puoi combinare il punteggio IP Insight con altre caratteristiche per classificare i risultati di un altro sistema di sicurezza, come quelli di Amazon GuardDuty.

L’algoritmo SageMaker AI IP Insights può anche apprendere le rappresentazioni vettoriali di indirizzi IP, note come embedding. Puoi utilizzare gli incorporamenti con codifica vettoriale come caratteristiche nelle attività di Machine Learning downstream che utilizzano le informazioni osservate negli indirizzi IP. Ad esempio, è possibile utilizzarli in attività quali la valutazione delle somiglianze tra gli indirizzi IP nelle attività di visualizzazione e cluster.

Interfaccia di input/output per l'algoritmo IP Insights

Addestramento e convalida

L’algoritmo SageMaker AI IP Insights supporta i canali di dati di addestramento e convalida. Il canale di convalida opzionale viene utilizzato per calcolare un punteggio area-under-curve (AUC) su una strategia di esempio negativo predefinita. Il parametro AUC convalida il modo in cui il modello distingue gli esempi positivi e negativi. I tipi di contenuto dei dati di addestramento e convalida devono essere nel formato text/csv. La prima colonna dei dati CSV è una stringa opaca che fornisce un identificatore univoco per l'entità. La seconda colonna è un indirizzo IPv4 in notazione con separatore decimale. IP Insights attualmente supporta solo la modalità File. Per maggiori informazioni ed esempi, consulta Formati di dati di addestramento Insights IP.

Inferenza

Per inferenza, l'algoritmo IP Insights supporta i tipi di contenuti di dati text/csv, application/json e application/jsonlines. Per ulteriori informazioni sui formati di dati comuni per l’inferenza forniti da SageMaker AI, consulta Formati di dati comuni per l’inferenza. L'inferenza di IP Insights restituisce l'output formattato come application/json o application/jsonlines. Ogni record nei dati di output contiene il dot_product (punteggio di compatibilità) corrispondente per ogni punto di dati di input. Per maggiori informazioni ed esempi, consulta Formati di dati di inferenza di IP Insights.

Raccomandazione istanza EC2 per l'algoritmo IP Insights

L’algoritmo SageMaker AI IP Insights può essere eseguito su istanze sia GPU che CPU. Per i processi di addestramento, consigliamo di utilizzare le istanze GPU. Tuttavia, per determinati carichi di lavoro con set di dati di addestramento di grandi dimensioni, le istanze CPU distribuite potrebbero ridurre i costi di addestramento. Per l'inferenza, consigliamo di utilizzare le istanze CPU. IP Insights supporta le famiglie di GPU P2, P3, G4dn e G5.

Istanze GPU per l'algoritmo IP Insights

IP Insights supporta tutte le GPU disponibili. Se è necessario velocizzare l’addestramento, consigliamo di iniziare con una singola istanza GPU, ad esempio ml.p3.2xlarge, e quindi di passare a un ambiente con più GPU, come ml.p3.8xlarge e ml.p3.16xlarge. Le diverse GPU si dividono automaticamente i mini batch dei dati di addestramento. Se passi da una GPU a più GPU, il mini_batch_size viene diviso equamente tra il numero di GPU utilizzate. Puoi aumentare il valore del mini_batch_size per compensare.

Istanze CPU per l'algoritmo IP Insights

Il tipo di istanza CPU che consigliamo dipende in gran parte dalla memoria disponibile dell'istanza e dalla dimensione del modello. La dimensione del modello è determinata da due iperparametri: vector_dim e num_entity_vectors. La dimensione massima del modello supportata è 8 GB. Nella tabella seguente sono elencati tipi generici di istanze EC2 che verranno distribuiti in base a questi parametri di input per varie dimensioni del modello. Nella tabella 1, il valore per vector_dim nell'intervallo della prima colonna compreso tra 32 e 2048 e i valori per num_entity_vectors nell'intervallo della prima riga compreso tra 10.000 e 50.000.000.

vector_dim \ num_entity_vectors. 10.000 50.000 100.000 500.000 1.000.000 5.000.000 10.000.000 50.000.000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

I valori degli iperparametri mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate influisce anche sulla quantità di memoria richiesta. Se questi valori sono elevati, potrebbe essere necessario utilizzare un tipo di istanza più grande del normale.

Notebook di esempio di IP Insights

Per un notebook di esempio che mostra come addestrare l’algoritmo SageMaker AI IP Insights e utilizzarlo per eseguire le inferenze, consulta Introduzione all’algoritmo SageMaker AI IP Insights. Per istruzioni su come creare e accedere alle istanze del notebook Jupyter che puoi utilizzare per eseguire l’esempio in SageMaker AI, consulta Istanze SageMaker per notebook Amazon. Dopo aver creato un’istanza del notebook, scegli la scheda Esempi di SageMaker AI per visualizzare un elenco di tutti gli esempi di SageMaker AI. Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.