Input/Output Interfaccia per l'algoritmo IP Insights Raccomandazione istanza EC2 per l'algoritmo IP Insights Notebook di esempio

IP Insights

Amazon SageMaker AI IP Insights è un algoritmo di apprendimento non supervisionato che apprende i modelli di utilizzo degli indirizzi IPv4. È concepito per acquisire associazioni tra indirizzi IPv4 e varie entità, come ID utente o numeri di account. Puoi ad esempio utilizzarlo per identificare un utente che tenta di accedere a un servizio Web da un indirizzo IP anomalo oppure puoi usarlo per identificare un account che sta tentando di creare risorse di calcolo da un indirizzo IP insolito. I modelli IP Insight possono essere ospitati in un endpoint per effettuare previsioni in tempo reale o essere utilizzati per l'elaborazione di trasformazioni in batch.

SageMaker AI IP Insights acquisisce i dati storici come coppie (entità, indirizzo IPv4) e apprende i modelli di utilizzo dell'IP di ciascuna entità. Quando viene interrogato con un evento (entità, indirizzo IPv4), un modello SageMaker AI IP Insights restituisce un punteggio che deduce l'anomalia del pattern dell'evento. Ad esempio, quando un utente tenta di accedere da un indirizzo IP, se il punteggio di IP Insights è sufficientemente alto, un server di accesso Web può decidere di attivare un sistema di autenticazione a più fattori. Nelle soluzioni più avanzate, puoi includere il punteggio di IP Insights in un altro modello di Machine Learning. Ad esempio, puoi combinare il punteggio IP Insight con altre funzionalità per classificare i risultati di un altro sistema di sicurezza, come quelli di Amazon GuardDuty.

L'algoritmo SageMaker AI IP Insights può anche apprendere le rappresentazioni vettoriali degli indirizzi IP, note come incorporamenti. Puoi utilizzare gli incorporamenti con codifica vettoriale come caratteristiche nelle attività di Machine Learning downstream che utilizzano le informazioni osservate negli indirizzi IP. Ad esempio, è possibile utilizzarli in attività quali la valutazione delle somiglianze tra gli indirizzi IP nelle attività di visualizzazione e cluster.

Argomenti

Input/Output Interfaccia per l'algoritmo IP Insights

Addestramento e convalida

L'algoritmo SageMaker AI IP Insights supporta i canali di dati di addestramento e convalida. Il canale di convalida opzionale viene utilizzato per calcolare un punteggio area-under-curve (AUC) su una strategia di esempio negativo predefinita. Il parametro AUC convalida il modo in cui il modello distingue gli esempi positivi e negativi. I tipi di contenuto dei dati di addestramento e convalida devono essere nel formato text/csv. La prima colonna dei dati CSV è una stringa opaca che fornisce un identificatore univoco per l'entità. La seconda colonna è un indirizzo IPv4 in notazione con separatore decimale. IP Insights attualmente supporta solo la modalità File. Per maggiori informazioni ed esempi, consulta Formati di dati di addestramento Insights IP.

Inferenza

Per inferenza, l'algoritmo IP Insights supporta i tipi di contenuti di dati text/csv, application/json e application/jsonlines. Per ulteriori informazioni sui formati di dati comuni per l'inferenza forniti dall' SageMaker IA, vedere. Formati di dati comuni per l’inferenza L'inferenza di IP Insights restituisce l'output formattato come application/json o application/jsonlines. Ogni record nei dati di output contiene il dot_product (punteggio di compatibilità) corrispondente per ogni punto di dati di input. Per maggiori informazioni ed esempi, consulta Formati di dati di inferenza di IP Insights.

Raccomandazione istanza EC2 per l'algoritmo IP Insights

L'algoritmo SageMaker AI IP Insights può essere eseguito sia su istanze GPU che CPU. Per i processi di addestramento, consigliamo di utilizzare le istanze GPU. Tuttavia, per determinati carichi di lavoro con set di dati di addestramento di grandi dimensioni, le istanze CPU distribuite potrebbero ridurre i costi di addestramento. Per l'inferenza, consigliamo di utilizzare le istanze CPU. IP Insights supporta le famiglie di GPU P2, P3, G4dn e G5.

Istanze GPU per l'algoritmo IP Insights

IP Insights supporta tutte le GPU disponibili. Se hai bisogno di velocizzare l'addestramento, ti consigliamo di iniziare con una singola istanza GPU, ad esempio ml.p3.2xlarge, per poi passare a un ambiente multi-GPU, come ml.p3.8xlarge e ml.p3.16xlarge. Multi-GPUs dividono automaticamente i mini batch di dati di allenamento tra loro. Se passi da una GPU a più GPU, il mini_batch_size viene diviso equamente tra il numero di GPU utilizzate. Puoi aumentare il valore del mini_batch_size per compensare.

Istanze CPU per l'algoritmo IP Insights

Il tipo di istanza CPU che consigliamo dipende in gran parte dalla memoria disponibile dell'istanza e dalla dimensione del modello. La dimensione del modello è determinata da due iperparametri: vector_dim e num_entity_vectors. La dimensione massima del modello supportata è 8 GB. Nella tabella seguente sono elencati tipi generici di istanze EC2 che verranno distribuiti in base a questi parametri di input per varie dimensioni del modello. Nella tabella 1, il valore per vector_dim nell'intervallo della prima colonna compreso tra 32 e 2048 e i valori per num_entity_vectors nell'intervallo della prima riga compreso tra 10.000 e 50.000.000.

`vector_dim` \ `num_entity_vectors`.	10.000	50.000	100.000	500.000	1.000.000	5.000.000	10.000.000	50.000.000
`32`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`64`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.2xlarge`
`128`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`256`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`512`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`
`1024`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`2048`	ml.m5.large	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.xlarge`

I valori degli iperparametri mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate influisce anche sulla quantità di memoria richiesta. Se questi valori sono elevati, potrebbe essere necessario utilizzare un tipo di istanza più grande del normale.

Notebook di esempio di IP Insights

Per un taccuino di esempio che mostra come addestrare l'algoritmo SageMaker AI IP Insights ed eseguire inferenze con esso, vedi Introduzione all'algoritmo SageMaker AIIP Insights. Per istruzioni su come creare e accedere alle istanze di notebook Jupyter da utilizzare per eseguire l'esempio in AI, consulta. SageMaker Istanze SageMaker per notebook Amazon Dopo aver creato un'istanza di notebook, scegli la scheda Esempi SageMaker AI per visualizzare un elenco di tutti gli esempi di IA. SageMaker Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Non supervisionato

Come funziona