Parametri obbligatori per la procedura guidata Crea origine dati - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorniamo più. Per ulteriori informazioni, consulta Cos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Parametri obbligatori per la procedura guidata Crea origine dati

Per consentire ad Amazon ML di connettersi al tuo database Amazon Redshift e leggere i dati per tuo conto, devi fornire quanto segue:

  • Amazon Redshift ClusterIdentifier

  • Il nome del database Amazon Redshift

  • Le credenziali del database Amazon Redshift (nome utente e password)

  • Il ruolo di Amazon ML Amazon Redshift AWS Identity and Access Management (IAM)

  • La query SQL di Amazon Redshift

  • (Facoltativo) La posizione dello schema Amazon ML

  • La posizione di staging di Amazon S3 (dove Amazon ML inserisce i dati prima di creare l'origine dati)

Inoltre, devi assicurarti che gli utenti o i ruoli IAM che creano le origini dati Amazon Redshift (tramite la console o utilizzando l'CreateDatasourceFromRedshiftazione) dispongano dell'autorizzazione. iam:PassRole

Amazon Redshift ClusterIdentifier

Utilizza questo parametro con distinzione tra maiuscole e minuscole per consentire ad Amazon ML di trovare e connettersi al tuo cluster. Puoi ottenere l'identificatore (nome) del cluster dalla console Amazon Redshift. Per ulteriori informazioni sui cluster, consulta Amazon Redshift Clusters.

Nome del database Amazon Redshift

Utilizza questo parametro per indicare ad Amazon ML quale database nel cluster Amazon Redshift contiene i dati che desideri utilizzare come origine dati.

Credenziali del database Amazon Redshift

Utilizza questi parametri per specificare il nome utente e la password dell'utente del database Amazon Redshift nel cui contesto verrà eseguita la query di sicurezza.

Nota

Amazon ML richiede un nome utente e una password Amazon Redshift per connettersi al database Amazon Redshift. Dopo aver scaricato i dati su Amazon S3, Amazon ML non riutilizza mai la password né la memorizza.

Ruolo di Amazon ML in Amazon Redshift

Utilizza questo parametro per specificare il nome del ruolo IAM che Amazon ML deve utilizzare per configurare i gruppi di sicurezza per il cluster Amazon Redshift e la bucket policy per la posizione temporanea di Amazon S3.

Se non disponi di un ruolo IAM in grado di accedere ad Amazon Redshift, Amazon ML può creare un ruolo per te. Quando Amazon ML crea un ruolo, crea e associa una policy gestita dal cliente a un ruolo IAM. La politica creata da Amazon ML concede ad Amazon ML l'autorizzazione ad accedere solo al cluster specificato.

Se disponi già di un ruolo IAM per accedere ad Amazon Redshift, puoi digitare l'ARN del ruolo o scegliere il ruolo dall'elenco a discesa. I ruoli IAM con accesso ad Amazon Redshift sono elencati nella parte superiore del menu a discesa.

Il ruolo IAM deve avere i seguenti contenuti:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "123456789012" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012:datasource/*" } } }] }

Per ulteriori informazioni sulle Customer Managed Policies, consulta Customer Managed Policies nella IAM User Guide.

Query SQL su Amazon Redshift

Utilizza questo parametro per specificare la query SQL SELECT che Amazon ML esegue sul tuo database Amazon Redshift per selezionare i tuoi dati. Amazon ML utilizza l'azione Amazon Redshift UNLOAD per copiare in modo sicuro i risultati della query in una posizione Amazon S3.

Nota

Amazon ML funziona al meglio quando i record di input sono in ordine casuale (mescolati). Puoi mescolare facilmente i risultati della tua query SQL su Amazon Redshift utilizzando la funzione Amazon Redshift random (). Ad esempio, supponiamo che questa sia la query originale:

"SELECT col1, col2, … FROM training_table"

È possibile incorporare un mescolamento casuale aggiornando la query in questo modo:

"SELECT col1, col2, … FROM training_table ORDER BY random()"
Posizione
Posizione dello schema (facoltativa)

Utilizza questo parametro per specificare il percorso di Amazon S3 verso lo schema per i dati Amazon Redshift che Amazon ML esporterà.

Se non fornisci uno schema per la tua origine dati, la console Amazon ML crea automaticamente uno schema Amazon ML basato sullo schema di dati della query SQL di Amazon Redshift. Gli schemi Amazon ML hanno meno tipi di dati rispetto agli schemi Amazon Redshift, quindi non si tratta di una conversione. one-to-one La console Amazon ML converte i tipi di dati Amazon Redshift in tipi di dati Amazon ML utilizzando il seguente schema di conversione.

Tipi di dati Amazon Redshift Alias di Amazon Redshift Tipo di dati Amazon ML
SMALLINT INT2 NUMERIC
INTEGER INT, INT4 NUMERIC
BIGINT INT8 NUMERIC
DECIMAL NUMERIC NUMERIC
REAL FLOAT4 NUMERIC
DOUBLE PRECISION FLOAT8, GALLEGGIANTE NUMERIC
BOOLEAN BOOL BINARY
CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL
VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT
DATE TEXT
TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT

Per essere convertiti in tipi di Binary dati Amazon ML, i valori di Amazon Redshift Booleans nei dati devono essere valori Amazon ML Binary supportati. Se il tuo tipo di dati booleano ha valori non supportati, Amazon ML li converte nel tipo di dati più specifico possibile. Ad esempio, se un booleano Amazon Redshift ha i valori 0 1 e 2 Amazon ML converte il booleano in un tipo di dati. Numeric Per ulteriori informazioni sui valori binari supportati, consultare Utilizzo del campo AttributeType .

Se Amazon ML non è in grado di determinare un tipo di dati, per impostazione predefinita lo è. Text

Dopo che Amazon ML ha convertito lo schema, puoi esaminare e correggere i tipi di dati Amazon ML assegnati nella procedura guidata Create Datasource e modificare lo schema prima che Amazon ML crei l'origine dati.

Ubicazione temporanea di Amazon S3

Utilizza questo parametro per specificare il nome della posizione temporanea di Amazon S3 in cui Amazon ML archivia i risultati della query SQL di Amazon Redshift. Dopo aver creato l'origine dati, Amazon ML utilizza i dati nella posizione di staging anziché tornare ad Amazon Redshift.

Nota

Poiché Amazon ML assume il ruolo IAM definito dal ruolo Amazon ML Amazon Redshift, Amazon ML dispone delle autorizzazioni per accedere a qualsiasi oggetto nella posizione di staging Amazon S3 specificata. Per questo motivo, ti consigliamo di archiviare solo i file che non contengono informazioni sensibili nella posizione temporanea di Amazon S3. Ad esempio, se il tuo bucket root ès3://mybucket/, ti suggeriamo di creare una posizione in cui archiviare solo i file a cui desideri che Amazon ML acceda, ad s3://mybucket/AmazonMLInput/ esempio.