Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorniamo più. Per ulteriori informazioni, consulta Cos'è Amazon Machine Learning.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Parametri obbligatori per la procedura guidata Crea origine dati
Per consentire ad Amazon ML di connettersi al tuo database Amazon Redshift e leggere i dati per tuo conto, devi fornire quanto segue:
-
Amazon Redshift
ClusterIdentifier
-
Il nome del database Amazon Redshift
-
Le credenziali del database Amazon Redshift (nome utente e password)
-
Il ruolo di Amazon ML Amazon Redshift AWS Identity and Access Management (IAM)
-
La query SQL di Amazon Redshift
-
(Facoltativo) La posizione dello schema Amazon ML
-
La posizione di staging di Amazon S3 (dove Amazon ML inserisce i dati prima di creare l'origine dati)
Inoltre, devi assicurarti che gli utenti o i ruoli IAM che creano le origini dati Amazon Redshift (tramite la console o utilizzando l'CreateDatasourceFromRedshift
azione) dispongano dell'autorizzazione. iam:PassRole
- Amazon Redshift
ClusterIdentifier
-
Utilizza questo parametro con distinzione tra maiuscole e minuscole per consentire ad Amazon ML di trovare e connettersi al tuo cluster. Puoi ottenere l'identificatore (nome) del cluster dalla console Amazon Redshift. Per ulteriori informazioni sui cluster, consulta Amazon Redshift Clusters.
- Nome del database Amazon Redshift
-
Utilizza questo parametro per indicare ad Amazon ML quale database nel cluster Amazon Redshift contiene i dati che desideri utilizzare come origine dati.
- Credenziali del database Amazon Redshift
-
Utilizza questi parametri per specificare il nome utente e la password dell'utente del database Amazon Redshift nel cui contesto verrà eseguita la query di sicurezza.
Nota
Amazon ML richiede un nome utente e una password Amazon Redshift per connettersi al database Amazon Redshift. Dopo aver scaricato i dati su Amazon S3, Amazon ML non riutilizza mai la password né la memorizza.
- Ruolo di Amazon ML in Amazon Redshift
-
Utilizza questo parametro per specificare il nome del ruolo IAM che Amazon ML deve utilizzare per configurare i gruppi di sicurezza per il cluster Amazon Redshift e la bucket policy per la posizione temporanea di Amazon S3.
Se non disponi di un ruolo IAM in grado di accedere ad Amazon Redshift, Amazon ML può creare un ruolo per te. Quando Amazon ML crea un ruolo, crea e associa una policy gestita dal cliente a un ruolo IAM. La politica creata da Amazon ML concede ad Amazon ML l'autorizzazione ad accedere solo al cluster specificato.
Se disponi già di un ruolo IAM per accedere ad Amazon Redshift, puoi digitare l'ARN del ruolo o scegliere il ruolo dall'elenco a discesa. I ruoli IAM con accesso ad Amazon Redshift sono elencati nella parte superiore del menu a discesa.
Il ruolo IAM deve avere i seguenti contenuti:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
123456789012
" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012
:datasource/*" } } }] }Per ulteriori informazioni sulle Customer Managed Policies, consulta Customer Managed Policies nella IAM User Guide.
- Query SQL su Amazon Redshift
-
Utilizza questo parametro per specificare la query SQL SELECT che Amazon ML esegue sul tuo database Amazon Redshift per selezionare i tuoi dati. Amazon ML utilizza l'azione Amazon Redshift UNLOAD per copiare in modo sicuro i risultati della query in una posizione Amazon S3.
Nota
Amazon ML funziona al meglio quando i record di input sono in ordine casuale (mescolati). Puoi mescolare facilmente i risultati della tua query SQL su Amazon Redshift utilizzando la funzione Amazon Redshift random (). Ad esempio, supponiamo che questa sia la query originale:
"SELECT col1, col2, … FROM training_table"
È possibile incorporare un mescolamento casuale aggiornando la query in questo modo:
"SELECT col1, col2, … FROM training_table ORDER BY random()"
- PosizionePosizione dello schema (facoltativa)
-
Utilizza questo parametro per specificare il percorso di Amazon S3 verso lo schema per i dati Amazon Redshift che Amazon ML esporterà.
Se non fornisci uno schema per la tua origine dati, la console Amazon ML crea automaticamente uno schema Amazon ML basato sullo schema di dati della query SQL di Amazon Redshift. Gli schemi Amazon ML hanno meno tipi di dati rispetto agli schemi Amazon Redshift, quindi non si tratta di una conversione. one-to-one La console Amazon ML converte i tipi di dati Amazon Redshift in tipi di dati Amazon ML utilizzando il seguente schema di conversione.
Tipi di dati Amazon Redshift Alias di Amazon Redshift Tipo di dati Amazon ML SMALLINT INT2 NUMERIC INTEGER INT, INT4 NUMERIC BIGINT INT8 NUMERIC DECIMAL NUMERIC NUMERIC REAL FLOAT4 NUMERIC DOUBLE PRECISION FLOAT8, GALLEGGIANTE NUMERIC BOOLEAN BOOL BINARY CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT DATE TEXT TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT Per essere convertiti in tipi di
Binary
dati Amazon ML, i valori di Amazon Redshift Booleans nei dati devono essere valori Amazon ML Binary supportati. Se il tuo tipo di dati booleano ha valori non supportati, Amazon ML li converte nel tipo di dati più specifico possibile. Ad esempio, se un booleano Amazon Redshift ha i valori0
1
e2
Amazon ML converte il booleano in un tipo di dati.Numeric
Per ulteriori informazioni sui valori binari supportati, consultare Utilizzo del campo AttributeType .Se Amazon ML non è in grado di determinare un tipo di dati, per impostazione predefinita lo è.
Text
Dopo che Amazon ML ha convertito lo schema, puoi esaminare e correggere i tipi di dati Amazon ML assegnati nella procedura guidata Create Datasource e modificare lo schema prima che Amazon ML crei l'origine dati.
- Ubicazione temporanea di Amazon S3
-
Utilizza questo parametro per specificare il nome della posizione temporanea di Amazon S3 in cui Amazon ML archivia i risultati della query SQL di Amazon Redshift. Dopo aver creato l'origine dati, Amazon ML utilizza i dati nella posizione di staging anziché tornare ad Amazon Redshift.
Nota
Poiché Amazon ML assume il ruolo IAM definito dal ruolo Amazon ML Amazon Redshift, Amazon ML dispone delle autorizzazioni per accedere a qualsiasi oggetto nella posizione di staging Amazon S3 specificata. Per questo motivo, ti consigliamo di archiviare solo i file che non contengono informazioni sensibili nella posizione temporanea di Amazon S3. Ad esempio, se il tuo bucket root è
s3://mybucket/
, ti suggeriamo di creare una posizione in cui archiviare solo i file a cui desideri che Amazon ML acceda, ads3://mybucket/AmazonMLInput/
esempio.