Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour celui-ci. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, consultez Qu'est-ce qu'Amazon Machine Learning ?
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Paramètres obligatoires pour l'assistant de création de sources de données
Pour permettre à Amazon ML de se connecter à votre base de données Amazon Redshift et de lire les données en votre nom, vous devez fournir les informations suivantes :
-
L'Amazon Redshift
ClusterIdentifier
-
Le nom de la base de données Amazon Redshift
-
Les informations d'identification de la base de données Amazon Redshift (nom d'utilisateur et mot de passe)
-
Le rôle Amazon ML Amazon Redshift AWS Identity and Access Management (IAM)
-
La requête SQL Amazon Redshift
-
(Facultatif) L'emplacement du schéma Amazon ML
-
L'emplacement intermédiaire d'Amazon S3 (où Amazon ML place les données avant de créer la source de données)
En outre, vous devez vous assurer que les utilisateurs ou les rôles IAM qui créent les sources de données Amazon Redshift (que ce soit par le biais de la console ou de l'action) disposent de CreateDatasourceFromRedshift
l'autorisation. iam:PassRole
- Amazon Redshift
ClusterIdentifier
-
Utilisez ce paramètre distinguant majuscules et minuscules pour permettre à Amazon ML de trouver votre cluster et de s'y connecter. Vous pouvez obtenir l'identifiant du cluster (nom) sur la console Amazon Redshift. Pour plus d'informations sur les clusters, consultez Amazon Redshift Clusters.
- Nom de la base de données Amazon Redshift
-
Utilisez ce paramètre pour indiquer à Amazon ML quelle base de données du cluster Amazon Redshift contient les données que vous souhaitez utiliser comme source de données.
- Informations d'identification de la base de données Amazon Redshift
-
Utilisez ces paramètres pour spécifier le nom d'utilisateur et le mot de passe de l'utilisateur de base de données Amazon Redshift dans le contexte duquel la requête de sécurité sera exécutée.
Note
Amazon ML a besoin d'un nom d'utilisateur et d'un mot de passe Amazon Redshift pour se connecter à votre base de données Amazon Redshift. Une fois les données déchargées sur Amazon S3, Amazon ML ne réutilise jamais votre mot de passe et ne le stocke jamais.
- Amazon ML (rôle Amazon Redshift)
-
Utilisez ce paramètre pour spécifier le nom du rôle IAM qu'Amazon ML doit utiliser pour configurer les groupes de sécurité pour le cluster Amazon Redshift et la politique de compartiment pour le site de transit Amazon S3.
Si vous ne disposez pas d'un rôle IAM pouvant accéder à Amazon Redshift, Amazon ML peut créer un rôle pour vous. Lorsqu'Amazon ML crée un rôle, il crée et associe une politique gérée par le client à un rôle IAM. La politique créée par Amazon ML accorde à Amazon ML l'autorisation d'accéder uniquement au cluster que vous spécifiez.
Si vous disposez déjà d'un rôle IAM pour accéder à Amazon Redshift, vous pouvez saisir l'ARN du rôle ou choisir le rôle dans la liste déroulante. Les rôles IAM avec accès à Amazon Redshift sont répertoriés en haut de la liste déroulante.
Le rôle IAM doit avoir le contenu suivant :
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
123456789012
" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012
:datasource/*" } } }] }Pour plus d'informations sur les politiques gérées par le client, consultez la section Politiques gérées par le client dans le guide de l'utilisateur IAM.
- Requête SQL Amazon Redshift
-
Utilisez ce paramètre pour spécifier la requête SQL SELECT qu'Amazon ML exécute sur votre base de données Amazon Redshift afin de sélectionner vos données. Amazon ML utilise l'action Amazon Redshift UNLOAD pour copier en toute sécurité les résultats de votre requête vers un emplacement Amazon S3.
Note
Amazon ML fonctionne mieux lorsque les enregistrements d'entrée sont classés dans un ordre aléatoire (mélangés). Vous pouvez facilement mélanger les résultats de votre requête SQL Amazon Redshift à l'aide de la fonction Amazon Redshift random (). Par exemple, supposons que la requête d'origine est :
"SELECT col1, col2, … FROM training_table"
Vous pouvez intégrer une réorganisation aléatoire en mettant à jour la requête comme ceci :
"SELECT col1, col2, … FROM training_table ORDER BY random()"
- Emplacement du schéma (facultatif)
-
Utilisez ce paramètre pour spécifier le chemin Amazon S3 vers votre schéma pour les données Amazon Redshift qu'Amazon ML exportera.
Si vous ne fournissez pas de schéma pour votre source de données, la console Amazon ML crée automatiquement un schéma Amazon ML basé sur le schéma de données de la requête SQL Amazon Redshift. Les schémas Amazon ML contiennent moins de types de données que les schémas Amazon Redshift. Il ne s'agit donc pas d'une conversion. one-to-one La console Amazon ML convertit les types de données Amazon Redshift en types de données Amazon ML en utilisant le schéma de conversion suivant.
Types de données Amazon Redshift Alias Amazon Redshift Type de données Amazon ML SMALLINT INT2 NUMERIC INTEGER ENTIER, INT4 NUMERIC BIGINT INT8 NUMERIC DECIMAL NUMERIC NUMERIC REAL FLOAT4 NUMERIC DOUBLE PRECISION FLOAT8, FLOTTEUR NUMERIC BOOLEAN BOOL BINAIRE CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL (catégorie) VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT DATE TEXT TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT Pour être converties en types de
Binary
données Amazon ML, les valeurs des booléens Amazon Redshift présentes dans vos données doivent être compatibles avec les valeurs binaires Amazon ML. Si votre type de données booléen comporte des valeurs non prises en charge, Amazon ML les convertit dans le type de données le plus spécifique possible. Par exemple, si un booléen Amazon Redshift contient les valeurs0
,1
et qu'2
Amazon ML convertit le booléen en type de données.Numeric
Pour plus d'informations sur les valeurs binaires prises en charge, consultez Utilisation du AttributeType terrain.Si Amazon ML ne parvient pas à identifier un type de données, sa valeur par défaut est.
Text
Une fois qu'Amazon ML a converti le schéma, vous pouvez consulter et corriger les types de données Amazon ML attribués dans l'assistant de création de source de données, et réviser le schéma avant qu'Amazon ML ne crée la source de données.
- Emplacement de transit d'Amazon S3
-
Utilisez ce paramètre pour spécifier le nom de l'emplacement intermédiaire Amazon S3 où Amazon ML stocke les résultats de la requête SQL Amazon Redshift. Après avoir créé la source de données, Amazon ML utilise les données sur le site de transit au lieu de les renvoyer vers Amazon Redshift.
Note
Amazon ML assumant le rôle IAM défini par le rôle Amazon Redshift d'Amazon ML, Amazon ML est autorisé à accéder à tous les objets se trouvant dans l'emplacement de transit Amazon S3 spécifié. C'est pourquoi nous vous recommandons de ne stocker que les fichiers ne contenant pas d'informations sensibles dans l'emplacement intermédiaire Amazon S3. Par exemple, si votre compartiment racine l'est
s3://mybucket/
, nous vous suggérons de créer un emplacement pour stocker uniquement les fichiers auxquels vous souhaitez qu'Amazon ML accède, tels ques3://mybucket/AmazonMLInput/
.