Nous ne mettons plus à jour le service Amazon Machine Learning et n'acceptons plus de nouveaux utilisateurs pour celui-ci. Cette documentation est disponible pour les utilisateurs existants, mais nous ne la mettons plus à jour. Pour plus d'informations, consultez Qu'est-ce qu'Amazon Machine Learning ?

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Paramètres obligatoires pour l'assistant de création de sources de données

Pour permettre à Amazon ML de se connecter à votre base de données Amazon Redshift et de lire les données en votre nom, vous devez fournir les informations suivantes :

L'Amazon Redshift ClusterIdentifier
Le nom de la base de données Amazon Redshift
Les informations d'identification de la base de données Amazon Redshift (nom d'utilisateur et mot de passe)
Le rôle Amazon ML Amazon Redshift Gestion des identités et des accès AWS (IAM)
La requête SQL Amazon Redshift
(Facultatif) L'emplacement du schéma Amazon ML
L'emplacement intermédiaire d'Amazon S3 (où Amazon ML place les données avant de créer la source de données)

En outre, vous devez vous assurer que les utilisateurs ou les rôles IAM qui créent les sources de données Amazon Redshift (que ce soit par le biais de la console ou de l'action) disposent de CreateDatasourceFromRedshift l'autorisation. iam:PassRole

Amazon Redshift ClusterIdentifier

Utilisez ce paramètre distinguant majuscules et minuscules pour permettre à Amazon ML de trouver votre cluster et de s'y connecter. Vous pouvez obtenir l'identifiant du cluster (nom) sur la console Amazon Redshift. Pour plus d'informations sur les clusters, consultez Amazon Redshift Clusters.

Nom de la base de données Amazon Redshift

Utilisez ce paramètre pour indiquer à Amazon ML quelle base de données du cluster Amazon Redshift contient les données que vous souhaitez utiliser comme source de données.

Informations d'identification de la base de données Amazon Redshift

Utilisez ces paramètres pour spécifier le nom d'utilisateur et le mot de passe de l'utilisateur de base de données Amazon Redshift dans le contexte duquel la requête de sécurité sera exécutée.

Note

Amazon ML a besoin d'un nom d'utilisateur et d'un mot de passe Amazon Redshift pour se connecter à votre base de données Amazon Redshift. Une fois les données déchargées sur Amazon S3, Amazon ML ne réutilise jamais votre mot de passe et ne le stocke jamais.

Amazon ML (rôle Amazon Redshift)

Utilisez ce paramètre pour spécifier le nom du rôle IAM qu'Amazon ML doit utiliser pour configurer les groupes de sécurité pour le cluster Amazon Redshift et la politique de compartiment pour le site de transit Amazon S3.

Si vous ne disposez pas d'un rôle IAM pouvant accéder à Amazon Redshift, Amazon ML peut créer un rôle pour vous. Lorsqu'Amazon ML crée un rôle, il crée et associe une politique gérée par le client à un rôle IAM. La politique créée par Amazon ML accorde à Amazon ML l'autorisation d'accéder uniquement au cluster que vous spécifiez.

Si vous disposez déjà d'un rôle IAM pour accéder à Amazon Redshift, vous pouvez saisir l'ARN du rôle ou choisir le rôle dans la liste déroulante. Les rôles IAM avec accès à Amazon Redshift sont répertoriés en haut de la liste déroulante.

Le rôle IAM doit avoir le contenu suivant :

Pour plus d'informations sur les politiques gérées par le client, consultez la section Politiques gérées par le client dans le guide de l'utilisateur IAM.

Requête SQL Amazon Redshift

Utilisez ce paramètre pour spécifier la requête SQL SELECT qu'Amazon ML exécute sur votre base de données Amazon Redshift afin de sélectionner vos données. Amazon ML utilise l'action Amazon Redshift UNLOAD pour copier en toute sécurité les résultats de votre requête vers un emplacement Amazon S3.

Note

Amazon ML fonctionne mieux lorsque les enregistrements d'entrée sont classés dans un ordre aléatoire (mélangés). Vous pouvez facilement mélanger les résultats de votre requête SQL Amazon Redshift à l'aide de la fonction Amazon Redshift random (). Par exemple, supposons que la requête d'origine est :


 "SELECT col1, col2, … FROM training_table"

Vous pouvez intégrer une réorganisation aléatoire en mettant à jour la requête comme ceci :


 "SELECT col1, col2, … FROM training_table ORDER BY random()"

Emplacement du schéma (facultatif)

Utilisez ce paramètre pour spécifier le chemin Amazon S3 vers votre schéma pour les données Amazon Redshift qu'Amazon ML exportera.

Si vous ne fournissez pas de schéma pour votre source de données, la console Amazon ML crée automatiquement un schéma Amazon ML basé sur le schéma de données de la requête SQL Amazon Redshift. Les schémas Amazon ML contiennent moins de types de données que les schémas Amazon Redshift. Il ne s'agit donc pas d'une conversion individuelle. La console Amazon ML convertit les types de données Amazon Redshift en types de données Amazon ML en utilisant le schéma de conversion suivant.

Types de données Amazon Redshift	Alias Amazon Redshift	Type de données Amazon ML
SMALLINT	INT2	NUMERIC
INTEGER	INT, INT4	NUMERIC
BIGINT	INT8	NUMERIC
DECIMAL	NUMERIC	NUMERIC
REAL	FLOAT4	NUMERIC
DOUBLE PRECISION	FLOAT8, FLOAT	NUMERIC
BOOLEAN	BOOL	BINAIRE
CHAR	CHARACTER, NCHAR, BPCHAR	CATEGORICAL (catégorie)
VARCHAR	CHARACTER VARYING, NVARCHAR, TEXT	TEXT
DATE		TEXT
TIMESTAMP	TIMESTAMP WITHOUT TIME ZONE	TEXT

Pour être converties en types de Binary données Amazon ML, les valeurs des booléens Amazon Redshift présentes dans vos données doivent être compatibles avec les valeurs binaires Amazon ML. Si votre type de données booléen comporte des valeurs non prises en charge, Amazon ML les convertit dans le type de données le plus spécifique possible. Par exemple, si un booléen Amazon Redshift contient les valeurs0, 1 et qu'2Amazon ML convertit le booléen en type de données. Numeric Pour plus d'informations sur les valeurs binaires prises en charge, consultez Utilisation du AttributeType terrain.

Si Amazon ML ne parvient pas à identifier un type de données, sa valeur par défaut est. Text

Une fois qu'Amazon ML a converti le schéma, vous pouvez consulter et corriger les types de données Amazon ML attribués dans l'assistant de création de source de données, et réviser le schéma avant qu'Amazon ML ne crée la source de données.

Emplacement de transit d'Amazon S3

Utilisez ce paramètre pour spécifier le nom de l'emplacement intermédiaire Amazon S3 où Amazon ML stocke les résultats de la requête SQL Amazon Redshift. Après avoir créé la source de données, Amazon ML utilise les données sur le site de transit au lieu de les renvoyer vers Amazon Redshift.

Note

Amazon ML assumant le rôle IAM défini par le rôle Amazon Redshift d'Amazon ML, Amazon ML est autorisé à accéder à tous les objets se trouvant dans l'emplacement de transit Amazon S3 spécifié. C'est pourquoi nous vous recommandons de ne stocker que les fichiers ne contenant pas d'informations sensibles dans l'emplacement intermédiaire Amazon S3. Par exemple, si votre compartiment racine l'ests3://mybucket/, nous vous suggérons de créer un emplacement pour stocker uniquement les fichiers auxquels vous souhaitez qu'Amazon ML accède, tels ques3://mybucket/AmazonMLInput/.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d'une source de données Amazon ML à partir des données d'Amazon Redshift

Création d'une source de données avec Amazon Redshift Data (console)