Amazon Redshift ne prendra plus en charge la création de nouvelles fonctions Python définies par l’utilisateur à compter du 1er novembre 2025. Si vous souhaitez utiliser des fonctions Python définies par l’utilisateur, créez-les avant cette date. Les fonctions Python définies par l’utilisateur existantes continueront de fonctionner normalement. Pour plus d’informations, consultez le billet de blog
Le machine learning pour les novices et les experts
Avec Amazon Redshift, vous pouvez tirer parti des fonctionnalités du machine learning (ML) pour obtenir des informations à partir de vos données, que vous soyez novice ou expert en machine learning. Le machine learning est une fonctionnalité d’Amazon Redshift qui vous permet de créer, d’entraîner et de déployer des modèles de machine learning à l’aide de commandes SQL, sans avoir besoin d’une expertise approfondie en machine learning ou d’une ingénierie de données complexe.
Les sections suivantes vous guident tout au long du processus d’utilisation du machine learning, afin de vous permettre d’exploiter tout le potentiel de vos données avec Amazon Redshift.
Amazon Redshift ML vous permet d'entraîner des modèles avec une seule instruction SQL CREATE MODEL. L'instruction CREATE MODEL crée un modèle qu'Amazon Redshift utilise pour générer des prédictions basées sur un modèle avec des constructions SQL familières.
Amazon Redshift ML est particulièrement utile lorsque vous n'avez pas d'expertise en matière de machine learning, d'outils, de langages, d'algorithmes et d'API. Avec Amazon Redshift ML, vous n'avez pas à effectuer les opérations lourdes et indifférenciées nécessaires à l'intégration d'un service externe de machine learning. Amazon Redshift vous fait gagner du temps pour formater et déplacer les données, gérer les contrôles d'autorisation ou créer des intégrations, des flux de travail et des scripts personnalisés. Vous pouvez facilement utiliser les algorithmes de machine learning les plus populaires et simplifier les besoins en entraînement qui nécessitent une itération fréquente de l'entraînement à la prédiction. Amazon Redshift détermine automatiquement le meilleur algorithme et affine le meilleur modèle correspondant à votre problème. Vous pouvez faire des prédictions à partir du cluster Amazon Redshift sans avoir à déplacer les données en dehors d'Amazon Redshift ni à vous interfacer avec un autre service et à payer pour celui-ci.
Amazon Redshift ML soutient les analystes de données et les scientifiques des données dans l'utilisation du machine learning. Il permet également aux experts du machine learning d'utiliser leurs connaissances pour guider l'instruction CREATE MODEL afin d'utiliser uniquement les aspects qu'ils spécifient. En procédant ainsi, vous pouvez accélérer le temps dont CREATE MODEL a besoin pour trouver le meilleur candidat et/ou améliorer la précision du modèle.
L'instruction CREATE MODEL offre une certaine souplesse dans la façon dont vous pouvez spécifier les paramètres de la tâche d'entraînement. Cette flexibilité permet aux utilisateurs novices ou experts en machine learning de choisir leurs préprocesseurs, algorithmes, types de problèmes ou hyperparamètres préférés. Par exemple, un utilisateur intéressé par le taux de désabonnement peut spécifier dans l'instruction CREATE MODEL que le type de problème est une classification binaire qui fonctionne bien pour le taux de désabonnement. Ensuite, l'instruction CREATE MODEL réduit sa recherche du meilleur modèle à ceux de type classification binaire. Même si l'utilisateur choisit le type de problème, il existe encore de nombreuses options à utiliser avec l'instruction CREATE MODEL. Par exemple, la fonction CREATE MODEL détermine et applique les meilleures transformations de prétraitement et sélectionne les meilleurs réglages d'hyperparamètres.
Amazon Redshift ML facilite l’entraînement en trouvant automatiquement le meilleur modèle grâce à Amazon SageMaker AI Autopilot. En arrière-plan, Amazon SageMaker AI Autopilot entraîne et ajuste automatiquement le meilleur modèle de machine learning en fonction des données fournies. Amazon SageMaker AI Neo compile ensuite le modèle d’entraînement et le rend disponible pour la prédiction dans votre cluster Redshift. Lorsque vous exécutez une requête d'inférence basée sur le machine learning à l'aide d'un modèle entraîné, la requête peut utiliser toutes les capacités de traitement massivement parallèle d'Amazon Redshift. En même temps, la requête peut utiliser une prédiction basée sur le machine learning.
-
Si vous débutez avec le machine learning et que vous avez une connaissance générale des différents aspects de celui-ci, tels que les préprocesseurs, les algorithmes et les hyperparamètres, utilisez l'instruction CREATE MODEL uniquement pour les aspects que vous spécifiez. Vous pouvez alors réduire le temps dont CREATE MODEL a besoin pour trouver le meilleur candidat ou améliorer la précision du modèle. En outre, vous pouvez augmenter la valeur opérationnelle des prédictions en introduisant des connaissances supplémentaires du domaine telles que le type de problème ou l'objectif. Par exemple, dans un scénario de désabonnement client, si le résultat « le client n'est pas actif » est rare, l'objectif F1 est souvent préféré à l'objectif Précision. Étant donné que les modèles à haute précision peuvent prédire « le client est actif » tout le temps, il en résulte une haute précision, mais peu de valeur opérationnelle. Pour plus d’informations sur les objectifs F1, consultez la rubrique AutoMLJobObjective dans la Référence API Amazon SageMaker AI.
Pour plus d'informations sur les options de base de l'instruction CREATE MODEL, consultez CREATE MODEL simple.
-
Si vous êtes un pratiquant avancé du machine learning, vous pouvez spécifier le type de problème et les préprocesseurs pour certaines fonctions (mais pas toutes). Ensuite, le modèle CREATE suit vos suggestions sur les aspects spécifiés. Dans le même temps, CREATE MODEL détecte les meilleurs préprocesseurs pour les fonctions restantes et les meilleurs hyperparamètres. Pour plus d'informations sur la façon de limiter un ou plusieurs aspects du pipeline d'entraînement, consultez CREATE MODEL avec guide de l’utilisateur.
-
Si vous êtes expert en machine learning, vous pouvez prendre le contrôle total de l'entraînement et du réglage des hyperparamètres. L'instruction CREATE MODEL ne cherche pas à déterminer les préprocesseurs, algorithmes et hyperparamètres optimaux, car c'est vous qui faites tous les choix. Pour plus d'informations sur l'utilisation de l'instruction CREATE MODEL avec AUTO OFF, consultez Commande CREATE pour des modèles XGBoost avec AUTO OFF.
-
Si vous êtes ingénieur de données, vous pouvez apporter un modèle XGBoost préentraîné dans Amazon SageMaker AI et l’importer dans Amazon Redshift pour une inférence locale. Grâce à la fonction BYOM (Bring Your Own Model), vous pouvez utiliser un modèle entraîné en dehors d’Amazon Redshift avec Amazon SageMaker AI pour l’inférence locale en base de données dans Amazon Redshift. Amazon Redshift ML prend en charge l'utilisation de BYOM en inférence locale ou distante.
Pour plus d'informations sur l'utilisation de l'instruction CREATE MODEL pour une inférence locale ou distante, consultez Modèle BYOM (Bring Your Own Model) : inférence locale.
Si vous utilisez Amazon Redshift ML, vous pouvez choisir l'une des options suivantes pour entraîner et déployer votre modèle.
-
Types de problèmes, voir CREATE MODEL avec guide de l’utilisateur.
-
Objectifs, voir CREATE MODEL avec guide de l’utilisateur ou Commande CREATE pour des modèles XGBoost avec AUTO OFF.
-
Types de modèles, voir Commande CREATE pour des modèles XGBoost avec AUTO OFF.
-
Préprocesseurs, voir CREATE MODEL avec guide de l’utilisateur.
-
Hyperparamètres, voir Commande CREATE pour des modèles XGBoost avec AUTO OFF.
-
BYOM (Bring Your Own Model), voir Modèle BYOM (Bring Your Own Model) : inférence locale.