Quand utiliser Athena ? - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Quand utiliser Athena ?

Les services de requête tels qu'Amazon Athena, les entrepôts de données comme Amazon Redshift et les infrastructures de traitement de données sophistiquées comme Amazon EMR répondent tous à différents besoins et cas d'utilisation. Les indications suivantes peuvent vous aider à choisir un ou plusieurs services en fonction de vos besoins.

Amazon Athena

Athena vous aide à analyser les données non structurées, semi-structurées et structurées, stockées dans Simple Storage Service (Amazon S3). Par exemple, des formats de données CSV ou JSON, ou des formats en colonnes, tels qu'Apache Parquet et Apache ORC. Vous pouvez utiliser Athena pour exécuter des requêtes ad hoc en utilisant ANSI SQL, sans avoir besoin d'agréger ou de charger les données dans Athena.

Athena s'intègre à Amazon QuickSight pour faciliter la visualisation des données. Vous pouvez utiliser Athena pour générer des rapports ou explorer les données à l'aide d'outils de business intelligence ou de clients SQL, connectés via un pilote JDBC ou ODBC. Pour plus d'informations, consultez What is Amazon QuickSight dans le guide de QuickSight l'utilisateur Amazon etConnectez-vous à Amazon Athena avec les pilotes ODBC et JDBC.

Athena s'intègre au AWS Glue Data Catalog, qui propose un stockage de métadonnées permanent pour vos données dans Amazon S3. Cela vous permet de créer des tables et de demander des données dans Athena sur la base d'un magasin de métadonnées central disponible sur votre compte Amazon Web Services et intégré aux fonctionnalités ETL et de découverte de données de. AWS Glue Pour plus d'informations, consultez AWS Glue Data Catalog À utiliser pour vous connecter à vos données et Présentation de AWS Glue dans le Guide du développeur AWS Glue .

Amazon Athena facilite l'exécution de requêtes interactives sur des données dans Simple Storage Service (Amazon S3) sans avoir à formater les données ni à gérer l'infrastructure. Par exemple, Athena est utile si vous souhaitez exécuter une requête rapide sur les journaux Web pour résoudre un problème de performances sur votre site. Avec Athena, vous pouvez commencer rapidement : il vous suffit de définir une table pour vos données et de commencer à interroger avec SQL standard.

Vous devez utiliser Amazon Athena si vous souhaitez exécuter des requêtes SQL ad hoc interactives sur des données sur Simple Storage Service (Amazon S3), sans avoir à gérer d'infrastructure ou de clusters. Amazon Athena offre le moyen le plus simple d'exécuter des requêtes ad hoc pour des données dans Simple Storage Service (Amazon S3) sans avoir besoin de configurer ou de gérer aucun serveur.

Pour une liste des éléments Services AWS qu'Athena utilise ou auxquels elle s'intègre, consultez. Service AWS intégrations avec Athena

SageMaker Studio unifié

Amazon SageMaker Unified Studio simplifie l'utilisation d'Amazon Athena et Amazon Redshift pour exécuter des requêtes SageMaker SQL sur les données Lakehouse. Avec Unified Studio, vous pouvez développer des requêtes SQL, utiliser les résultats des requêtes et collaborer avec votre équipe via un environnement de bloc-notes intégré. Vous pouvez également utiliser le SQL génératif Amazon Q pour générer du code SQL à partir d'une saisie en langage naturel. Pour en savoir plus, consultez SQL Analytics dans le guide de l'utilisateur d' SageMaker Unified Studio.

Amazon EMR

Amazon EMR rend simple et rentable l'exécution de cadres de traitement hautement distribués tels que Hadoop, Spark et Presto par rapport aux déploiements sur site. Amazon EMR est flexible : vous pouvez exécuter des applications et du code personnalisés, et définir des paramètres de calcul, de mémoire, de stockage et d'application spécifiques pour optimiser vos besoins analytiques.

Outre l'exécution de requêtes SQL, Amazon EMR peut exécuter une grande variété de tâches de traitement de données en mode scale-out (évolutivité horizontale) pour des applications telles que le machine learning, l'analytique de graphes, la transformation de données, le streaming de données et pratiquement tout ce que vous pouvez coder. Vous devriez utiliser Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des jeux de données extrêmement volumineux avec les derniers cadres de traitement big data tels que Spark, Hadoop, Presto ou Hbase. Amazon EMR vous donne le contrôle total de la configuration de vos clusters et des logiciels installés sur ceux-ci.

Vous pouvez utiliser Amazon Athena pour interroger les données que vous traitez à l'aide d'Amazon EMR. Amazon Athena prend en charge la plupart des mêmes formats de données qu'Amazon EMR. Le catalogue de données d'Athena est compatible avec les metastores Hive. Si vous utilisez EMR et que vous possédez déjà un metastore Hive, vous pouvez exécuter vos instructions DDL sur Amazon Athena et interroger vos données immédiatement sans affecter vos tâches Amazon EMR.

Amazon Redshift

Un entrepôt de données comme Amazon Redshift est votre meilleur choix lorsque vous devez rassembler des données provenant de nombreuses sources différentes (comme les systèmes d'inventaire, les systèmes financiers et les systèmes de vente au détail) dans un format commun et les stocker pendant de longues périodes. Si vous souhaitez créer des rapports métier sophistiqués à partir de données historiques, un entrepôt de données tel qu'Amazon Redshift est le meilleur choix. Le moteur de requête d'Amazon Redshift a été optimisé pour fonctionner particulièrement bien sur l'exécution de requêtes complexes qui rejoignent un grand nombre de tables de bases de données très volumineuses. Lorsque vous devez exécuter des requêtes sur des données hautement structurées avec de nombreuses jointures sur de nombreuses tables très volumineuses, choisissez Amazon Redshift.

Pour plus d'informations sur le moment où il convient d'utiliser Athena, consultez les ressources suivantes :