Bonnes pratiques d’utilisation des données semi-structurées Concepts pour l’utilisation des types de données SUPER Considérations relatives à l’utilisation de données de type SUPER

Semi-structured données dans Amazon Redshift

En utilisant la prise en charge des données semi-structurées dans Amazon Redshift, vous pouvez ingérer et stocker des données semi-structurées dans vos entrepôts des données Amazon Redshift. En utilisant le type de données SUPER et le langage PartiQL, Amazon Redshift étend les capacités de l’entrepôt des données pour s’intégrer aux sources de données SQL et NoSQL. Ainsi, Amazon Redshift permet des analyses efficaces sur des données relationnelles et semi-structurées stockées telles que JSON. Pour plus d’informations sur l’intégration d’Amazon Redshift avec PartiQL, consultez partiQL : un langage de SQL-compatible requête pour Amazon Redshift.

Amazon Redshift offre deux formes de prise en charge des données semi-structurées : le type de données SUPER et Amazon Redshift Spectrum.

Vous pouvez interroger des données semi-structurées en les ingérant dans Amazon Redshift et en les stockant dans le type de données SUPER ou en utilisant Amazon Redshift Spectrum pour interroger les données stockées dans Amazon S3.

Bonnes pratiques d’utilisation des données semi-structurées

Tenez compte des bonnes pratiques suivantes lorsque vous travaillez avec des données semi-structurées.

Nous vous recommandons de définir l’option de configuration enable_case_sensitive_super_attribute sur true lorsque vous utilisez des données SUPER. Pour de plus amples informations, veuillez consulter enable_case_sensitive_super_attribute.
Utilisez la commande COPY pour charger les données à partir des compartiments Amazon S3 dans les colonnes Amazon Redshift SUPER.
Utilisez le typage dynamique et la sémantique laxiste de PartiQL pour exécuter des requêtes ad hoc sur des valeurs de données SUPER sans avoir à imposer un schéma avant la requête. Pour plus d’informations sur le typage dynamique, consultez Typage dynamique. Pour plus d’informations sur les sémantiques laxistes, consultez Sémantique laxiste.
Déchiquetez les données sans schéma et semi-structurées en vues matérialisées à l’aide de PartiQL si vous prévoyez d’interroger fréquemment les données. Lorsque vous effectuez des analyses sur les données fragmentées, l’organisation en colonnes des vues matérialisées Amazon Redshift offre de meilleures performances. En outre, les utilisateurs et les outils de Business Intelligence (BI) qui exigent un schéma conventionnel pour les données ingérées peuvent utiliser des vues (matérialisées ou virtuelles) comme présentation conventionnelle des données.

Une fois que vos vues matérialisées PartiQL ont extrait les données trouvées dans JSON ou SUPER dans des vues matérialisées en colonnes conventionnelles, vous pouvez interroger les vues matérialisées. Pour plus d’informations sur les vues matérialisées, consultez Vues matérialisées dans Amazon Redshift. Pour plus d’informations sur le fonctionnement du type de données SUPER avec les vues matérialisées, consultez Type de données SUPER avec des vues matérialisées.

Concepts pour l’utilisation des types de données SUPER

Vous trouverez ci-après quelques concepts de types de données Amazon Redshift SUPER.

Comprendre le type de données SUPER dans Amazon Redshift – Le type de données SUPER est un type de données Amazon Redshift qui permet le stockage de tableaux et de structures sans schéma qui contiennent des scalaires Amazon Redshift et éventuellement des tableaux et structures imbriqués. Le type de données SUPER peut stocker nativement différents formats de données semi-structurées, tels que JSON ou des données provenant de sources orientées document. Vous pouvez ajouter une nouvelle colonne SUPER pour stocker des données semi-structurées et écrire des requêtes qui accèdent à la colonne SUPER, ainsi que les colonnes scalaires habituelles. Pour plus d’informations sur le type de données SUPER, consultez Type SUPER.

Ingérer JSON sans schéma dans SUPER : grâce à la souplesse du type de données semi-structurées SUPER, Amazon Redshift peut recevoir et intégrer des JSON sans schéma dans dans colonnes avec le type de données SUPER. Par exemple, vous pouvez ingérer la valeur JSON [10.5, “first”] dans une colonne de type de données SUPER à l’aide de la commande COPY. La colonne contiendrait une valeur SUPER de [10.5, ‘first’]. Vous pouvez également ingérer des JSON à l’aide de Fonction JSON_PARSE. COPY et json_parse ingèrent tous deux JSON en utilisant une sémantique d’analyse stricte par défaut. Vous pouvez également construire des valeurs SUPER, y compris des tableaux et des structures, en utilisant les données de base de données elles-mêmes.

La colonne SUPER ne nécessite aucune modification de schéma lors de l’ingestion des structures souples de JSON sans schéma. Par exemple, lors de l’analyse d’un flux de clics, vous stockez d’abord dans la colonne SUPER des structures « click » avec les attributs « IP » et « time ». Vous pouvez ajouter un attribut « ID client » sans modifier votre schéma afin d’ingérer de telles modifications.

Le format natif utilisé pour le type de données SUPER est un format binaire qui nécessite moins d’espace que la valeur JSON sous sa forme textuelle. Cela permet d’accélérer l’ingestion et le traitement en cours d’exécution des valeurs SUPER lors des requêtes.

Interrogez les données SUPER avec partiQL — partiQL est une extension rétrocompatible de SQL-92 celle que de nombreux AWS services utilisent actuellement. Grâce à PartiQL, les constructions SQL familières combinent de manière transparente l’accès aux données SQL classiques, sous forme de tableaux, et aux données semi-structurées de SUPER. Vous pouvez effectuer la navigation dans les objets et les tableaux et désimbriquer les tableaux. PartiQL étend le langage SQL standard pour exprimer et traiter de manière déclarative les données imbriquées et multivaluées.

PartiQL est une extension de SQL où les données imbriquées et non schématiques des colonnes SUPER sont des citoyens de première classe. PartiQL n’exige pas que toutes les expressions de requêtes soient vérifiées par type lors de la compilation de la requête. Cette approche permet aux expressions de requêtes qui contiennent le type de données SUPER d’être typées dynamiquement pendant l’exécution de la requête lorsque les types réels des données contenues dans les colonnes SUPER sont accédés. De plus, PartiQL fonctionne dans un mode laxiste dans lequel les incohérences de type ne provoquent pas d’échecs, mais renvoient null. La combinaison du traitement des requêtes sans schéma et laxiste rend PartiQL idéal pour les applications d’extraction, de chargement et de transfert (ELT) pour lesquelles votre requête SQL évalue les données JSON qui sont ingérées dans les colonnes SUPER.

Pour plus d’informations sur PartiQL pour Amazon Redshift, consultez partiQL : un langage de SQL-compatible requête pour Amazon Redshift. Pour plus d’informations sur le typage dynamique, consultez Typage dynamique. Pour plus d’informations sur le traitement des requêtes laxistes, consultez Sémantique laxiste.

Intégration avec Redshift Spectrum – Amazon Redshift prend en charge plusieurs aspects de PartiQL lors de l’exécution de requêtes Redshift Spectrum sur JSON, Parquet et d’autres formats comportant des données imbriquées. Redshift Spectrum ne supporte que les données imbriquées qui ont des schémas. Par exemple, avec Redshift Spectrum, vous pouvez déclarer que vos données JSON possèdent l’attribut nested_schemaful_example dans le schéma ARRAY<STRUCT<a:INTEGER, b:DECIMAL(5,2)>>. Le schéma de cet attribut détermine que les données contiennent toujours un tableau, qui contient une structure avec un nombre entier a et un nombre décimal b. Si les données changent pour inclure plus d’attributs, le type change également. En revanche, le type de données SUPER ne nécessite aucun schéma. Vous pouvez stocker des tableaux avec des éléments de structure ayant des attributs ou des types différents. En outre, les valeurs peuvent être stockées en dehors des tableaux.

Considérations relatives à l’utilisation de données de type SUPER

Lorsque vous travaillez avec des données SUPER, tenez compte des points suivants :

Utilisez le pilote JDBC version 2.x, le pilote ODBC version 2.x ou le pilote Amazon Redshift Python version 2.0.872 ou ultérieure. La version 1.x du pilote ODBC n’est pas prise en charge.

Pour plus d’informations sur les pilotes JDBC, consultez Configuration d’une connexion pour le pilote JDBC version 2.x pour Amazon Redshift dans le Guide de gestion Amazon Redshift.

Pour plus d’informations sur les pilotes ODBC, consultez Configuration d’une connexion pour le pilote ODBC version 2.x pour Amazon Redshift dans le Guide de gestion Amazon Redshift.

Pour plus d’informations sur les pilotes Python, consultez le Connecteur Amazon Redshift Python dans le Guide de gestion Amazon Redshift.

Pour plus d’informations sur les configurations SUPER, consultez Configurations SUPER.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Surveillance et audit du partage des données

PartiQL pour Amazon Redshift