— les types de données —DataSource DataQualityRulesetListDetails DataQualityTargetTable DataQualityRulesetEvaluationRunDescription DataQualityRulesetEvaluationRunFilter DataQualityEvaluationRunAdditionalRunOptions DataQualityRuleRecommendationRunDescription DataQualityRuleRecommendationRunFilter DataQualityResult DataQualityAnalyzerResult DataQualityObservation MetricBasedObservation DataQualityMetricValues DataQualityRuleResult DataQualityResultDescription DataQualityResultFilterCriteria DataQualityRulesetFilterCriteria DataQualityAggregatedMetrics StatisticAnnotation TimestampedInclusionAnnotation AnnotationError DatapointInclusionAnnotation StatisticSummaryList StatisticSummary RunIdentifier StatisticModelResult DataQualityGlueTable — operations —StartDataQualityRulesetEvaluationRun (start_data_quality_ruleset_evaluation_run)CancelDataQualityRulesetEvaluationRun (cancel_data_quality_ruleset_evaluation_run)GetDataQualityRulesetEvaluationRun (get_data_quality_ruleset_evaluation_run)ListDataQualityRulesetEvaluationRuns (list_data_quality_ruleset_evaluation_runs)StartDataQualityRuleRecommendationRun (start_data_quality_rule_recommendation_run)CancelDataQualityRuleRecommendationRun (cancel_data_quality_rule_recommendation_run)GetDataQualityRuleRecommendationRun (get_data_quality_rule_recommendation_run)ListDataQualityRuleRecommendationRuns (list_data_quality_rule_recommendation_runs)GetDataQualityResult (get_data_quality_result)BatchGetDataQualityResult (batch_get_data_quality_result)ListDataQualityResults (list_data_quality_results)CreateDataQualityRuleset (create_data_quality_ruleset)DeleteDataQualityRuleset (delete_data_quality_ruleset)GetDataQualityRuleset (get_data_quality_ruleset)ListDataQualityRulesets (list_data_quality_rulesets)UpdateDataQualityRuleset (update_data_quality_ruleset)ListDataQualityStatistics (list_data_quality_statistics)TimestampFilter CreateDataQualityRulesetRequest GetDataQualityRulesetResponse GetDataQualityResultResponse StartDataQualityRuleRecommendationRunRequest GetDataQualityRuleRecommendationRunResponse BatchPutDataQualityStatisticAnnotation (batch_put_data_quality_statistic_annotation)GetDataQualityModel (get_data_quality_model)GetDataQualityModelResult (get_data_quality_model_result)ListDataQualityStatisticAnnotations (list_data_quality_statistic_annotations)PutDataQualityProfileAnnotation (put_data_quality_profile_annotation)

API Qualité des données

L'API Qualité des données décrit les types de données de qualité et inclut l'API permettant de créer, supprimer ou de mettre à jour des ensembles de règles, exécutions et évaluations.

Types de données

Structure DataSource
Structure DataQualityRulesetListDetails
Structure DataQualityTargetTable
Structure DataQualityRulesetEvaluationRunDescription
Structure DataQualityRulesetEvaluationRunFilter
Structure DataQualityEvaluationRunAdditionalRunOptions
Structure DataQualityRuleRecommendationRunDescription
Structure DataQualityRuleRecommendationRunFilter
Structure DataQualityResult
Structure DataQualityAnalyzerResult
Structure DataQualityObservation
Structure MetricBasedObservation
Structure DataQualityMetricValues
Structure DataQualityRuleResult
Structure DataQualityResultDescription
Structure DataQualityResultFilterCriteria
Structure DataQualityRulesetFilterCriteria
Structure DataQualityAggregatedMetrics
Structure StatisticAnnotation
Structure TimestampedInclusionAnnotation
Structure AnnotationError
Structure DatapointInclusionAnnotation
Liste StatisticSummaryList
Structure StatisticSummary
Structure RunIdentifier
Structure StatisticModelResult
Structure DataQualityGlueTable

Structure DataSource

Source de données (une table AWS Glue) pour laquelle vous souhaitez obtenir des résultats sur la qualité des données.

Champs

GlueTable – Un objet GlueTable.

Une table AWS Glue.
DataQualityGlueTable – Un objet DataQualityGlueTable.

Un tableau AWS Glue pour les opérations relatives à la qualité des données.

Structure DataQualityRulesetListDetails

Décrit un ensemble de règles de qualité des données renvoyé par GetDataQualityRuleset.

Champs

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles de qualité des données.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles de qualité des données.
CreatedOn – Horodatage.

Date et heure de création de l'ensemble de règles de qualité des données.
LastModifiedOn – Horodatage.

Date et heure de la dernière modification de l'ensemble de règles de qualité des données.
TargetTable – Un objet DataQualityTargetTable.

Un objet représentant une table AWS Glue.
RecommendationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Lors de la création d'un ensemble de règles à partir d'une exécution de recommandation, cet ID d'exécution est généré pour relier les deux.
RuleCount : nombre (entier).

Nombre de règles dans l'ensemble de règles.

Structure DataQualityTargetTable

Un objet représentant une table AWS Glue.

Champs

TableName – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la table AWS Glue.
DatabaseName – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la base de données contenant la table AWS Glue.
CatalogId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L'identifiant du catalogue où les tables AWS Glue existent.

Structure DataQualityRulesetEvaluationRunDescription

Décrit le résultat d'une exécution d'évaluation d'un ensemble de règles de qualité des données.

Champs

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.
Status – Chaîne UTF-8 (valeurs valides : RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

Statut de cette exécution.
StartedOn – Horodatage.

Date et heure de lancement de l'exécution.
DataSource – Un objet DataSource.

Source de données (une table AWS Glue) associée à l'exécution.

Structure DataQualityRulesetEvaluationRunFilter

Critères de filtrage.

Champs

DataSource – Obligatoire : un objet DataSource.

Filtrez en fonction d'une source de données (une table AWS Glue) associée à l'exécution.
StartedBefore – Horodatage.

Filtrez les résultats en fonction des exécutions qui ont débuté avant cette heure.
StartedAfter – Horodatage.

Filtrez les résultats en fonction des exécutions qui ont débuté après cette heure.

Structure DataQualityEvaluationRunAdditionalRunOptions

Options d'exécution supplémentaires que vous pouvez spécifier pour une exécution d'évaluation.

Champs

CloudWatchMetricsEnabled : booléen.

Si les métriques CloudWatch doivent être activées ou non.
ResultsS3Prefix – Chaîne UTF-8.

Préfixe permettant à Amazon S3 de stocker les résultats.
CompositeRuleEvaluationMethod – Chaîne UTF-8 (valeurs valides : COLUMN | ROW).

Définissez la méthode d’évaluation des règles composites du jeu de règles sur ROW/COLUMN.

Structure DataQualityRuleRecommendationRunDescription

Décrit le résultat de l'exécution d'une recommandation de règle de qualité des données.

Champs

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.
Status – Chaîne UTF-8 (valeurs valides : RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

Statut de cette exécution.
StartedOn – Horodatage.

Date et heure de lancement de cette exécution.
DataSource – Un objet DataSource.

Source de données (table AWS Glue) associée à l'exécution de la recommandation.

Structure DataQualityRuleRecommendationRunFilter

Filtre permettant de répertorier les exécutions de recommandations relatives à la qualité des données.

Champs

DataSource – Obligatoire : un objet DataSource.

Filtre basé sur une source de données spécifiée (table AWS Glue).
StartedBefore – Horodatage.

Filtrez en fonction de l'heure de début des résultats avant l'heure indiquée.
StartedAfter – Horodatage.

Filtrez en fonction de l'heure de début des résultats après l'heure indiquée.

Structure DataQualityResult

Décrit un résultat sur la qualité des données.

Champs

ResultId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de résultat unique pour le résultat en matière de qualité des données.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil pour le résultat en matière de qualité des données.
Score – Nombre (double), au plus égal à 1,0.

Score de qualité des données agrégées. Représente le rapport entre le nombre de règles transmises et le nombre total de règles.
DataSource – Un objet DataSource.

Table associée au résultat sur la qualité des données, le cas échéant.
RulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles associé au résultat sur la qualité des données.
EvaluationContext – Chaîne UTF-8.

Dans le contexte d'une tâche dans AWS Glue Studio, chaque nœud du canevas se voit généralement attribuer un nom et les nœuds de qualité des données porteront un nom. Dans le cas de plusieurs nœuds, evaluationContext peut distinguer les nœuds.
StartedOn – Horodatage.

Date et heure du début de cette exécution de l'évaluation de la qualité des données.
CompletedOn – Horodatage.

Date et heure de fin de la dernière exécution de cette évaluation de la qualité des données.
JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de tâche associé au résultat sur la qualité des données, le cas échéant.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution de la tâche associé au résultat sur la qualité des données, le cas échéant.
RulesetEvaluationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution unique de l'évaluation de l'ensemble de règles pour ce résultat sur la qualité des données.
RuleResults – Un tableau d’objets DataQualityRuleResult, 2 000 structures au maximum.

Liste d'objets DataQualityRuleResult représentant les résultats de chaque règle.
AnalyzerResults – Un tableau d’objets DataQualityAnalyzerResult, 2 000 structures au maximum.

Liste d’objets DataQualityAnalyzerResult représentant les résultats de chaque analyseur.
Observations – Un tableau d'objets DataQualityObservation, 50 structures maximum.

Liste d’objets DataQualityObservation représentant les observations générées après évaluation des règles et des analyseurs.
AggregatedMetrics – Un objet DataQualityAggregatedMetrics.

Récapitulatif des objets DataQualityAggregatedMetrics indiquant le nombre total de lignes et de règles traitées, y compris leurs statistiques de réussite/d’échec basées sur les résultats au niveau des lignes.

Structure DataQualityAnalyzerResult

Décrit le résultat de l’évaluation d’un analyseur de qualité des données.

Champs

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l’analyseur de qualité des données.
Description – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l’analyseur de qualité des données.
EvaluationMessage – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Message d'évaluation.
EvaluatedMetrics – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est un nombre (double).

Carte des métriques associées à l’évaluation de l’analyseur.

Structure DataQualityObservation

Décrit l’observation générée après l’évaluation des règles et des analyseurs.

Champs

Description – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l’observation de la qualité des données.
MetricBasedObservation – Un objet MetricBasedObservation.

Objet de type MetricBasedObservation représentant l’observation basée sur des métriques de qualité des données évaluées.

Structure MetricBasedObservation

Décrit l’observation basée sur les métriques générée sur la base des métriques de qualité des données évaluées.

Champs

MetricName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la métrique de qualité des données utilisée pour générer l’observation.
StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
MetricValues – Un objet DataQualityMetricValues.

Objet de type DataQualityMetricValues représentant l’analyse de la valeur de métrique de qualité des données.
NewRules – Tableau de chaînes UTF-8.

Liste des nouvelles règles de qualité des données générées dans le cadre de l’observation basée sur la valeur de métrique de qualité des données.

Structure DataQualityMetricValues

Décrit la valeur de la métrique de qualité des données en fonction de l’analyse des données historiques.

Champs

ActualValue – Nombre (double).

Valeur réelle de la métrique de qualité des données.
ExpectedValue – Nombre (double).

Valeur attendue de la métrique de qualité des données selon l’analyse des données historiques.
LowerLimit – Nombre (double).

Limite inférieure de la valeur de métrique de qualité des données selon l’analyse des données historiques.
UpperLimit – Nombre (double).

Limite supérieure de la valeur de métrique de qualité des données selon l’analyse des données historiques.

Structure DataQualityRuleResult

Décrit le résultat de l'évaluation d'une règle de qualité des données.

Champs

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la règle de qualité des données.
Description – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de la règle de qualité des données.
EvaluationMessage – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Message d'évaluation.
Result – Chaîne UTF-8 (valeurs valides : PASS | FAIL | ERROR).

État de réussite ou d'échec de la règle.
EvaluatedMetrics – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est un nombre (double).

Une carte des métriques associées à l'évaluation de la règle.
EvaluatedRule – Chaîne UTF-8, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Règle évaluée.
RuleMetrics – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est un nombre (double).

Carte contenant les métriques associées à l’évaluation de la règle en fonction des résultats au niveau des lignes.

Structure DataQualityResultDescription

Décrit un résultat sur la qualité des données.

Champs

ResultId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de résultat unique pour ce résultat sur la qualité des données.
DataSource – Un objet DataSource.

Nom de la table associée au résultat sur la qualité des données.
JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la tâche associée au résultat en matière de qualité des données.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution de la tâche associé au résultat en matière de qualité des données.
StartedOn – Horodatage.

Heure du début de l'exécution pour ce résultat en matière de qualité des données.

Structure DataQualityResultFilterCriteria

Critères permettant de renvoyer des résultats en matière de qualité des données.

Champs

DataSource – Un objet DataSource.

Filtrez les résultats en fonction de la source de données spécifiée. Par exemple, récupération de tous les résultats d'une table AWS Glue.
JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Filtrez les résultats en fonction du nom de la tâche spécifiée.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Filtrez les résultats en fonction de l'ID d'exécution de la tâche spécifiée.
StartedAfter – Horodatage.

Filtrez les résultats en fonction des exécutions qui ont débuté après cette heure.
StartedBefore – Horodatage.

Filtrez les résultats en fonction des exécutions qui ont débuté avant cette heure.

Structure DataQualityRulesetFilterCriteria

Critères permettant de filtrer les ensembles de règles de qualité des données.

Champs

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom des critères de filtrage de l'ensemble de règles.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description des critères de filtrage de l'ensemble de règles.
CreatedBefore – Horodatage.

Filtre sur les ensembles de règles créés avant cette date.
CreatedAfter – Horodatage.

Filtre sur les ensembles de règles créés après cette date.
LastModifiedBefore – Horodatage.

Filtre sur les derniers ensembles de règles modifiés avant cette date.
LastModifiedAfter – Horodatage.

Filtre sur les derniers ensembles de règles modifiés après cette date.
TargetTable – Un objet DataQualityTargetTable.

Nom et nom de la base de données de la table cible.

Structure DataQualityAggregatedMetrics

Récapitulatif des métriques indiquant le nombre total de lignes et de règles traitées, y compris leurs statistiques de réussite/d’échec basées sur les résultats au niveau des lignes.

Champs

TotalRowsProcessed – Nombre (double).

Nombre total de lignes traitées lors de l’évaluation de la qualité des données.
TotalRowsPassed – Nombre (double).

Nombre total de lignes ayant satisfait à toutes les règles de qualité des données applicables.
TotalRowsFailed – Nombre (double).

Nombre total de lignes n’ayant pas respecté une ou plusieurs règles de qualité des données.
TotalRulesProcessed – Nombre (double).

Nombre total de règles de qualité des données qui ont été évaluées.
TotalRulesPassed – Nombre (double).

Nombre total de règles de qualité des données qui ont satisfait à leurs critères d’évaluation.
TotalRulesFailed – Nombre (double).

Nombre total de règles de qualité des données qui n’ont pas satisfait à leurs critères d’évaluation.

Structure StatisticAnnotation

Annotation statistique.

Champs

ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.
StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
StatisticRecordedOn – Horodatage.

Horodatage de l’enregistrement de la statistique annotée.
InclusionAnnotation – Un objet TimestampedInclusionAnnotation.

Annotation d’inclusion appliquée à la statistique.

Structure TimestampedInclusionAnnotation

Annotation d’inclusion horodatée.

Champs

Value – Chaîne UTF-8 (valeurs valides : INCLUDE | EXCLUDE).

Valeur de l’annotation d’inclusion.
LastModifiedOn – Horodatage.

Horodatage de la dernière modification de l’annotation d’inclusion.

Structure AnnotationError

Annotation qui a échoué.

Champs

ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de profil de l’annotation qui a échoué.
StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de statistique de l’annotation qui a échoué.
FailureReason – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Raison pour laquelle l’annotation a échoué.

Structure DatapointInclusionAnnotation

Annotation d’inclusion.

Champs

ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID du profil de qualité des données auquel appartient la statistique.
StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
InclusionAnnotation – Chaîne UTF-8 (valeurs valides : INCLUDE | EXCLUDE).

Valeur d’annotation d’inclusion à appliquer à la statistique.

Liste StatisticSummaryList

Une liste de StatisticSummary.

Tableau d’objets StatisticSummary.

Une liste de StatisticSummary.

Structure StatisticSummary

Informations récapitulatives relatives à une statistique.

Champs

StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.
RunIdentifier – Un objet RunIdentifier.

Identifiant de l’exécution.
StatisticName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #16.

Nom de la statistique.
DoubleValue – Nombre (double).

Valeur de la statistique.
EvaluationLevel – Chaîne UTF-8 (valeurs valides : Dataset="DATASET" | Column="COLUMN" | Multicolumn="MULTICOLUMN").

Niveau d’évaluation de la statistique. Valeurs possibles: Dataset, Column, Multicolumn.
ColumnsReferenced – Tableau de chaînes UTF-8.

Liste des colonnes référencées par la statistique.
ReferencedDatasets – Tableau de chaînes UTF-8.

Liste des jeux de données référencés par la statistique.
StatisticProperties – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est une chaîne Description, d'une longueur ne dépassant pas 2048 octets, correspondant au URI address multi-line string pattern.

StatisticPropertiesMap, qui contient des valeurs NameString et DescriptionString.
RecordedOn – Horodatage.

Horodatage de l’enregistrement de la statistique.
InclusionAnnotation – Un objet TimestampedInclusionAnnotation.

Annotation d’inclusion pour la statistique.

Structure RunIdentifier

Identifiant d’exécution.

Champs

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de l’exécution.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de l’exécution de la tâche.

Structure StatisticModelResult

Résultat du modèle statistique.

Champs

LowerBound – Nombre (double).

Limite inférieure.
UpperBound – Nombre (double).

Limite supérieure.
PredictedValue – Nombre (double).

Valeur prédite.
ActualValue – Nombre (double).

Valeur réelle.
Date – Horodatage.

Date.
InclusionAnnotation – Chaîne UTF-8 (valeurs valides : INCLUDE | EXCLUDE).

Annotation d’inclusion.

Structure DataQualityGlueTable

Base de données et table de l’AWS Glue Data Catalog utilisé pour les données d’entrée ou de sortie pour les opérations de qualité des données.

Champs

DatabaseName – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la base de données dans le AWS Glue Data Catalog.
TableName – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la table dans AWS Glue Data Catalog.
CatalogId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant unique pour AWS Glue Data Catalog.
ConnectionName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la connexion à AWS Glue Data Catalog.
AdditionalOptions – Tableau de mappage de paires valeur-clé, pas moins de 1 ou plus de 10 paires..

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est une chaîne Description, d'une longueur ne dépassant pas 2048 octets, correspondant au URI address multi-line string pattern.

Options supplémentaires pour la table. Actuellement, deux clés sont prises en charge :
- pushDownPredicate : pour filtrer les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données.
- catalogPartitionPredicate : pour utiliser le nettoyage de partition côté serveur à l'aide des index de partition du AWS Glue Data Catalog.
PreProcessingQuery – chaîne UTF-8, d'une longueur ne dépassant pas 51200 octets, correspondant au URI address multi-line string pattern.

Requête SQL au format SparkSQL qui peut être utilisée pour prétraiter les données de la table dans AWS Glue Data Catalog, avant d’exécuter l’opération de qualité des données.

Opérations

Action StartDataQualityRulesetEvaluationRun (Python : start_data_quality_ruleset_evaluation_run)
Action CancelDataQualityRulesetEvaluationRun (Python : cancel_data_quality_ruleset_evaluation_run)
Action GetDataQualityRulesetEvaluationRun (Python : get_data_quality_ruleset_evaluation_run)
Action ListDataQualityRulesetEvaluationRuns (Python : list_data_quality_ruleset_evaluation_runs)
Action StartDataQualityRuleRecommendationRun (Python : start_data_quality_rule_recommendation_run)
Action CancelDataQualityRuleRecommendationRun (Python : cancel_data_quality_rule_recommendation_run)
Action GetDataQualityRuleRecommendationRun (Python : get_data_quality_rule_recommendation_run)
Action ListDataQualityRuleRecommendationRuns (Python : list_data_quality_rule_recommendation_runs)
Action GetDataQualityResult (Python : get_data_quality_result)
Action BatchGetDataQualityResult (Python : batch_get_data_quality_result)
Action ListDataQualityResults (Python : list_data_quality_results)
Action CreateDataQualityRuleset (Python : create_data_quality_ruleset)
Action DeleteDataQualityRuleset (Python : delete_data_quality_ruleset)
Action GetDataQualityRuleset (Python : get_data_quality_ruleset)
Action ListDataQualityRulesets (Python : list_data_quality_rulesets)
Action UpdateDataQualityRuleset (Python : update_data_quality_ruleset)
Action ListDataQualityStatistics (Python : list_data_quality_statistics)
Structure TimestampFilter
Structure CreateDataQualityRulesetRequest
Structure GetDataQualityRulesetResponse
Structure GetDataQualityResultResponse
Structure StartDataQualityRuleRecommendationRunRequest
Structure GetDataQualityRuleRecommendationRunResponse
Action BatchPutDataQualityStatisticAnnotation(Python : batch_put_data_quality_statistic_annotation)
Action GetDataQualityModel (Python : get_data_quality_model)
Action GetDataQualityModelResult (Python : get_data_quality_model_result)
Action ListDataQualityStatisticAnnotations (Python : list_data_quality_statistic_annotations)
Action PutDataQualityProfileAnnotation (Python : put_data_quality_profile_annotation)

Action StartDataQualityRulesetEvaluationRun (Python : start_data_quality_ruleset_evaluation_run)

Une fois que vous disposez d'une définition d'ensemble de règles (soit recommandée, soit la vôtre), vous appelez cette opération pour évaluer l'ensemble de règles par rapport à une source de données (table AWS Glue). L'évaluation calcule les résultats que vous pouvez récupérer à l'aide de l'API GetDataQualityResult.

Demande

DataSource – Obligatoire : un objet DataSource.

Source de données (table AWS Glue) associée à cette exécution.
Role – Obligatoire : chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Utilisée pour l'idempotence ; il est recommandé de la définir sur un ID aléatoire (tel qu'un UUID) afin d'éviter de créer ou de démarrer plusieurs instances de la même ressource.
AdditionalRunOptions – Un objet DataQualityEvaluationRunAdditionalRunOptions.

Options d'exécution supplémentaires que vous pouvez spécifier pour une exécution d'évaluation.
RulesetNames – Obligatoire : Tableau de chaînes UTF-8, avec 1 chaîne minimum et 10 chaînes maximum.

Liste de noms d'ensembles de règles.
AdditionalDataSources – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est un objet DataSource.

Une carte de chaînes de référence vers des sources de données supplémentaires que vous pouvez spécifier pour une exécution d'évaluation.

Réponse

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Erreurs

InvalidInputException
EntityNotFoundException
OperationTimeoutException
InternalServiceException
ConflictException

Action CancelDataQualityRulesetEvaluationRun (Python : cancel_data_quality_ruleset_evaluation_run)

Annule une exécution au cours de laquelle un ensemble de règles est évalué par rapport à une source de données.

Demande

RunId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Réponse

Paramètres d’absence de réponse.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action GetDataQualityRulesetEvaluationRun (Python : get_data_quality_ruleset_evaluation_run)

Récupère une exécution spécifique au cours de laquelle un ensemble de règles est évalué par rapport à une source de données.

Demande

RunId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Réponse

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.
DataSource – Un objet DataSource.

Source de données (une table AWS Glue) associée à cette exécution d'évaluation.
Role – Chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
AdditionalRunOptions – Un objet DataQualityEvaluationRunAdditionalRunOptions.

Options d'exécution supplémentaires que vous pouvez spécifier pour une exécution d'évaluation.
Status – Chaîne UTF-8 (valeurs valides : RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

Statut de cette exécution.
ErrorString – Chaîne UTF-8.

Chaînes d'erreur associées à l'exécution.
StartedOn – Horodatage.

Date et heure de lancement de cette exécution.
LastModifiedOn – Horodatage.

Horodatage. Dernier moment où cette exécution de recommandation de règle de qualité des données a été modifiée.
CompletedOn – Horodatage.

Date et heure de fin de cette exécution.
ExecutionTime : nombre (entier).

Durée (en secondes) pendant laquelle l'exécution a consommé des ressources.
RulesetNames – Tableau de chaînes UTF-8, avec 1 chaîne minimum et 10 chaînes maximum.

Liste des noms des ensembles de règles utilisés pour l'exécution. Actuellement, ce paramètre ne peut avoir qu’un seul nom d’ensemble de règles.
ResultIds – Tableau de chaînes UTF-8, avec 1 chaîne minimum et 10 chaînes maximum.

Liste des ID des résultats en matière de qualité des données pour l'exécution.
AdditionalDataSources – Tableau de mappage de paires valeur-clé.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Chaque valeur est un objet DataSource.

Une carte de chaînes de référence vers des sources de données supplémentaires que vous pouvez spécifier pour une exécution d'évaluation.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action ListDataQualityRulesetEvaluationRuns (Python : list_data_quality_ruleset_evaluation_runs)

Répertorie l'ensemble des exécutions répondant aux critères de filtrage, lorsqu'un ensemble de règles est évalué par rapport à une source de données.

Demande

Filter – Un objet DataQualityRulesetEvaluationRunFilter.

Critères de filtrage.
NextToken – Chaîne UTF-8.

Jeton de pagination pour décaler les résultats.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer.

Réponse

Runs : un tableau d’objets DataQualityRulesetEvaluationRunDescription.

Liste d'objets DataQualityRulesetEvaluationRunDescription représentant les exécutions d'un ensemble de règles en matière de qualité des données.
NextToken – Chaîne UTF-8.

Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException

Action StartDataQualityRuleRecommendationRun (Python : start_data_quality_rule_recommendation_run)

Démarre une exécution de recommandation permettant de générer des règles lorsque vous ne connaissez pas les règles à écrire. AWS Glue Qualité des données analyse les données et propose des recommandations relatives à un ensemble de règles potentiel. Vous pouvez ensuite trier l'ensemble de règles et modifier l'ensemble de règles généré selon votre convenance.

Les exécutions de recommandations sont automatiquement supprimées après 90 jours.

Demande

La demande de recommandation d’une règle de qualité des données.

DataSource – Obligatoire : un objet DataSource.

Source de données (table AWS Glue) associée à cette exécution.
Role – Obligatoire : chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
CreatedRulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Utilisée pour l'idempotence ; il est recommandé de la définir sur un ID aléatoire (tel qu'un UUID) afin d'éviter de créer ou de démarrer plusieurs instances de la même ressource.

Réponse

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException
ConflictException

Action CancelDataQualityRuleRecommendationRun (Python : cancel_data_quality_rule_recommendation_run)

Annule l'exécution de recommandation spécifiée qui était utilisée pour générer des règles.

Demande

RunId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Réponse

Paramètres d’absence de réponse.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action GetDataQualityRuleRecommendationRun (Python : get_data_quality_rule_recommendation_run)

Obtient l'exécution de recommandation spécifiée qui a été utilisée pour générer des règles.

Demande

RunId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.

Réponse

La réponse à l’exécution de la recommandation d’une règle de qualité des données.

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.
DataSource – Un objet DataSource.

Source de données (une table AWS Glue) associée à cette exécution.
Role – Chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
Status – Chaîne UTF-8 (valeurs valides : RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

Statut de cette exécution.
ErrorString – Chaîne UTF-8.

Chaînes d'erreur associées à l'exécution.
StartedOn – Horodatage.

Date et heure de lancement de cette exécution.
LastModifiedOn – Horodatage.

Horodatage. Dernier moment où cette exécution de recommandation de règle de qualité des données a été modifiée.
CompletedOn – Horodatage.

Date et heure de fin de cette exécution.
ExecutionTime : nombre (entier).

Durée (en secondes) pendant laquelle l'exécution a consommé des ressources.
RecommendedRuleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

À la fin de l'exécution d'une recommandation de règle de démarrage, un ensemble de règles recommandé est créé. Ce membre dispose de ces règles au format DQDL (Data Quality Definition Language).
CreatedRulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles créé par l'exécution.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action ListDataQualityRuleRecommendationRuns (Python : list_data_quality_rule_recommendation_runs)

Répertorie les exécutions de recommandation répondant aux critères de filtrage.

Demande

Filter – Un objet DataQualityRuleRecommendationRunFilter.

Critères de filtrage.
NextToken – Chaîne UTF-8.

Jeton de pagination pour décaler les résultats.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer.

Réponse

Runs : un tableau d’objets DataQualityRuleRecommendationRunDescription.

Liste d’objets DataQualityRuleRecommendationRunDescription.
NextToken – Chaîne UTF-8.

Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException

Action GetDataQualityResult (Python : get_data_quality_result)

Récupère le résultat d'une évaluation des règles de qualité des données.

Demande

ResultId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de résultat unique pour le résultat en matière de qualité des données.

Réponse

La réponse pour le résultat en matière de qualité des données.

ResultId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de résultat unique pour le résultat en matière de qualité des données.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil pour le résultat en matière de qualité des données.
Score – Nombre (double), au plus égal à 1,0.

Score de qualité des données agrégées. Représente le rapport entre le nombre de règles transmises et le nombre total de règles.
DataSource – Un objet DataSource.

Table associée au résultat sur la qualité des données, le cas échéant.
RulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles associé au résultat sur la qualité des données.
EvaluationContext – Chaîne UTF-8.

Dans le contexte d'une tâche dans AWS Glue Studio, chaque nœud du canevas se voit généralement attribuer un nom et les nœuds de qualité des données porteront un nom. Dans le cas de plusieurs nœuds, evaluationContext peut distinguer les nœuds.
StartedOn – Horodatage.

Date et heure du début de l'exécution de ce résultat en matière de qualité des données.
CompletedOn – Horodatage.

Date et heure de fin de l'exécution de ce résultat en matière de qualité des données.
JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de tâche associé au résultat sur la qualité des données, le cas échéant.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution de la tâche associé au résultat sur la qualité des données, le cas échéant.
RulesetEvaluationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution unique associé à l'évaluation de l'ensemble de règles.
RuleResults – Un tableau d’objets DataQualityRuleResult, 2 000 structures au maximum.

Liste d'objets DataQualityRuleResult représentant les résultats de chaque règle.
AnalyzerResults – Un tableau d’objets DataQualityAnalyzerResult, 2 000 structures au maximum.

Liste d’objets DataQualityAnalyzerResult représentant les résultats de chaque analyseur.
Observations – Un tableau d'objets DataQualityObservation, 50 structures maximum.

Liste d’objets DataQualityObservation représentant les observations générées après évaluation des règles et des analyseurs.
AggregatedMetrics – Un objet DataQualityAggregatedMetrics.

Récapitulatif des objets DataQualityAggregatedMetrics indiquant le nombre total de lignes et de règles traitées, y compris leurs statistiques de réussite/d’échec basées sur les résultats au niveau des lignes.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException
EntityNotFoundException

Action BatchGetDataQualityResult (Python : batch_get_data_quality_result)

Récupère la liste des résultats en matière de qualité des données pour les ID de résultat spécifiés.

Demande

ResultIds – Obligatoire : Tableau de chaînes UTF-8, avec 1 chaîne minimum et 100 chaînes maximum.

Liste d'ID de résultat uniques pour les résultats en matière de qualité des données.

Réponse

Results – Obligatoire : un tableau d’objets DataQualityResult.

Liste d'objets DataQualityResult représentant les résultats en matière de qualité des données.
ResultsNotFound – Tableau de chaînes UTF-8, avec 1 chaîne minimum et 100 chaînes maximum.

Liste d'ID de résultats pour lesquels aucun résultat n'a été trouvé.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException

Action ListDataQualityResults (Python : list_data_quality_results)

Renvoie tous les résultats d'exécution en matière de qualité des données pour votre compte.

Demande

Filter – Un objet DataQualityResultFilterCriteria.

Critères de filtrage.
NextToken – Chaîne UTF-8.

Jeton de pagination pour décaler les résultats.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer.

Réponse

Results – Obligatoire : un tableau d’objets DataQualityResultDescription.

Liste d’objets DataQualityResultDescription.
NextToken – Chaîne UTF-8.

Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs

InvalidInputException
OperationTimeoutException
InternalServiceException

Action CreateDataQualityRuleset (Python : create_data_quality_ruleset)

Crée un ensemble de règles de qualité des données avec des règles DQDL appliquées à une table AWS Glue spécifiée.

Vous créez l'ensemble de règles au format DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.

Demande

Demande de création d’un ensemble de règles de qualité des données.

Name – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom unique de l'ensemble de règles de qualité des données.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles de qualité des données.
Ruleset – Obligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.
Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 128 octets.

Chaque valeur est une chaîne UTF-8, d’une longueur maximale de 256 octets.

Liste de balises appliquées à l'ensemble de règles de qualité des données.
TargetTable – Un objet DataQualityTargetTable.

Table cible associée à l'ensemble de règles de qualité des données.
RecommendationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution unique pour l'exécution recommandée.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Utilisée pour l'idempotence ; il est recommandé de la définir sur un ID aléatoire (tel qu'un UUID) afin d'éviter de créer ou de démarrer plusieurs instances de la même ressource.

Réponse

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom unique de l'ensemble de règles de qualité des données.

Erreurs

InvalidInputException
AlreadyExistsException
OperationTimeoutException
InternalServiceException
ResourceNumberLimitExceededException

Action DeleteDataQualityRuleset (Python : delete_data_quality_ruleset)

Supprime un ensemble de règles de qualité des données.

Demande

Name – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles de qualité des données.

Réponse

Paramètres d’absence de réponse.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action GetDataQualityRuleset (Python : get_data_quality_ruleset)

Renvoie un ensemble de règles existant par identifiant ou nom.

Demande

Name – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de l'ensemble de règles.

Réponse

Renvoie la réponse de l’ensemble de règles de qualité des données.

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de l'ensemble de règles.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles.
Ruleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.
TargetTable – Un objet DataQualityTargetTable.

Nom et nom de la base de données de la table cible.
CreatedOn – Horodatage.

Horodatage. Date et heure de création de cet ensemble de règles de qualité des données.
LastModifiedOn – Horodatage.

Horodatage. Dernier moment où cet ensemble de règles de qualité des données a été modifié.
RecommendationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Lors de la création d'un ensemble de règles à partir d'une exécution de recommandation, cet ID d'exécution est généré pour relier les deux.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action ListDataQualityRulesets (Python : list_data_quality_rulesets)

Renvoie une liste paginée d'ensembles de règles pour la liste de tables AWS Glue spécifiée.

Demande

NextToken – Chaîne UTF-8.

Jeton de pagination pour décaler les résultats.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer.
Filter – Un objet DataQualityRulesetFilterCriteria.

Critères de filtrage.
Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 128 octets.

Chaque valeur est une chaîne UTF-8, d’une longueur maximale de 256 octets.

Liste de balises de paire clé-valeur.

Réponse

Rulesets : un tableau d’objets DataQualityRulesetListDetails.

Liste paginée d'ensembles de règles pour la liste de tables AWS Glue spécifiée.
NextToken – Chaîne UTF-8.

Un jeton de pagination, si d'autres résultats sont disponibles.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action UpdateDataQualityRuleset (Python : update_data_quality_ruleset)

Met à jour l'ensemble de règles de qualité des données spécifié.

Demande

Name – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles de qualité des données.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles.
Ruleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.

Réponse

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles de qualité des données.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles.
Ruleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.

Erreurs

EntityNotFoundException
AlreadyExistsException
IdempotentParameterMismatchException
InvalidInputException
OperationTimeoutException
InternalServiceException
ResourceNumberLimitExceededException

Action ListDataQualityStatistics (Python : list_data_quality_statistics)

Récupère la liste des statistiques de qualité des données.

Demande

StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.
TimestampFilter – Un objet TimestampFilter.

Un filtre d’horodatage.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer dans cette demande.
NextToken – Chaîne UTF-8.

Un jeton de pagination pour demander la page de résultats suivante.

Réponse

Statistics : un tableau d’objets StatisticSummary.

Un StatisticSummaryList.
NextToken – Chaîne UTF-8.

Un jeton de pagination pour demander la page de résultats suivante.

Erreurs

EntityNotFoundException
InvalidInputException
InternalServiceException

Structure TimestampFilter

Un filtre d’horodatage.

Champs

RecordedBefore – Horodatage.

Horodatage avant lequel les statistiques doivent être incluses dans les résultats.
RecordedAfter – Horodatage.

Horodatage après lequel les statistiques doivent être incluses dans les résultats.

Structure CreateDataQualityRulesetRequest

Demande de création d’un ensemble de règles de qualité des données.

Champs

Name – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom unique de l'ensemble de règles de qualité des données.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles de qualité des données.
Ruleset – Obligatoire : chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.
Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 128 octets.

Chaque valeur est une chaîne UTF-8, d’une longueur maximale de 256 octets.

Liste de balises appliquées à l'ensemble de règles de qualité des données.
TargetTable – Un objet DataQualityTargetTable.

Table cible associée à l'ensemble de règles de qualité des données.
RecommendationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution unique pour l'exécution recommandée.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Utilisée pour l'idempotence ; il est recommandé de la définir sur un ID aléatoire (tel qu'un UUID) afin d'éviter de créer ou de démarrer plusieurs instances de la même ressource.

Structure GetDataQualityRulesetResponse

Renvoie la réponse de l’ensemble de règles de qualité des données.

Champs

Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de l'ensemble de règles.
Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description de l'ensemble de règles.
Ruleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

Ensemble de règles DQDL (Data Quality Definition Language). Pour plus d'informations, consultez le Guide du développeur AWS Glue.
TargetTable – Un objet DataQualityTargetTable.

Nom et nom de la base de données de la table cible.
CreatedOn – Horodatage.

Horodatage. Date et heure de création de cet ensemble de règles de qualité des données.
LastModifiedOn – Horodatage.

Horodatage. Dernier moment où cet ensemble de règles de qualité des données a été modifié.
RecommendationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Lors de la création d'un ensemble de règles à partir d'une exécution de recommandation, cet ID d'exécution est généré pour relier les deux.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.

Structure GetDataQualityResultResponse

La réponse pour le résultat en matière de qualité des données.

Champs

ResultId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID de résultat unique pour le résultat en matière de qualité des données.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil pour le résultat en matière de qualité des données.
Score – Nombre (double), au plus égal à 1,0.

Score de qualité des données agrégées. Représente le rapport entre le nombre de règles transmises et le nombre total de règles.
DataSource – Un objet DataSource.

Table associée au résultat sur la qualité des données, le cas échéant.
RulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles associé au résultat sur la qualité des données.
EvaluationContext – Chaîne UTF-8.

Dans le contexte d'une tâche dans AWS Glue Studio, chaque nœud du canevas se voit généralement attribuer un nom et les nœuds de qualité des données porteront un nom. Dans le cas de plusieurs nœuds, evaluationContext peut distinguer les nœuds.
StartedOn – Horodatage.

Date et heure du début de l'exécution de ce résultat en matière de qualité des données.
CompletedOn – Horodatage.

Date et heure de fin de l'exécution de ce résultat en matière de qualité des données.
JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Le nom de tâche associé au résultat sur la qualité des données, le cas échéant.
JobRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution de la tâche associé au résultat sur la qualité des données, le cas échéant.
RulesetEvaluationRunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID d'exécution unique associé à l'évaluation de l'ensemble de règles.
RuleResults – Un tableau d’objets DataQualityRuleResult, 2 000 structures au maximum.

Liste d'objets DataQualityRuleResult représentant les résultats de chaque règle.
AnalyzerResults – Un tableau d’objets DataQualityAnalyzerResult, 2 000 structures au maximum.

Liste d’objets DataQualityAnalyzerResult représentant les résultats de chaque analyseur.
Observations – Un tableau d'objets DataQualityObservation, 50 structures maximum.

Liste d’objets DataQualityObservation représentant les observations générées après évaluation des règles et des analyseurs.
AggregatedMetrics – Un objet DataQualityAggregatedMetrics.

Récapitulatif des objets DataQualityAggregatedMetrics indiquant le nombre total de lignes et de règles traitées, y compris leurs statistiques de réussite/d’échec basées sur les résultats au niveau des lignes.

Structure StartDataQualityRuleRecommendationRunRequest

La demande de recommandation d’une règle de qualité des données.

Champs

DataSource – Obligatoire : un objet DataSource.

Source de données (table AWS Glue) associée à cette exécution.
Role – Obligatoire : chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
CreatedRulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Utilisée pour l'idempotence ; il est recommandé de la définir sur un ID aléatoire (tel qu'un UUID) afin d'éviter de créer ou de démarrer plusieurs instances de la même ressource.

Structure GetDataQualityRuleRecommendationRunResponse

La réponse à l’exécution de la recommandation d’une règle de qualité des données.

Champs

RunId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Identifiant d'exécution unique associé à cette exécution.
DataSource – Un objet DataSource.

Source de données (une table AWS Glue) associée à cette exécution.
Role – Chaîne UTF-8.

Rôle IAM fourni pour crypter les résultats de l'exécution.
NumberOfWorkers : nombre (entier).

Nombre d'employés G.1X à utiliser dans l'exécution. La valeur par défaut est 5.
Timeout – Nombre (entier), au moins égal à 1.

Délai d'expiration d'une exécution en minutes. Durée maximale pendant laquelle une exécution peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT. La valeur par défaut est de 2 880 minutes (48 heures).
Status – Chaîne UTF-8 (valeurs valides : RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

Statut de cette exécution.
ErrorString – Chaîne UTF-8.

Chaînes d'erreur associées à l'exécution.
StartedOn – Horodatage.

Date et heure de lancement de cette exécution.
LastModifiedOn – Horodatage.

Horodatage. Dernier moment où cette exécution de recommandation de règle de qualité des données a été modifiée.
CompletedOn – Horodatage.

Date et heure de fin de cette exécution.
ExecutionTime : nombre (entier).

Durée (en secondes) pendant laquelle l'exécution a consommé des ressources.
RecommendedRuleset – Chaîne UTF-8, d'une longueur comprise entre 1 et 65536 octets.

À la fin de l'exécution d'une recommandation de règle de démarrage, un ensemble de règles recommandé est créé. Ce membre dispose de ces règles au format DQDL (Data Quality Definition Language).
CreatedRulesetName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de l'ensemble de règles créé par l'exécution.
DataQualitySecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Nom de la configuration de sécurité créée avec l’option de chiffrement de la qualité des données.

Action BatchPutDataQualityStatisticAnnotation(Python : batch_put_data_quality_statistic_annotation)

Annotez les points de données au fil du temps pour une statistique de qualité des données spécifique. L’API nécessite à la fois les éléments profileID et statisticID dans le cadre de l’entrée InclusionAnnotation. L’API ne fonctionne que pour un seul élément statisticId sur plusieurs profils.

Demande

InclusionAnnotations – Obligatoire : un tableau d’objets DatapointInclusionAnnotation.

Une liste de DatapointInclusionAnnotation. Les valeurs InclusionAnnotations doivent contenir des éléments profileId et statisticId. S’il existe plusieurs InclusionAnnotations, la liste doit faire référence à un seul élément statisticId pour plusieurs profileId.
ClientToken – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Jeton client.

Réponse

FailedInclusionAnnotations : un tableau d’objets AnnotationError.

Une liste de AnnotationError.

Erreurs

EntityNotFoundException
InvalidInputException
InternalServiceException
ResourceNumberLimitExceededException

Action GetDataQualityModel (Python : get_data_quality_model)

Récupérez l’état d’entraînement du modèle, ainsi que des informations supplémentaires (CompletedOn, StartedOn, FailureReason).

Demande

StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
ProfileId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.

Réponse

Status – Chaîne UTF-8 (valeurs valides : RUNNING | SUCCEEDED | FAILED).

Statut d’entraînement du modèle de qualité des données.
StartedOn – Horodatage.

Horodatage du début de l’entraînement des modèles de qualité des données.
CompletedOn – Horodatage.

Horodatage de l’achèvement de l’entraînement des modèles de qualité des données.
FailureReason – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

Motif de l’échec de l’entraînement.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action GetDataQualityModelResult (Python : get_data_quality_model_result)

Récupérez les prédictions d’une statistique pour un ID de profil donné.

Demande

StatisticId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
ProfileId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.

Réponse

CompletedOn – Horodatage.

Horodatage de l’achèvement de l’entraînement des modèles de qualité des données.
Model : un tableau d’objets StatisticModelResult.

Liste de StatisticModelResult.

Erreurs

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Action ListDataQualityStatisticAnnotations (Python : list_data_quality_statistic_annotations)

Récupérez les annotations d’une statistique de qualité des données.

Demande

StatisticId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de statistique.
ProfileId – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

L’ID de profil.
TimestampFilter – Un objet TimestampFilter.

Un filtre d’horodatage.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer dans cette demande.
NextToken – Chaîne UTF-8.

Jeton de pagination permettant de récupérer l’ensemble suivant de résultats.

Réponse

Annotations : un tableau d’objets StatisticAnnotation.

Liste de StatisticAnnotation appliquées à la statistique
NextToken – Chaîne UTF-8.

Jeton de pagination permettant de récupérer l’ensemble suivant de résultats.

Erreurs

InvalidInputException
InternalServiceException

Action PutDataQualityProfileAnnotation (Python : put_data_quality_profile_annotation)

Annotez tous les points de données d’un profil.

Demande

ProfileId – Obligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

ID du profil de surveillance de la qualité des données à annoter.
InclusionAnnotation – Obligatoire : Chaîne UTF-8 (valeurs valides : INCLUDE | EXCLUDE).

Valeur d’annotation d’inclusion à appliquer au profil.

Réponse

Paramètres d’absence de réponse.

Erreurs

EntityNotFoundException
InvalidInputException
InternalServiceException

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Machine learning

Données sensibles