API di qualità dei dati - AWS Glue
 - tipi di dati -DataSourceDataQualityRulesetListDetailsDataQualityTargetTableDataQualityRulesetEvaluationRunDescriptionDataQualityRulesetEvaluationRunFilterDataQualityEvaluationRunAdditionalRunOptionsDataQualityRuleRecommendationRunDescriptionDataQualityRuleRecommendationRunFilterDataQualityResultDataQualityAnalyzerResultDataQualityObservationMetricBasedObservationDataQualityMetricValuesDataQualityRuleResultDataQualityResultDescriptionDataQualityResultFilterCriteriaDataQualityRulesetFilterCriteriaDataQualityAggregatedMetricsStatisticAnnotationTimestampedInclusionAnnotationAnnotationErrorDatapointInclusionAnnotationStatisticSummaryListStatisticSummaryRunIdentifierStatisticModelResultDataQualityGlueTable - operazioni -StartDataQualityRulesetEvaluationRun (start_data_quality_ruleset_evaluation_run)CancelDataQualityRulesetEvaluationRun (cancel_data_quality_ruleset_evaluation_run)GetDataQualityRulesetEvaluationRun (get_data_quality_ruleset_evaluation_run)ListDataQualityRulesetEvaluationRuns (list_data_quality_ruleset_evaluation_runs)StartDataQualityRuleRecommendationRun (start_data_quality_rule_recommendation_run)CancelDataQualityRuleRecommendationRun (cancel_data_quality_rule_recommendation_run)GetDataQualityRuleRecommendationRun (get_data_quality_rule_recommendation_run)ListDataQualityRuleRecommendationRuns (list_data_quality_rule_recommendation_runs)GetDataQualityResult (get_data_quality_result)BatchGetDataQualityResult (batch_get_data_quality_result)ListDataQualityResults (list_data_quality_results)CreateDataQualityRuleset (create_data_quality_ruleset)DeleteDataQualityRuleset (delete_data_quality_ruleset)GetDataQualityRuleset (get_data_quality_ruleset)ListDataQualityRulesets (list_data_quality_rulesets)UpdateDataQualityRuleset (update_data_quality_ruleset)Operazione ListDataQualityStatistics (list_data_quality_statistics)TimestampFilterCreateDataQualityRulesetRequestGetDataQualityRulesetResponseGetDataQualityResultResponseStartDataQualityRuleRecommendationRunRequestGetDataQualityRuleRecommendationRunResponseOperazione BatchPutDataQualityStatisticAnnotation (batch_put_data_quality_statistic_annotation)GetDataQualityModel (get_data_quality_model)GetDataQualityModelResult (get_data_quality_model_result)ListDataQualityStatisticAnnotations (list_data_quality_statistic_annotations)PutDataQualityProfileAnnotation (put_data_quality_profile_annotation)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

API di qualità dei dati

L'API di qualità dei dati descrive i tipi di dati relativi alla qualità dei dati e include l'API per la creazione, l'eliminazione o l'aggiornamento dei set di regole, le esecuzioni e le valutazioni della qualità.

Tipi di dati

Struttura di DataSource

Un'origine dati (una tabella AWS Glue) per la quale si desidera ottenere risultati di qualità dei dati.

Campi
  • GlueTable: un oggetto GlueTable.

    Una tabella AWS Glue.

  • DataQualityGlueTable: un oggetto DataQualityGlueTable.

    Una tabella AWS Glue per operazioni di Data Quality

Struttura di DataQualityRulesetListDetails

Descrive un set di regole di qualità dei dati restituito da GetDataQualityRuleset.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • CreatedOn: timestamp.

    La data e l'ora di creazione del set di regole della qualità dei dati.

  • LastModifiedOn: timestamp.

    La data e l'ora di modifica del set di regole della qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Un oggetto che rappresenta una tabella AWS Glue.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • RuleCount: numero (intero).

    Il numero di regole nel set di regole.

Struttura di DataQualityTargetTable

Un oggetto che rappresenta una tabella AWS Glue.

Campi
  • TableName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome della tabella AWS Glue.

  • DatabaseName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del database in cui è presente la tabella AWS Glue.

  • CatalogId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del catalogo in cui si trova la tabella AWS Glue.

Struttura di DataQualityRulesetEvaluationRunDescription

Descrive il risultato di un'esecuzione di valutazione del set di regole della qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • StartedOn: timestamp.

    La data e l'ora di inizio dell'esecuzione.

  • DataSource: un oggetto DataSource.

    L'origine dei dati (una tabella AWS Glue) associata all'esecuzione.

Struttura di DataQualityRulesetEvaluationRunFilter

I criteri di filtro.

Campi
  • DataSource - obbligatorio: un oggetto DataSource.

    Filtra in base a un'origine dati (una tabella AWS Glue) associata all'esecuzione.

  • StartedBefore: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate prima di questo momento.

  • StartedAfter: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate dopo questo momento.

Struttura di DataQualityEvaluationRunAdditionalRunOptions

Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Campi
  • CloudWatchMetricsEnabled: booleano.

    Se abilitare o meno i parametri di CloudWatch.

  • ResultsS3Prefix: stringa UTF-8.

    Prefisso per Amazon S3 per archiviare i risultati.

  • CompositeRuleEvaluationMethod: stringa UTF-8 (valori validi: COLUMN | ROW).

    Impostare il metodo di valutazione per le regole composite del set di regole su ROW/COLUMN

Struttura di DataQualityRuleRecommendationRunDescription

Descrive il risultato dell'esecuzione di una raccomandazione per una regola di qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • DataSource: un oggetto DataSource.

    L'origine dei dati (tabella AWS Glue) associata all'esecuzione della raccomandazione.

Struttura di DataQualityRuleRecommendationRunFilter

Un filtro per elencare le esecuzioni delle raccomandazioni per la qualità dei dati.

Campi
  • DataSource - obbligatorio: un oggetto DataSource.

    Filtra in base a un'origine dati specificata (tabella AWS Glue).

  • StartedBefore: timestamp.

    Filtra in base all'ora per i risultati avviati prima dell'ora indicata.

  • StartedAfter: timestamp.

    Filtra in base all'ora per i risultati avviati dopo l'ora indicata.

Struttura di DataQualityResult

Descrive un risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1,0.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un processo in AWS Glue Studio, a ogni nodo dell'area di disegno viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio di questa esecuzione della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco per la valutazione del set di regole per questo risultato di qualità dei dati.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli oggetti DataQualityAggregatedMetrics che mostra il conteggio totale delle righe e delle regole elaborate, incluse le relative statistiche di pass/fail basate sui risultati a livello di riga.

Struttura DataQualityAnalyzerResult

Descrive il risultato della valutazione di uno strumento di analisi della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome dello strumento di analisi della qualità dei dati.

  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione dello strumento di analisi della qualità dei dati.

  • EvaluationMessage: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Un messaggio di valutazione.

  • EvaluatedMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa dei parametri associati alla valutazione dello strumento di analisi.

Struttura DataQualityObservation

Descrive l'osservazione generata dopo la valutazione delle regole e degli strumenti di analisi.

Campi
  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione dell'osservazione della qualità dei dati.

  • MetricBasedObservation: un oggetto MetricBasedObservation.

    Un oggetto di tipo MetricBasedObservation che rappresenta l'osservazione basata sui parametri di qualità dei dati valutati.

Struttura MetricBasedObservation

Descrive l'osservazione basata su parametri generata in base a parametri di qualità dei dati valutati.

Campi
  • MetricName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del parametro di qualità dei dati utilizzato per generare l'osservazione.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • MetricValues: un oggetto DataQualityMetricValues.

    Un oggetto di tipo DataQualityMetricValues che rappresenta l'analisi del valore del parametro di qualità dei dati.

  • NewRules: una matrice di stringhe UTF-8.

    Un elenco di nuove regole sulla qualità dei dati generate nell'ambito dell'osservazione basata sul valore dei parametri di qualità dei dati.

Struttura DataQualityMetricValues

Descrive il valore del parametro di qualità dei dati in base all'analisi dei dati storici.

Campi
  • ActualValue: numero (doppio).

    Il valore effettivo del parametro di qualità dei dati.

  • ExpectedValue: numero (doppio).

    Il valore previsto del parametro di qualità dei dati in base all'analisi dei dati storici.

  • LowerLimit: numero (doppio).

    Il limite inferiore del valore del parametro di qualità dei dati in base all'analisi dei dati storici.

  • UpperLimit: numero (doppio).

    Il limite superiore del valore del parametro di qualità dei dati in base all'analisi dei dati storici.

Struttura di DataQualityRuleResult

Descrive il risultato della valutazione del set di regole della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della regola di qualità dei dati.

  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione della regola di qualità dei dati.

  • EvaluationMessage: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Un messaggio di valutazione.

  • Result: stringa UTF-8 (valori validi: PASS | FAIL | ERROR).

    Lo stato positivo o negativo per la regola.

  • EvaluatedMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa dei parametri associati alla valutazione della regola.

  • EvaluatedRule: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    La regola oggetto di valutazione.

  • RuleMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa contenente i parametri associati alla valutazione della regola in base ai risultati a livello di riga.

Struttura di DataQualityResultDescription

Descrive un risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del risultato univoco per questo risultato della qualità dei dati.

  • DataSource: un oggetto DataSource.

    Il nome della tabella associata al risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati.

  • StartedOn: timestamp.

    L'ora di inizio dell'esecuzione per questo risultato di qualità dei dati.

Struttura di DataQualityResultFilterCriteria

Criteri utilizzati per restituire i risultati della qualità dei dati.

Campi
  • DataSource: un oggetto DataSource.

    Filtra i risultati in base all'origine dati specificata. Ad esempio, il recupero di tutti i risultati per una tabella AWS Glue.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Filtra i risultati in base al nome del processo specificato.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Filtra i risultati in base all'ID di esecuzione del processo specificato.

  • StartedAfter: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate dopo questo momento.

  • StartedBefore: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate prima di questo momento.

Struttura di DataQualityRulesetFilterCriteria

I criteri utilizzati per filtrare i set di regole della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del criterio di filtro del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    La descrizione dei criteri di filtro del set di regole.

  • CreatedBefore: timestamp.

    Filtra i set di regole creati prima di questa data.

  • CreatedAfter: timestamp.

    Filtra i set di regole creati dopo questa data.

  • LastModifiedBefore: timestamp.

    Filtra i set di regole modificati per l'ultima volta prima di questa data.

  • LastModifiedAfter: timestamp.

    Filtra i set di regole modificati per l'ultima volta dopo questa data.

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

Struttura DataQualityAggregatedMetrics

Un riepilogo dei parametri che mostra il conteggio totale delle righe e delle regole elaborate, incluse le relative statistiche di pass/fail basate sui risultati a livello di riga.

Campi
  • TotalRowsProcessed: numero (doppio).

    Il numero totale di righe elaborate durante la valutazione della qualità dei dati.

  • TotalRowsPassed: numero (doppio).

    Il numero totale di righe che hanno superato tutte le regole di qualità dei dati applicabili.

  • TotalRowsFailed: numero (doppio).

    Il numero totale di righe che non hanno superato una o più regole di qualità dei dati.

  • TotalRulesProcessed: numero (doppio).

    Il numero totale di regole di qualità dei dati valutate.

  • TotalRulesPassed: numero (doppio).

    Il numero totale di regole di qualità dei dati che hanno superato i criteri di valutazione.

  • TotalRulesFailed: numero (doppio).

    Il numero totale di regole di qualità dei dati che non hanno superato i criteri di valutazione.

Struttura StatisticAnnotation

Un'annotazione statistica.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • StatisticRecordedOn: timestamp.

    Il timestamp del momento in cui è stata registrata la statistica annotata.

  • InclusionAnnotation: un oggetto TimestampedInclusionAnnotation.

    L'annotazione di inclusione applicata alla statistica.

Struttura TimestampedInclusionAnnotation

Un'annotazione di inclusione con timestamp.

Campi
  • Value: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione.

  • LastModifiedOn: timestamp.

    Il timestamp del momento in cui è avvenuta l'ultima modifica dell'annotazione di inclusione.

Struttura AnnotationError

Un'annotazione non riuscita.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo dell'annotazione non riuscita.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica dell'annotazione non riuscita.

  • FailureReason: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Il motivo per cui l'annotazione non è riuscita.

Struttura DatapointInclusionAnnotation

Un'annotazione di inclusione.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del profilo di qualità dei dati a cui appartiene la statistica.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • InclusionAnnotation: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione da applicare alla statistica.

Elenco StatisticSummaryList

elenco di StatisticSummary.

Un array di oggetti StatisticSummary.

elenco di StatisticSummary.

Struttura StatisticSummary

Informazioni di riepilogo relative a una statistica.

Campi
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • RunIdentifier: un oggetto RunIdentifier.

    L'identificatore dell'esecuzione

  • StatisticName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #16.

    Il nome della statistica.

  • DoubleValue: numero (doppio).

    Il valore della statistica.

  • EvaluationLevel: stringa UTF-8 (valori validi: Dataset="DATASET" | Column="COLUMN" | Multicolumn="MULTICOLUMN").

    Il livello di valutazione della statistica. Valori possibili: Dataset, Column, Multicolumn.

  • ColumnsReferenced: una matrice di stringhe UTF-8.

    L'elenco delle colonne a cui fa riferimento la statistica.

  • ReferencedDatasets: una matrice di stringhe UTF-8.

    L'elenco dei set di dati a cui fa riferimento la statistica.

  • StatisticProperties: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è una stringa Description, non superiore a 2.048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una StatisticPropertiesMap, che contiene una NameString e una DescriptionString

  • RecordedOn: timestamp.

    Il timestamp del momento in cui è stata registrata la statistica.

  • InclusionAnnotation: un oggetto TimestampedInclusionAnnotation.

    L'annotazione di inclusione della statistica.

Struttura RunIdentifier

Un identificatore di esecuzione.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del processo di esecuzione.

Struttura StatisticModelResult

Il risultato del modello statistico.

Campi
  • LowerBound: numero (doppio).

    Il limite inferiore.

  • UpperBound: numero (doppio).

    Il limite superiore.

  • PredictedValue: numero (doppio).

    Il valore previsto.

  • ActualValue: numero (doppio).

    Il valore effettivo.

  • Date: timestamp.

    La data.

  • InclusionAnnotation: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    L'annotazione di inclusione.

Struttura DataQualityGlueTable

Il database e la tabella in AWS Glue Data Catalog utilizzati per i dati di input o output per le operazioni di qualità dei dati.

Campi
  • DatabaseName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome del database in AWS Glue Data Catalog.

  • TableName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome della tabella in AWS Glue Data Catalog.

  • CatalogId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco per AWS Glue Data Catalog.

  • ConnectionName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome della connessione a AWS Glue Data Catalog.

  • AdditionalOptions: una matrice di mappe di coppie chiave-valore, non meno di 1 o più di 10 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è una stringa Description, non superiore a 2.048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Opzioni aggiuntive per la tabella. Al momento sono supportate due chiavi:

    • pushDownPredicate: filtra le partizioni senza dover elencare e leggere tutti i file nel set di dati.

    • catalogPartitionPredicate: per utilizzare l'eliminazione delle partizioni lato server utilizzando gli indici delle partizioni in AWS Glue Data Catalog.

  • PreProcessingQuery: stringa UTF-8, non superiore a 51200 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Query SQL in formato SparkSQL che può essere utilizzata per pre-elaborare i dati della tabella in AWS Glue Data Catalog prima di eseguire l'operazione di qualità dei dati.

Operazioni

Operazione StartDataQualityRulesetEvaluationRun (Python: start_data_quality_ruleset_evaluation_run)

Una volta ottenuta una definizione del set di regole (consigliata o personalizzata), si chiama questa operazione per valutare il set di regole rispetto a un'origine dati (tabella AWS Glue). La valutazione calcola i risultati che è possibile recuperare con l'API GetDataQualityResult.

Richiesta
  • DataSource - obbligatorio: un oggetto DataSource.

    L'origine dei dati (tabella AWS Glue) associata a questa esecuzione.

  • Role - obbligatorio: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione (in minuti). Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

  • AdditionalRunOptions: un oggetto DataQualityEvaluationRunAdditionalRunOptions.

    Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

  • RulesetNames - obbligatorio: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di nomi di set di regole.

  • AdditionalDataSources: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un oggetto DataSource.

    Una mappa di stringhe di riferimento a origini dati aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

Operazione CancelDataQualityRulesetEvaluationRun (Python: cancel_data_quality_ruleset_evaluation_run)

Annulla un'esecuzione in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetDataQualityRulesetEvaluationRun (Python: get_data_quality_ruleset_evaluation_run)

Richiama un'esecuzione in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dei dati (una tabella AWS Glue) associata a questa esecuzione della valutazione.

  • Role: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione (in minuti). Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • AdditionalRunOptions: un oggetto DataQualityEvaluationRunAdditionalRunOptions.

    Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RulesetNames: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di nomi dei set di regole per l'esecuzione. Attualmente, questo parametro accetta un solo nome di set di regole.

  • ResultIds: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di ID dei risultati per i risultati della qualità dei dati per l'esecuzione.

  • AdditionalDataSources: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un oggetto DataSource.

    Una mappa di stringhe di riferimento a origini dati aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListDataQualityRulesetEvaluationRuns (Python: list_data_quality_ruleset_evaluation_runs)

Elenca tutte le esecuzioni che soddisfano i criteri di filtro, in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • Filter: un oggetto DataQualityRulesetEvaluationRunFilter.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

Risposta
  • Runs: una matrice di oggetti DataQualityRulesetEvaluationRunDescription.

    Un elenco di oggetti DataQualityRulesetEvaluationRunDescription che rappresentano le esecuzioni del set di regole della qualità dei dati.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione StartDataQualityRuleRecommendationRun (Python: start_data_quality_rule_recommendation_run)

Avviare l'esecuzione di una raccomandazione che è utilizzata per generare regole quando non si conoscono le regole da scrivere. AWS Glue Data Quality analizza i dati e fornisce le raccomandazioni per un potenziale set di regole. È possibile quindi classificare il set di regole e modificare il set di regole generato a proprio piacimento.

Le esecuzioni di consigli vengono eliminate automaticamente dopo 90 giorni.

Richiesta

La richiesta di raccomandazione della regola di qualità dei dati.

  • DataSource: obbligatorio: un oggetto DataSource.

    L'origine dei dati (tabella AWS Glue) associata a questa esecuzione.

  • Role: obbligatorio: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione (in minuti). Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

Operazione CancelDataQualityRuleRecommendationRun (Python: cancel_data_quality_rule_recommendation_run)

Annulla l'esecuzione della raccomandazione specificata utilizzata per generare le regole.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetDataQualityRuleRecommendationRun (Python: get_data_quality_rule_recommendation_run)

Ottiene l'esecuzione della raccomandazione specificata utilizzata per generare le regole.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta

La risposta dell'esecuzione della raccomandazione della regola di qualità dei dati.

  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dei dati (una tabella AWS Glue) associata a questa esecuzione.

  • Role: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione (in minuti). Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RecommendedRuleset: stringa UTF-8, non inferiore a 1 o superiore a 65.536 byte di lunghezza.

    Una volta completata l'esecuzione di una raccomandazione della regola di avvio, viene creato un set di regole consigliato (una serie di regole). Questo membro ha queste regole nel formato DQDL (Data Quality Definition Language).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole che è stato creato dall'esecuzione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListDataQualityRuleRecommendationRuns (Python: list_data_quality_rule_recommendation_runs)

Elenca le esecuzioni delle raccomandazioni che soddisfano i criteri di filtro.

Richiesta
  • Filter: un oggetto DataQualityRuleRecommendationRunFilter.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Numero massimo di risultati da restituire.

Risposta
  • Runs: una matrice di oggetti DataQualityRuleRecommendationRunDescription.

    Elenco di oggetti DataQualityRuleRecommendationRunDescription.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetDataQualityResult (Python: get_data_quality_result)

Recupera il risultato di una valutazione della regola della qualità dei dati.

Richiesta
  • ResultId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

Risposta

La risposta del risultato di qualità dei dati.

  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1,0.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un processo in AWS Glue Studio, a ogni nodo dell'area di disegno viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio dell'esecuzione di questo risultato della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione di questo risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco associato alla valutazione del set di regole.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli oggetti DataQualityAggregatedMetrics che mostra il conteggio totale delle righe e delle regole elaborate, incluse le relative statistiche di pass/fail basate sui risultati a livello di riga.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • EntityNotFoundException

Operazione BatchGetDataQualityResult (Python: batch_get_data_quality_result)

Recupera un elenco di risultati della qualità dei dati per gli ID dei risultati specificati.

Richiesta
  • ResultIds - obbligatorio: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 100 stringhe.

    Un elenco di ID dei risultati univoci per i risultati della qualità dei dati.

Risposta
  • Results - obbligatorio: una matrice di oggetti DataQualityResult.

    Un elenco di oggetti DataQualityResult che rappresentano i risultati della qualità dei dati.

  • ResultsNotFound: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 100 stringhe.

    Un elenco di ID dei risultati per i quali non sono stati trovati risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListDataQualityResults (Python: list_data_quality_results)

Restituisce tutti i risultati di esecuzione della qualità dei dati per il tuo account.

Richiesta
  • Filter: un oggetto DataQualityResultFilterCriteria.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

Risposta
  • Results - obbligatorio: una matrice di oggetti DataQualityResultDescription.

    Elenco di oggetti DataQualityResultDescription.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione CreateDataQualityRuleset (Python: create_data_quality_ruleset)

Crea un set di regole di qualità dei dati con regole DQDL applicate a una tabella AWS Glue specificata.

Il set di regole viene creato utilizzando il Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la Guida per gli sviluppatori di AWS Glue.

Richiesta

Una richiesta di creazione di un set di regole di qualità dei dati.

  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • Ruleset - obbligatorio: stringa UTF-8, lunghezza non inferiore a 1 o non superiore a 65.536 byte.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consultare la Guida per gli sviluppatori di AWS Glue.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag applicati al set di regole di qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Una tabella di destinazione associata al set di regole di qualità dei dati.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di esecuzione univoco per l'esecuzione della raccomandazione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Risposta
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

Errori
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

Operazione DeleteDataQualityRuleset (Python: delete_data_quality_ruleset)

Elimina un set di regole di qualità dei dati.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole di qualità dei dati.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetDataQualityRuleset (Python: get_data_quality_ruleset)

Restituisce un set di regole esistente per identificatore o nome.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

Risposta

Restituisce la risposta del set di regole di qualità dei dati.

  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consultare la Guida per gli sviluppatori di AWS Glue.

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

  • CreatedOn: timestamp.

    Un Timestamp. La data e l'ora di creazione del set di regole di qualità dei dati.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questo set di regole di qualità dei dati è stato modificato.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListDataQualityRulesets (Python: list_data_quality_rulesets)

Restituisce un elenco paginato di set di regole per l'elenco di tabelle specificato AWS Glue.

Richiesta
  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

  • Filter: un oggetto DataQualityRulesetFilterCriteria.

    I criteri di filtro.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag di coppie chiave-valore.

Risposta
  • Rulesets: una matrice di oggetti DataQualityRulesetListDetails.

    Un elenco paginato di set di regole per l'elenco di tabelle AWS Glue specificato.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione UpdateDataQualityRuleset (Python: update_data_quality_ruleset)

Aggiorna il set di regole di qualità dei dati specificato.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consultare la Guida per gli sviluppatori di AWS Glue.

Risposta
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consultare la Guida per gli sviluppatori di AWS Glue.

Errori
  • EntityNotFoundException

  • AlreadyExistsException

  • IdempotentParameterMismatchException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

Operazione ListDataQualityStatistics (Python: list_data_quality_statistics)

Recupera un elenco di statistiche di qualità dei dati.

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • TimestampFilter: un oggetto TimestampFilter.

    Un filtro di timestamp.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire in questa richiesta.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per richiedere la pagina successiva di risultati.

Risposta
  • Statistics: una matrice di oggetti StatisticSummary.

    Una StatisticSummaryList.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per richiedere la pagina successiva di risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

Struttura TimestampFilter

Un filtro di timestamp.

Campi
  • RecordedBefore: timestamp.

    Il timestamp prima del quale le statistiche devono essere incluse nei risultati.

  • RecordedAfter: timestamp.

    Il timestamp dopo il quale le statistiche devono essere incluse nei risultati.

Struttura CreateDataQualityRulesetRequest

Una richiesta di creazione di un set di regole di qualità dei dati.

Campi
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • Ruleset - obbligatorio: stringa UTF-8, lunghezza non inferiore a 1 o non superiore a 65536 byte.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la Guida per gli sviluppatori di AWS Glue.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag applicati al set di regole di qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Una tabella di destinazione associata al set di regole di qualità dei dati.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di esecuzione univoco per l'esecuzione della raccomandazione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Struttura GetDataQualityRulesetResponse

Restituisce la risposta del set di regole di qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consultare la Guida per gli sviluppatori di AWS Glue.

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

  • CreatedOn: timestamp.

    Un Timestamp. La data e l'ora di creazione del set di regole di qualità dei dati.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questo set di regole di qualità dei dati è stato modificato.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Struttura GetDataQualityResultResponse

La risposta del risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un processo in AWS Glue Studio, a ogni nodo dell'area di disegno viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio dell'esecuzione di questo risultato della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione di questo risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco associato alla valutazione del set di regole.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli oggetti DataQualityAggregatedMetrics che mostra il conteggio totale delle righe e delle regole elaborate, incluse le relative statistiche di pass/fail basate sui risultati a livello di riga.

Struttura StartDataQualityRuleRecommendationRunRequest

La richiesta di raccomandazione della regola di qualità dei dati.

Campi
  • DataSource: obbligatorio: un oggetto DataSource.

    L'origine dei dati (tabella AWS Glue) associata a questa esecuzione.

  • Role: obbligatorio: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione (in minuti). Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Struttura GetDataQualityRuleRecommendationRunResponse

La risposta dell'esecuzione della raccomandazione della regola di qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dei dati (una tabella AWS Glue) associata a questa esecuzione.

  • Role: stringa UTF-8.

    Un ruolo IAM fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RecommendedRuleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Una volta completata l'esecuzione di una raccomandazione della regola di avvio, viene creato un set di regole consigliato (una serie di regole). Questo membro ha queste regole nel formato DQDL (Data Quality Definition Language).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole che è stato creato dall'esecuzione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Operazione BatchPutDataQualityStatisticAnnotation (Python: batch_put_data_quality_statistic_annotation)

Annota i datapoint nel tempo per una statistica di qualità dei dati specifica. L'API richiede sia profileID che statisticID come parte dell'input InclusionAnnotation. L'API funziona solo per un singolo statisticId in più profili.

Richiesta
  • InclusionAnnotations - obbligatorio: una matrice di oggetti DatapointInclusionAnnotation.

    Un elenco di DatapointInclusionAnnotation. Le InclusionAnnotation devono contenere un profileId e un statisticId. Se sono presenti più InclusionAnnotation, l'elenco deve fare riferimento a un singolo statisticId in più profileId.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Token client.

Risposta
  • FailedInclusionAnnotations: una matrice di oggetti AnnotationError.

    Un elenco di AnnotationError.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • ResourceNumberLimitExceededException

Operazione GetDataQualityModel (Python: get_data_quality_model)

Recupera lo stato di addestramento del modello insieme a ulteriori informazioni (CompletedOn, StartedOn, FailureReason).

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

Risposta
  • Status: stringa UTF-8 (valori validi: RUNNING | SUCCEEDED | FAILED).

    Lo stato di addestramento del modello di qualità dei dati.

  • StartedOn: timestamp.

    Il timestamp del momento di inizio dell'addestramento del modello.

  • CompletedOn: timestamp.

    Il timestamp del momento di completamento dell'addestramento del modello.

  • FailureReason: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il motivo per cui l'addestramento non è riuscito.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetDataQualityModelResult (Python: get_data_quality_model_result)

Recupera le previsioni di una statistica per un determinato ID profilo.

Richiesta
  • StatisticId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

Risposta
  • CompletedOn: timestamp.

    Il timestamp del momento di completamento dell'addestramento del modello.

  • Model: una matrice di oggetti StatisticModelResult.

    Un elenco di StatisticModelResult.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListDataQualityStatisticAnnotations (Python: list_data_quality_statistic_annotations)

Recupera le annotazioni di una statistica di qualità dei dati.

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • TimestampFilter: un oggetto TimestampFilter.

    Un filtro di timestamp.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire in questa richiesta.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per recuperare il set di risultati successivo.

Risposta
  • Annotations: una matrice di oggetti StatisticAnnotation.

    Un elenco di StatisticAnnotation applicato alla statistica.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per recuperare il set di risultati successivo.

Errori
  • InvalidInputException

  • InternalServiceException

Operazione PutDataQualityProfileAnnotation (Python: put_data_quality_profile_annotation)

Annota tutti i datapoint di un profilo.

Richiesta
  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del profilo di monitoraggio della qualità dei dati da annotare.

  • InclusionAnnotation - obbligatorio: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione da applicare al profilo.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException