API di qualità dei dati - AWS Glue
 - tipi di dati -DataSourceDataQualityRulesetListDetailsDataQualityTargetTableDataQualityRulesetEvaluationRunDescriptionDataQualityRulesetEvaluationRunFilterDataQualityEvaluationRunAdditionalRunOptionsDataQualityRuleRecommendationRunDescriptionDataQualityRuleRecommendationRunFilterDataQualityResultDataQualityAnalyzerResultDataQualityObservationMetricBasedObservationDataQualityMetricValuesDataQualityRuleResultDataQualityResultDescriptionDataQualityResultFilterCriteriaDataQualityRulesetFilterCriteriaDataQualityAggregatedMetricsStatisticAnnotationTimestampedInclusionAnnotationAnnotationErrorDatapointInclusionAnnotationStatisticSummaryListStatisticSummaryRunIdentifierStatisticModelResultDataQualityGlueTable - operazioni -StartDataQualityRulesetEvaluationRun (start_data_quality_ruleset_evaluation_run)CancelDataQualityRulesetEvaluationRun (cancel_data_quality_ruleset_evaluation_run)GetDataQualityRulesetEvaluationRun (get_data_quality_ruleset_evaluation_run)ListDataQualityRulesetEvaluationRuns (list_data_quality_ruleset_evaluation_runs)StartDataQualityRuleRecommendationRun (start_data_quality_rule_recommendation_run)CancelDataQualityRuleRecommendationRun (cancel_data_quality_rule_recommendation_run)GetDataQualityRuleRecommendationRun (get_data_quality_rule_recommendation_run)ListDataQualityRuleRecommendationRuns (list_data_quality_rule_recommendation_runs)GetDataQualityResult (get_data_quality_result)BatchGetDataQualityResult (batch_get_data_quality_result)ListDataQualityResults (list_data_quality_results)CreateDataQualityRuleset (create_data_quality_ruleset)DeleteDataQualityRuleset (delete_data_quality_ruleset)GetDataQualityRuleset (get_data_quality_ruleset)ListDataQualityRulesets (list_data_quality_rulesets)UpdateDataQualityRuleset (update_data_quality_ruleset)ListDataQualityStatistics (list_data_quality_statistics)TimestampFilterCreateDataQualityRulesetRequestGetDataQualityRulesetResponseGetDataQualityResultResponseStartDataQualityRuleRecommendationRunRequestGetDataQualityRuleRecommendationRunResponseBatchPutDataQualityStatisticAnnotation (batch_put_data_quality_statistic_annotation)GetDataQualityModel (get_data_quality_model)GetDataQualityModelResult (get_data_quality_model_result)ListDataQualityStatisticAnnotations (list_data_quality_statistic_annotations)PutDataQualityProfileAnnotation (put_data_quality_profile_annotation)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

API di qualità dei dati

L'API di qualità dei dati descrive i tipi di dati relativi alla qualità dei dati e include l'API per la creazione, l'eliminazione o l'aggiornamento dei set di regole, le esecuzioni e le valutazioni della qualità.

Tipi di dati

DataSource struttura

Una fonte di dati (una AWS Glue tabella) per la quale desideri ottenere risultati sulla qualità dei dati.

Campi
  • GlueTable: un oggetto GlueTable.

    Una AWS Glue tabella.

  • DataQualityGlueTable: un oggetto DataQualityGlueTable.

    Una AWS Glue tabella per le operazioni sulla qualità dei dati.

DataQualityRulesetListDetails struttura

Descrive un set di regole di qualità dei dati restituito da GetDataQualityRuleset.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • CreatedOn: timestamp.

    La data e l'ora di creazione del set di regole della qualità dei dati.

  • LastModifiedOn: timestamp.

    La data e l'ora di modifica del set di regole della qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Un oggetto che rappresenta una AWS Glue tabella.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • RuleCount: numero (intero).

    Il numero di regole nel set di regole.

DataQualityTargetTable struttura

Un oggetto che rappresenta una AWS Glue tabella.

Campi
  • TableName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della AWS Glue tabella.

  • DatabaseName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del database in cui esiste la AWS Glue tabella.

  • CatalogId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del catalogo dove si trova la AWS Glue tabella.

DataQualityRulesetEvaluationRunDescription struttura

Descrive il risultato di un'esecuzione di valutazione del set di regole della qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • StartedOn: timestamp.

    La data e l'ora di inizio dell'esecuzione.

  • DataSource: un oggetto DataSource.

    L'origine dati (una AWS Glue tabella) associata all'esecuzione.

DataQualityRulesetEvaluationRunFilter struttura

I criteri di filtro.

Campi
  • DataSource - obbligatorio: un oggetto DataSource.

    Filtro basato su una fonte di dati (una AWS Glue tabella) associata all'esecuzione.

  • StartedBefore: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate prima di questo momento.

  • StartedAfter: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate dopo questo momento.

DataQualityEvaluationRunAdditionalRunOptions struttura

Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Campi
  • CloudWatchMetricsEnabled: booleano.

    Se abilitare o meno le CloudWatch metriche.

  • ResultsS3Prefix: stringa UTF-8.

    Prefisso per Amazon S3 per archiviare i risultati.

  • CompositeRuleEvaluationMethod: stringa UTF-8 (valori validi: COLUMN | ROW).

    Impostare il metodo di valutazione per le regole composite del set di regole su ROW/COLUMN

DataQualityRuleRecommendationRunDescription struttura

Descrive il risultato dell'esecuzione di una raccomandazione per una regola di qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • DataSource: un oggetto DataSource.

    L'origine dati (AWS Glue tabella) associata all'esecuzione della raccomandazione.

DataQualityRuleRecommendationRunFilter struttura

Un filtro per elencare le esecuzioni delle raccomandazioni per la qualità dei dati.

Campi
  • DataSource - obbligatorio: un oggetto DataSource.

    Filtro basato su una fonte di dati specificata (AWS Glue tabella).

  • StartedBefore: timestamp.

    Filtra in base all'ora per i risultati avviati prima dell'ora indicata.

  • StartedAfter: timestamp.

    Filtra in base all'ora per i risultati avviati dopo l'ora indicata.

DataQualityResult struttura

Descrive un risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un lavoro in AWS Glue Studio, a ogni nodo dell'area di disegno viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio di questa esecuzione della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco per la valutazione del set di regole per questo risultato di qualità dei dati.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli DataQualityAggregatedMetrics oggetti che mostra il conteggio totale delle righe e delle regole elaborate, comprese le relative pass/fail statistiche basate sui risultati a livello di riga.

DataQualityAnalyzerResult struttura

Descrive il risultato della valutazione di uno strumento di analisi della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome dello strumento di analisi della qualità dei dati.

  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione dello strumento di analisi della qualità dei dati.

  • EvaluationMessage: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Un messaggio di valutazione.

  • EvaluatedMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa dei parametri associati alla valutazione dello strumento di analisi.

DataQualityObservation struttura

Descrive l'osservazione generata dopo la valutazione delle regole e degli strumenti di analisi.

Campi
  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione dell'osservazione della qualità dei dati.

  • MetricBasedObservation: un oggetto MetricBasedObservation.

    Un oggetto di tipo MetricBasedObservation che rappresenta l'osservazione basata sui parametri di qualità dei dati valutati.

MetricBasedObservation struttura

Descrive l'osservazione basata su parametri generata in base a parametri di qualità dei dati valutati.

Campi
  • MetricName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del parametro di qualità dei dati utilizzato per generare l'osservazione.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • MetricValues: un oggetto DataQualityMetricValues.

    Un oggetto di tipo DataQualityMetricValues che rappresenta l'analisi del valore del parametro di qualità dei dati.

  • NewRules: una matrice di stringhe UTF-8.

    Un elenco di nuove regole sulla qualità dei dati generate nell'ambito dell'osservazione basata sul valore dei parametri di qualità dei dati.

DataQualityMetricValues struttura

Descrive il valore del parametro di qualità dei dati in base all'analisi dei dati storici.

Campi
  • ActualValue: numero (doppio).

    Il valore effettivo del parametro di qualità dei dati.

  • ExpectedValue: numero (doppio).

    Il valore previsto del parametro di qualità dei dati in base all'analisi dei dati storici.

  • LowerLimit: numero (doppio).

    Il limite inferiore del valore del parametro di qualità dei dati in base all'analisi dei dati storici.

  • UpperLimit: numero (doppio).

    Il limite superiore del valore del parametro di qualità dei dati in base all'analisi dei dati storici.

DataQualityRuleResult struttura

Descrive il risultato della valutazione del set di regole della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della regola di qualità dei dati.

  • Description: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione della regola di qualità dei dati.

  • EvaluationMessage: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Un messaggio di valutazione.

  • Result: stringa UTF-8 (valori validi: PASS | FAIL | ERROR).

    Lo stato positivo o negativo per la regola.

  • EvaluatedMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa dei parametri associati alla valutazione della regola.

  • EvaluatedRule: stringa UTF-8, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    La regola oggetto di valutazione.

  • RuleMetrics: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un numero (doppio).

    Una mappa contenente i parametri associati alla valutazione della regola in base ai risultati a livello di riga.

DataQualityResultDescription struttura

Descrive un risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del risultato univoco per questo risultato della qualità dei dati.

  • DataSource: un oggetto DataSource.

    Il nome della tabella associata al risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati.

  • StartedOn: timestamp.

    L'ora di inizio dell'esecuzione per questo risultato di qualità dei dati.

DataQualityResultFilterCriteria struttura

Criteri utilizzati per restituire i risultati della qualità dei dati.

Campi
  • DataSource: un oggetto DataSource.

    Filtra i risultati in base all'origine dati specificata. Ad esempio, recuperare tutti i risultati per una AWS Glue tabella.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Filtra i risultati in base al nome del processo specificato.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Filtra i risultati in base all'ID di esecuzione del processo specificato.

  • StartedAfter: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate dopo questo momento.

  • StartedBefore: timestamp.

    Filtra i risultati in base alle esecuzioni iniziate prima di questo momento.

DataQualityRulesetFilterCriteria struttura

I criteri utilizzati per filtrare i set di regole della qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del criterio di filtro del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    La descrizione dei criteri di filtro del set di regole.

  • CreatedBefore: timestamp.

    Filtra i set di regole creati prima di questa data.

  • CreatedAfter: timestamp.

    Filtra i set di regole creati dopo questa data.

  • LastModifiedBefore: timestamp.

    Filtra i set di regole modificati per l'ultima volta prima di questa data.

  • LastModifiedAfter: timestamp.

    Filtra i set di regole modificati per l'ultima volta dopo questa data.

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

DataQualityAggregatedMetrics struttura

Un riepilogo delle metriche che mostra il conteggio totale delle righe e delle regole elaborate, comprese le relative pass/fail statistiche basate sui risultati a livello di riga.

Campi
  • TotalRowsProcessed: numero (doppio).

    Il numero totale di righe elaborate durante la valutazione della qualità dei dati.

  • TotalRowsPassed: numero (doppio).

    Il numero totale di righe che hanno superato tutte le regole di qualità dei dati applicabili.

  • TotalRowsFailed: numero (doppio).

    Il numero totale di righe che non hanno superato una o più regole di qualità dei dati.

  • TotalRulesProcessed: numero (doppio).

    Il numero totale di regole di qualità dei dati valutate.

  • TotalRulesPassed: numero (doppio).

    Il numero totale di regole di qualità dei dati che hanno superato i criteri di valutazione.

  • TotalRulesFailed: numero (doppio).

    Il numero totale di regole di qualità dei dati che non hanno superato i criteri di valutazione.

StatisticAnnotation struttura

Un'annotazione statistica.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • StatisticRecordedOn: timestamp.

    Il timestamp del momento in cui è stata registrata la statistica annotata.

  • InclusionAnnotation: un oggetto TimestampedInclusionAnnotation.

    L'annotazione di inclusione applicata alla statistica.

TimestampedInclusionAnnotation struttura

Un'annotazione di inclusione con timestamp.

Campi
  • Value: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione.

  • LastModifiedOn: timestamp.

    Il timestamp del momento in cui è avvenuta l'ultima modifica dell'annotazione di inclusione.

AnnotationError struttura

Un'annotazione non riuscita.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo dell'annotazione non riuscita.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica dell'annotazione non riuscita.

  • FailureReason: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Il motivo per cui l'annotazione non è riuscita.

DatapointInclusionAnnotation struttura

Un'annotazione di inclusione.

Campi
  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del profilo di qualità dei dati a cui appartiene la statistica.

  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • InclusionAnnotation: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione da applicare alla statistica.

StatisticSummaryList elenco

elenco di StatisticSummary.

Un array di oggetti StatisticSummary.

elenco di StatisticSummary.

StatisticSummary struttura

Informazioni di riepilogo relative a una statistica.

Campi
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • RunIdentifier: un oggetto RunIdentifier.

    L'identificatore dell'esecuzione

  • StatisticName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #16.

    Il nome della statistica.

  • DoubleValue: numero (doppio).

    Il valore della statistica.

  • EvaluationLevel: stringa UTF-8 (valori validi: Dataset="DATASET" | Column="COLUMN" | Multicolumn="MULTICOLUMN").

    Il livello di valutazione della statistica. Valori possibili: Dataset, Column, Multicolumn.

  • ColumnsReferenced: una matrice di stringhe UTF-8.

    L'elenco delle colonne a cui fa riferimento la statistica.

  • ReferencedDatasets: una matrice di stringhe UTF-8.

    L'elenco dei set di dati a cui fa riferimento la statistica.

  • StatisticProperties: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è una stringa Description, non superiore a 2.048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una StatisticPropertiesMap, che contiene una NameString e una DescriptionString

  • RecordedOn: timestamp.

    Il timestamp del momento in cui è stata registrata la statistica.

  • InclusionAnnotation: un oggetto TimestampedInclusionAnnotation.

    L'annotazione di inclusione della statistica.

RunIdentifier struttura

Un identificatore di esecuzione.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del processo di esecuzione.

StatisticModelResult struttura

Il risultato del modello statistico.

Campi
  • LowerBound: numero (doppio).

    Il limite inferiore.

  • UpperBound: numero (doppio).

    Il limite superiore.

  • PredictedValue: numero (doppio).

    Il valore previsto.

  • ActualValue: numero (doppio).

    Il valore effettivo.

  • Date: timestamp.

    La data.

  • InclusionAnnotation: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    L'annotazione di inclusione.

DataQualityGlueTable struttura

Il database e la tabella utilizzati per AWS Glue Data Catalog i dati di input o output per le operazioni di qualità dei dati.

Campi
  • DatabaseName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome del database in AWS Glue Data Catalog.

  • TableName - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome della tabella in AWS Glue Data Catalog.

  • CatalogId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco per AWS Glue Data Catalog.

  • ConnectionName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome della connessione a AWS Glue Data Catalog.

  • AdditionalOptions: una matrice di mappe di coppie chiave-valore, non meno di 1 o più di 10 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è una stringa Description, non superiore a 2.048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Opzioni aggiuntive per la tabella. Al momento sono supportate due chiavi:

    • pushDownPredicate: filtra le partizioni senza dover elencare e leggere tutti i file nel set di dati.

    • catalogPartitionPredicate: per utilizzare l'eliminazione delle partizioni lato server utilizzando gli indici delle partizioni in AWS Glue Data Catalog.

  • PreProcessingQuery: stringa UTF-8, non superiore a 51200 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Query SQL in formato SparkSQL che può essere utilizzata per preelaborare i dati per la tabella in AWS Glue Data Catalog, prima di eseguire la Data Quality Operation.

Operazioni

StartDataQualityRulesetEvaluationRun azione (Python: start_data_quality_ruleset_evaluation_run)

Una volta ottenuta una definizione del set di regole (consigliata o personalizzata), si chiama questa operazione per valutare il set di regole rispetto a una fonte di dati (tabella).AWS Glue La valutazione calcola i risultati che è possibile recuperare con l'API GetDataQualityResult.

Richiesta
  • DataSource - obbligatorio: un oggetto DataSource.

    L'origine dati (AWS Glue tabella) associata a questa esecuzione.

  • Role - Obbligatorio: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

  • AdditionalRunOptions: un oggetto DataQualityEvaluationRunAdditionalRunOptions.

    Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

  • RulesetNames - obbligatorio: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di nomi di set di regole.

  • AdditionalDataSources: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un oggetto DataSource.

    Una mappa di stringhe di riferimento a origini dati aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRulesetEvaluationRun azione (Python: cancel_data_quality_ruleset_evaluation_run)

Annulla un'esecuzione in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRulesetEvaluationRun azione (Python: get_data_quality_ruleset_evaluation_run)

Richiama un'esecuzione in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dati (una tabella) associata a questa esecuzione di valutazione. AWS Glue

  • Role: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • AdditionalRunOptions: un oggetto DataQualityEvaluationRunAdditionalRunOptions.

    Opzioni di esecuzione aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RulesetNames: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di nomi dei set di regole per l'esecuzione. Attualmente, questo parametro accetta un solo nome di set di regole.

  • ResultIds: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 10 stringhe.

    Un elenco di risultati IDs per i risultati di qualità dei dati per l'esecuzione.

  • AdditionalDataSources: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è un oggetto DataSource.

    Una mappa di stringhe di riferimento a origini dati aggiuntive che è possibile specificare per l'esecuzione di una valutazione.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesetEvaluationRuns azione (Python: list_data_quality_ruleset_evaluation_runs)

Elenca tutte le esecuzioni che soddisfano i criteri di filtro, in cui un set di regole viene valutato rispetto a un'origine dati.

Richiesta
  • Filter: un oggetto DataQualityRulesetEvaluationRunFilter.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

Risposta
  • Runs: una matrice di oggetti DataQualityRulesetEvaluationRunDescription.

    Un elenco di oggetti DataQualityRulesetEvaluationRunDescription che rappresentano le esecuzioni del set di regole della qualità dei dati.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartDataQualityRuleRecommendationRun azione (Python: start_data_quality_rule_recommendation_run)

Avvia un'esecuzione di raccomandazioni che viene utilizzata per generare regole quando non sai quali regole scrivere. AWS Glue Data Quality analizza i dati e fornisce consigli per un potenziale set di regole. È possibile quindi classificare il set di regole e modificare il set di regole generato a proprio piacimento.

Le esecuzioni di consigli vengono eliminate automaticamente dopo 90 giorni.

Richiesta

La richiesta di raccomandazione della regola di qualità dei dati.

  • DataSource - obbligatorio: un oggetto DataSource.

    La fonte di dati (AWS Glue tabella) associata a questa esecuzione.

  • Role - Obbligatorio: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Risposta
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConflictException

CancelDataQualityRuleRecommendationRun azione (Python: cancel_data_quality_rule_recommendation_run)

Annulla l'esecuzione della raccomandazione specificata utilizzata per generare le regole.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleRecommendationRun azione (Python: get_data_quality_rule_recommendation_run)

Ottiene l'esecuzione della raccomandazione specificata utilizzata per generare le regole.

Richiesta
  • RunId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Risposta

La risposta dell'esecuzione della raccomandazione della regola di qualità dei dati.

  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dati (una tabella) associata a questa esecuzione. AWS Glue

  • Role: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RecommendedRuleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Una volta completata l'esecuzione di una raccomandazione della regola di avvio, viene creato un set di regole consigliato (una serie di regole). Questo membro ha queste regole nel formato DQDL (Data Quality Definition Language).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole che è stato creato dall'esecuzione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRuleRecommendationRuns azione (Python: list_data_quality_rule_recommendation_runs)

Elenca le esecuzioni delle raccomandazioni che soddisfano i criteri di filtro.

Richiesta
  • Filter: un oggetto DataQualityRuleRecommendationRunFilter.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

Risposta
  • Runs: una matrice di oggetti DataQualityRuleRecommendationRunDescription.

    Elenco di oggetti DataQualityRuleRecommendationRunDescription.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityResult azione (Python: get_data_quality_result)

Recupera il risultato di una valutazione della regola della qualità dei dati.

Richiesta
  • ResultId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

Risposta

La risposta del risultato di qualità dei dati.

  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un lavoro in AWS Glue Studio, a ogni nodo del canvas viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio dell'esecuzione di questo risultato della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione di questo risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco associato alla valutazione del set di regole.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli DataQualityAggregatedMetrics oggetti che mostra il conteggio totale delle righe e delle regole elaborate, comprese le relative pass/fail statistiche basate sui risultati a livello di riga.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • EntityNotFoundException

BatchGetDataQualityResult azione (Python: batch_get_data_quality_result)

Recupera un elenco di risultati di qualità dei dati per il risultato specificato. IDs

Richiesta
  • ResultIds - obbligatorio: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 100 stringhe.

    Un elenco di risultati univoci IDs per i risultati di qualità dei dati.

Risposta
  • Results - obbligatorio: una matrice di oggetti DataQualityResult.

    Un elenco di oggetti DataQualityResult che rappresentano i risultati della qualità dei dati.

  • ResultsNotFound: una matrice di stringhe UTF-8, non inferiore a 1 o superiore a 100 stringhe.

    Un elenco di risultati IDs per i quali non sono stati trovati risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityResults azione (Python: list_data_quality_results)

Restituisce tutti i risultati di esecuzione della qualità dei dati per il tuo account.

Richiesta
  • Filter: un oggetto DataQualityResultFilterCriteria.

    I criteri di filtro.

  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

Risposta
  • Results - obbligatorio: una matrice di oggetti DataQualityResultDescription.

    Elenco di oggetti DataQualityResultDescription.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CreateDataQualityRuleset azione (Python: create_data_quality_ruleset)

Crea un set di regole di qualità dei dati con regole DQDL applicate a una tabella specificata. AWS Glue

Il set di regole viene creato utilizzando il Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per gli sviluppatori. AWS Glue

Richiesta

Una richiesta di creazione di un set di regole di qualità dei dati.

  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • Ruleset - obbligatorio: stringa UTF-8, lunghezza non inferiore a 1 o non superiore a 65536 byte.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per AWS Glue gli sviluppatori.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag applicati al set di regole di qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Una tabella di destinazione associata al set di regole di qualità dei dati.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di esecuzione univoco per l'esecuzione della raccomandazione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

Risposta
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

Errori
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

DeleteDataQualityRuleset azione (Python: delete_data_quality_ruleset)

Elimina un set di regole di qualità dei dati.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole di qualità dei dati.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityRuleset azione (Python: get_data_quality_ruleset)

Restituisce un set di regole esistente per identificatore o nome.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

Risposta

Restituisce la risposta del set di regole di qualità dei dati.

  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per gli sviluppatori. AWS Glue

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

  • CreatedOn: timestamp.

    Un Timestamp. La data e l'ora di creazione del set di regole di qualità dei dati.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questo set di regole di qualità dei dati è stato modificato.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityRulesets azione (Python: list_data_quality_rulesets)

Restituisce un elenco impaginato di set di regole per l'elenco di tabelle specificato. AWS Glue

Richiesta
  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire.

  • Filter: un oggetto DataQualityRulesetFilterCriteria.

    I criteri di filtro.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag di coppie chiave-valore.

Risposta
  • Rulesets: una matrice di oggetti DataQualityRulesetListDetails.

    Un elenco impaginato di set di regole per l'elenco di tabelle specificato. AWS Glue

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

UpdateDataQualityRuleset azione (Python: update_data_quality_ruleset)

Aggiorna il set di regole di qualità dei dati specificato.

Richiesta
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per gli sviluppatori. AWS Glue

Risposta
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per AWS Glue gli sviluppatori.

Errori
  • EntityNotFoundException

  • AlreadyExistsException

  • IdempotentParameterMismatchException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ResourceNumberLimitExceededException

ListDataQualityStatistics azione (Python: list_data_quality_statistics)

Recupera un elenco di statistiche di qualità dei dati.

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • TimestampFilter: un oggetto TimestampFilter.

    Un filtro di timestamp.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire in questa richiesta.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per richiedere la pagina successiva di risultati.

Risposta
  • Statistics: una matrice di oggetti StatisticSummary.

    Un StatisticSummaryList.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per richiedere la pagina successiva di risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

TimestampFilter struttura

Un filtro di timestamp.

Campi
  • RecordedBefore: timestamp.

    Il timestamp prima del quale le statistiche devono essere incluse nei risultati.

  • RecordedAfter: timestamp.

    Il timestamp dopo il quale le statistiche devono essere incluse nei risultati.

CreateDataQualityRulesetRequest struttura

Una richiesta di creazione di un set di regole di qualità dei dati.

Campi
  • Name - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome univoco per il set di regole di qualità dei dati.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole di qualità dei dati.

  • Ruleset - obbligatorio: stringa UTF-8, lunghezza non inferiore a 1 o non superiore a 65536 byte.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per AWS Glue gli sviluppatori.

  • Tags: una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Un elenco di tag applicati al set di regole di qualità dei dati.

  • TargetTable: un oggetto DataQualityTargetTable.

    Una tabella di destinazione associata al set di regole di qualità dei dati.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di esecuzione univoco per l'esecuzione della raccomandazione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

GetDataQualityRulesetResponse struttura

Restituisce la risposta del set di regole di qualità dei dati.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione del set di regole.

  • Ruleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Un set di regole Data Quality Definition Language (DQDL). Per ulteriori informazioni, consulta la guida per AWS Glue gli sviluppatori.

  • TargetTable: un oggetto DataQualityTargetTable.

    Il nome e il nome del database della tabella di destinazione.

  • CreatedOn: timestamp.

    Un Timestamp. La data e l'ora di creazione del set di regole di qualità dei dati.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questo set di regole di qualità dei dati è stato modificato.

  • RecommendationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Quando un set di regole è stato creato da un'esecuzione di raccomandazione, questo ID di esecuzione viene generato per collegare i due.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

GetDataQualityResultResponse struttura

La risposta del risultato di qualità dei dati.

Campi
  • ResultId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un ID di risultato univoco per il risultato della qualità dei dati.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo del risultato di qualità dei dati.

  • Score: numero (doppio), non superiore a 1.

    Un punteggio aggregato della qualità dei dati. Rappresenta il rapporto tra le regole inviate e il numero totale di regole.

  • DataSource: un oggetto DataSource.

    La tabella associata al risultato della qualità dei dati, se presente.

  • RulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole associato al risultato della qualità dei dati.

  • EvaluationContext: stringa UTF-8.

    Nel contesto di un lavoro in AWS Glue Studio, a ogni nodo dell'area di disegno viene in genere assegnato un nome e i nodi di qualità dei dati avranno dei nomi. Nel caso di più nodi, evaluationContext può differenziare i nodi.

  • StartedOn: timestamp.

    La data e ora di inizio dell'esecuzione di questo risultato della qualità dei dati.

  • CompletedOn: timestamp.

    La data e ora di completamento dell'esecuzione di questo risultato della qualità dei dati.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del processo associato al risultato della qualità dei dati, se presente.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo associato al risultato della qualità dei dati, se presente.

  • RulesetEvaluationRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione univoco associato alla valutazione del set di regole.

  • RuleResults: una matrice di oggetti DataQualityRuleResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityRuleResult che rappresentano i risultati per ogni regola.

  • AnalyzerResults: una matrice di oggetti DataQualityAnalyzerResult, non superiore a 2.000 strutture.

    Un elenco di oggetti DataQualityAnalyzerResult che rappresentano i risultati per ogni analizzatore.

  • Observations: una matrice di oggetti DataQualityObservation, non superiore a 50 strutture.

    Un elenco di oggetti DataQualityObservation che rappresentano le osservazioni generate dopo la valutazione di regole e analizzatori.

  • AggregatedMetrics: un oggetto DataQualityAggregatedMetrics.

    Un riepilogo degli DataQualityAggregatedMetrics oggetti che mostra il conteggio totale delle righe e delle regole elaborate, comprese le relative pass/fail statistiche basate sui risultati a livello di riga.

StartDataQualityRuleRecommendationRunRequest struttura

La richiesta di raccomandazione della regola di qualità dei dati.

Campi
  • DataSource - obbligatorio: un oggetto DataSource.

    L'origine dati (AWS Glue tabella) associata a questa esecuzione.

  • Role - Obbligatorio: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome per il set di regole.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Utilizzato per l'idempotenza e consigliato per l'impostazione su un ID casuale (come un UUID) per evitare di creare o avviare più istanze della stessa risorsa.

GetDataQualityRuleRecommendationRunResponse struttura

La risposta dell'esecuzione della raccomandazione della regola di qualità dei dati.

Campi
  • RunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • DataSource: un oggetto DataSource.

    L'origine dati (una AWS Glue tabella) associata a questa esecuzione.

  • Role: stringa UTF-8.

    Un IAM ruolo fornito per crittografare i risultati dell'esecuzione.

  • NumberOfWorkers: numero (intero).

    Il numero di worker G.1X da utilizzare nell'esecuzione. Il predefinito è 5.

  • Timeout: numero (intero), almeno 1.

    Il timeout per una esecuzione in minuti. Questo è il tempo massimo durante il quale un'esecuzione può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • Status: stringa UTF-8 (valori validi: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

    Lo stato di questa esecuzione.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo momento in cui questa raccomandazione della regola di qualità dei dati è stata modificata.

  • CompletedOn: timestamp.

    La data e l'ora in cui è stata completata questa esecuzione.

  • ExecutionTime: numero (intero).

    La quantità di tempo (in secondi) durante la quale l'esecuzione ha utilizzato le risorse.

  • RecommendedRuleset: stringa UTF-8, non inferiore a 1 o superiore a 65536 byte di lunghezza.

    Una volta completata l'esecuzione di una raccomandazione della regola di avvio, viene creato un set di regole consigliato (una serie di regole). Questo membro ha queste regole nel formato DQDL (Data Quality Definition Language).

  • CreatedRulesetName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome del set di regole che è stato creato dall'esecuzione.

  • DataQualitySecurityConfiguration: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza creata con l'opzione di crittografia di qualità dei dati.

BatchPutDataQualityStatisticAnnotation azione (Python: batch_put_data_quality_statistic_annotation)

Annota i datapoint nel tempo per una statistica di qualità dei dati specifica. L'API richiede sia ProfileID che statisticID come parte dell'input. InclusionAnnotation L'API funziona solo per un singolo statisticId in più profili.

Richiesta
  • InclusionAnnotations - obbligatorio: una matrice di oggetti DatapointInclusionAnnotation.

    Un elenco di DatapointInclusionAnnotation. InclusionAnnotationsDeve contenere un ProfileID e un StatisticId. Se ce ne sono più InclusionAnnotations, l'elenco deve fare riferimento a un singolo StatisticID su più ProfileID.

  • ClientToken: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Token client.

Risposta
  • FailedInclusionAnnotations: una matrice di oggetti AnnotationError.

    Un elenco di AnnotationError.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • ResourceNumberLimitExceededException

GetDataQualityModel azione (Python: get_data_quality_model)

Recupera lo stato di addestramento del modello insieme a ulteriori informazioni (,,). CompletedOn StartedOn FailureReason

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

Risposta
  • Status: stringa UTF-8 (valori validi: RUNNING | SUCCEEDED | FAILED).

    Lo stato di addestramento del modello di qualità dei dati.

  • StartedOn: timestamp.

    Il timestamp del momento di inizio dell'addestramento del modello.

  • CompletedOn: timestamp.

    Il timestamp del momento di completamento dell'addestramento del modello.

  • FailureReason: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il motivo per cui l'addestramento non è riuscito.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetDataQualityModelResult azione (Python: get_data_quality_model_result)

Recupera le previsioni di una statistica per un determinato ID profilo.

Richiesta
  • StatisticId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

Risposta
  • CompletedOn: timestamp.

    Il timestamp del momento di completamento dell'addestramento del modello.

  • Model: una matrice di oggetti StatisticModelResult.

    Un elenco di StatisticModelResult.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListDataQualityStatisticAnnotations azione (Python: list_data_quality_statistic_annotations)

Recupera le annotazioni di una statistica di qualità dei dati.

Richiesta
  • StatisticId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID statistica.

  • ProfileId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID profilo.

  • TimestampFilter: un oggetto TimestampFilter.

    Un filtro di timestamp.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1.000.

    Numero massimo di risultati da restituire in questa richiesta.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per recuperare il set di risultati successivo.

Risposta
  • Annotations: una matrice di oggetti StatisticAnnotation.

    Un elenco di StatisticAnnotation applicato alla statistica.

  • NextToken: stringa UTF-8.

    Un token di impaginazione per recuperare il set di risultati successivo.

Errori
  • InvalidInputException

  • InternalServiceException

PutDataQualityProfileAnnotation azione (Python: put_data_quality_profile_annotation)

Annota tutti i datapoint di un profilo.

Richiesta
  • ProfileId - obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del profilo di monitoraggio della qualità dei dati da annotare.

  • InclusionAnnotation - obbligatorio: stringa UTF-8 (valori validi: INCLUDE | EXCLUDE).

    Il valore dell'annotazione di inclusione da applicare al profilo.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException