API Data Quality API
A API Data Quality descreve os tipos de dados de qualidade dos dados e inclui a API para criar, excluir ou atualizar conjuntos de dados, execuções e avaliações de qualidade de dados.
Tipos de dados
Estrutura DataSource
Uma fonte de dados (uma tabela do AWS Glue) para a qual você deseja resultados de qualidade de dados.
Campos
-
GlueTable– Um objeto GlueTable.Uma tabela do AWS Glue.
-
DataQualityGlueTable– Um objeto DataQualityGlueTable.Uma tabela AWS Glue para operações de qualidade de dados.
Estrutura DataQualityRulesetListDetails
Descreve um conjunto de regras de qualidade de dados retornado por GetDataQualityRuleset.
Campos
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras de qualidade de dados.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição do conjunto de regras de qualidade de dados.
-
CreatedOn– Timestamp.A data e hora da criação do conjunto de regras de qualidade de dados.
-
LastModifiedOn– Timestamp.A data e hora da modificação do conjunto de regras de qualidade de dados.
-
TargetTable– Um objeto DataQualityTargetTable.Um objeto que representa uma tabela do AWS Glue.
-
RecommendationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Quando um conjunto de regras foi criado de execução de uma recomendação, esse ID de execução é gerado para vincular os dois.
-
RuleCount– Número (íntegro).O número de regras no conjunto de regras.
Estrutura DataQualityTargetTable
Um objeto que representa uma tabela do AWS Glue.
Campos
-
TableName: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome da tabela AWS Glue.
-
DatabaseName: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome do banco de dados em que a tabela do AWS Glue existe.
-
CatalogId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do catálogo onde a tabela AWS Glue se encontra.
Estrutura DataQualityRulesetEvaluationRunDescription
Descreve o resultado da avaliação de um conjunto de regras de qualidade de dados.
Campos
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
-
Status– String UTF-8 (valores válidos:RUNNING|FINISHED|FAILED|PENDING_EXECUTION|TIMED_OUT|CANCELING|CANCELED|RECEIVED_BY_TASKRUNNER).O status dessa execução.
-
StartedOn– Timestamp.A data e a hora de início da execução.
-
DataSource– Um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada à execução.
Estrutura DataQualityRulesetEvaluationRunFilter
Os critérios de filtro.
Campos
-
DataSource– Obrigatório: um objeto DataSource.Filtrar com base em uma fonte de dados (uma tabela do AWS Glue) associada à execução.
-
StartedBefore– Timestamp.Filtrar os resultados por execuções iniciadas antes desse horário.
-
StartedAfter– Timestamp.Filtrar os resultados por execuções iniciadas depois desse horário.
Estrutura DataQualityEvaluationRunAdditionalRunOptions
Opções adicionais de execução que você pode especificar para uma execução de avaliação.
Campos
-
CloudWatchMetricsEnabled– Booleano.Se as métricas do CloudWatch devem ou não ser habilitadas.
-
ResultsS3Prefix– String UTF-8.Prefixo para o Amazon S3 para armazenar resultados.
-
CompositeRuleEvaluationMethod: string UTF-8 (valores válidos:COLUMN|ROW).Definir o método de avaliação para regras compostas no conjunto de regras como ROW/COLUMN
Estrutura DataQualityRuleRecommendationRunDescription
Descreve o resultado da avaliação de uma recomendação de regra de qualidade de dados.
Campos
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
-
Status– String UTF-8 (valores válidos:RUNNING|FINISHED|FAILED|PENDING_EXECUTION|TIMED_OUT|CANCELING|CANCELED|RECEIVED_BY_TASKRUNNER).O status dessa execução.
-
StartedOn– Timestamp.A data e hora em que essa execução foi iniciada.
-
DataSource– Um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada à execução da recomendação.
Estrutura DataQualityRuleRecommendationRunFilter
Um filtro para listar as execuções de recomendação de qualidade de dados.
Campos
-
DataSource– Obrigatório: um objeto DataSource.Filtrar com base em uma fonte de dados especificada (tabela do AWS Glue).
-
StartedBefore– Timestamp.Filtrar com base na hora dos resultados iniciados antes do horário fornecido.
-
StartedAfter– Timestamp.Filtrar com base na hora dos resultados iniciados depois do horário fornecido.
Estrutura DataQualityResult
Descreve um resultado de qualidade de dados.
Campos
-
ResultId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um ID de resultado exclusivo para o resultado de qualidade dos dados.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil para o resultado de qualidade dos dados.
-
Score: número (double), no máximo 1,0.Uma pontuação de qualidade de dados agregada. Representa a razão de regras que foram aproadas para o número total de regras.
-
DataSource– Um objeto DataSource.A tabela associada ao resultado de qualidade dos dados, se houver.
-
RulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras associado ao resultado de qualidade de dados.
-
EvaluationContext– String UTF-8.No contexto de um trabalho no AWS Glue Studio, cada nó na tela normalmente recebe algum tipo de nome e os nós de qualidade de dados terão nomes. No caso de vários nós, o
evaluationContextpode diferenciar os nós. -
StartedOn– Timestamp.A data e hora de início dessa execução de qualidade de dados.
-
CompletedOn– Timestamp.A data e hora de conclusão dessa execução de qualidade de dados.
-
JobName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do trabalho associado ao resultado de qualidade dos dados, se houver.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução de trabalho associado ao resultado de qualidade dos dados, se houver.
-
RulesetEvaluationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução exclusivo para a avaliação do conjunto de regras para esse resultado de qualidade de dados.
-
RuleResults: uma matriz de objetos DataQualityRuleResult, não mais de 2.000 estruturas.Uma lista de objetos do
DataQualityRuleResultrepresentando os resultados de cada regra. -
AnalyzerResults: uma matriz de objetos DataQualityAnalyzerResult, não mais de 2.000 estruturas.Uma lista de objetos
DataQualityAnalyzerResultrepresentando os resultados de cada analisador. -
Observations– Uma matriz de DataQualityObservation objetos, não mais de 50 estruturas.Uma lista de objetos
DataQualityObservationrepresentando as observações geradas após a avaliação das regras e dos analisadores. -
AggregatedMetrics– Um objeto DataQualityAggregatedMetrics.Um resumo dos objetos
DataQualityAggregatedMetricsmostrando as contagens totais de linhas e regras processadas, incluindo suas estatísticas de aprovação/reprovação com base nos resultados no nível de linha.
Estrutura DataQualityAnalyzerResult
Descreve o resultado da avaliação de um analisador de qualidade de dados.
Campos
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do analisador de qualidade de dados.
-
Description: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.Uma descrição do analisador de qualidade de dados.
-
EvaluationMessage: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.Uma mensagem de avaliação.
-
EvaluatedMetrics– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é um número (duplo).
Um mapa das métricas associadas à avaliação do analisador.
Estrutura DataQualityObservation
Descreve a observação gerada após a avaliação das regras e dos analisadores.
Campos
-
Description: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.Uma descrição da observação de qualidade de dados.
-
MetricBasedObservation– Um objeto MetricBasedObservation.Um objeto do tipo
MetricBasedObservationque representa a observação com base nas métricas de qualidade de dados avaliadas.
Estrutura MetricBasedObservation
Descreve a observação baseada em métricas gerada com base nas métricas de qualidade de dados avaliadas.
Campos
-
MetricName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da métrica de qualidade de dados usada para gerar a observação.
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
MetricValues– Um objeto DataQualityMetricValues.Um objeto do tipo
DataQualityMetricValuesque representa a análise do valor da métrica de qualidade de dados. -
NewRules– Uma matriz de strings UTF-8.Uma lista de novas regras de qualidade de dados geradas como parte da observação com base no valor da métrica de qualidade de dados.
Estrutura DataQualityMetricValues
Descreve o valor da métrica de qualidade de dados de acordo com a análise de dados históricos.
Campos
-
ActualValue– Número (duplo).O valor real da métrica de qualidade de dados.
-
ExpectedValue– Número (duplo).O valor esperado da métrica de qualidade de dados de acordo com a análise de dados históricos.
-
LowerLimit– Número (duplo).O limite inferior do valor da métrica de qualidade de dados de acordo com a análise de dados históricos.
-
UpperLimit– Número (duplo).O limite superior do valor da métrica de qualidade de dados de acordo com a análise de dados históricos.
Estrutura DataQualityRuleResult
Descreve o resultado da avaliação de uma regra de qualidade de dados.
Campos
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da regra de qualidade de dados.
-
Description: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.Uma descrição da regras de qualidade de dados.
-
EvaluationMessage: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.Uma mensagem de avaliação.
-
Result– String UTF-8 (valores válidos:PASS|FAIL|ERROR).Um status de aprovação ou reprovação da regra.
-
EvaluatedMetrics– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é um número (duplo).
Um mapa das métricas associadas à avaliação da regra.
-
EvaluatedRule: string UTF-8 com comprimento máximo de 2.048 bytes e correspondente a URI address multi-line string pattern.A regra avaliada.
-
RuleMetrics– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é um número (duplo).
Um mapa contendo métricas associadas à avaliação da regra com base nos resultados no nível de linha.
Estrutura DataQualityResultDescription
Descreve um resultado de qualidade de dados.
Campos
-
ResultId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de resultado exclusivo para esse resultado de qualidade dos dados.
-
DataSource– Um objeto DataSource.O nome da tabela associada ao resultado de qualidade dos dados.
-
JobName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do trabalho associado ao resultado de qualidade dos dados.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução de trabalho associado ao resultado de qualidade dos dados.
-
StartedOn– Timestamp.A hora de início da execução desse resultado de qualidade de dados.
Estrutura DataQualityResultFilterCriteria
Critérios usados para retornar resultados de qualidade de dados.
Campos
-
DataSource– Um objeto DataSource.Filtrar os resultados pela fonte de dados especificada. Por exemplo, recuperar todos os resultados de uma tabela do AWS Glue.
-
JobName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Filtrar os resultados pelo nome de trabalho especificado.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Filtrar os resultados pelo ID e execução de trabalho especificado.
-
StartedAfter– Timestamp.Filtrar os resultados por execuções iniciadas depois desse horário.
-
StartedBefore– Timestamp.Filtrar os resultados por execuções iniciadas antes desse horário.
Estrutura DataQualityRulesetFilterCriteria
Os critérios usados para filtrar conjuntos de regras de qualidade de dados.
Campos
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome dos critérios de filtro do conjunto de regras.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.A descrição dos critérios de filtro do conjunto de regras.
-
CreatedBefore– Timestamp.Filtrar por conjuntos de regras criados antes dessa data.
-
CreatedAfter– Timestamp.Filtrar por conjuntos de regras criados depois dessa data.
-
LastModifiedBefore– Timestamp.Filtrar por conjuntos de dados modificados antes dessa data.
-
LastModifiedAfter– Timestamp.Filtrar por conjuntos de dados modificados depois dessa data.
-
TargetTable– Um objeto DataQualityTargetTable.O nome e o nome do banco de dados da tabela de destino.
Estrutura DataQualityAggregatedMetrics
Um resumo de métricas mostrando as contagens totais de linhas e regras processadas, incluindo suas estatísticas de aprovação/reprovação com base nos resultados no nível de linha.
Campos
-
TotalRowsProcessed– Número (duplo).O número total de linhas que foram processadas durante a avaliação da qualidade dos dados.
-
TotalRowsPassed– Número (duplo).O número total de linhas que passaram por todas as regras aplicáveis de qualidade de dados.
-
TotalRowsFailed– Número (duplo).O número total de linhas que falharam em uma ou mais regras de qualidade de dados.
-
TotalRulesProcessed– Número (duplo).O número total de regras de qualidade de dados que foram avaliadas.
-
TotalRulesPassed– Número (duplo).O número total de regras de qualidade de dados que foram aprovadas em seus critérios de avaliação.
-
TotalRulesFailed– Número (duplo).O número total de regras de qualidade de dados que foram reprovadas em seus critérios de avaliação.
Estrutura StatisticAnotation
Uma anotação estatística.
Campos
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil.
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
StatisticRecordedOn– Timestamp.O carimbo de data e hora de quando a estatística anotada foi registrada.
-
InclusionAnnotation– Um objeto TimestampedInclusionAnnotation.A anotação de inclusão aplicada à estatística.
Estrutura TimestampedInclusionAnnotation
Uma anotação de inclusão com data e hora.
Campos
-
Value: string UTF-8 (valores válidos:INCLUDE|EXCLUDE).O valor da anotação de inclusão.
-
LastModifiedOn– Timestamp.O carimbo de data e hora da última modificação da anotação de inclusão.
Estrutura AnnotationError
Uma anotação com falha.
Campos
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil da anotação com falha.
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística da anotação com falha.
-
FailureReason: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.O motivo pelo qual a anotação falhou.
Estrutura DatapointInclusionAnnotation
Uma anotação de inclusão.
Campos
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil de qualidade de dados ao qual a estatística pertence.
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
InclusionAnnotation: string UTF-8 (valores válidos:INCLUDE|EXCLUDE).O valor da anotação de inclusão a ser aplicado à estatística.
Lista StatisticSummaryList
Uma lista de StatisticSummary.
Uma matriz de objetos StatisticSummary.
Uma lista de StatisticSummary.
Estrutura StatisticSummary
Informações resumidas sobre uma estatística.
Campos
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil.
-
RunIdentifier– Um objeto RunIdentifier.O identificador da execução.
-
StatisticName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #16.O nome da estatística.
-
DoubleValue– Número (duplo).O valor da estatística.
-
EvaluationLevel– String UTF-8 (valores válidos:Dataset="DATASET"|Column="COLUMN"|Multicolumn="MULTICOLUMN").O nível de avaliação da estatística. Valores possíveis:
Dataset,Column,Multicolumn. -
ColumnsReferenced– Uma matriz de strings UTF-8.A lista de colunas referenciadas pela estatística.
-
ReferencedDatasets– Uma matriz de strings UTF-8.A lista de conjuntos de dados referenciados pela estatística.
-
StatisticProperties– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é uma string de descrição, com não mais de 2048 de comprimento, correspondo a URI address multi-line string pattern.
Uma
StatisticPropertiesMap, que contém umaNameStringe umaDescriptionString -
RecordedOn– Timestamp.O carimbo de data e hora de quando a estatística foi registrada.
-
InclusionAnnotation– Um objeto TimestampedInclusionAnnotation.A anotação de inclusão da estatística.
Estrutura RunIdentifier
Um identificador de execução.
Campos
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da execução.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da execução do trabalho.
Estrutura StatisticModelResult
O resultado do modelo estatístico.
Campos
-
LowerBound– Número (duplo).O limite inferior.
-
UpperBound– Número (duplo).O limite superior.
-
PredictedValue– Número (duplo).O valor previsto
-
ActualValue– Número (duplo).O valor real.
-
Date– Timestamp.A data.
-
InclusionAnnotation: string UTF-8 (valores válidos:INCLUDE|EXCLUDE).A anotação de inclusão.
Estrutura DataQualityGlueTable
O banco de dados e a tabela no AWS Glue Data Catalog usados para os dados de entrada ou saída em operações de qualidade de dados.
Campos
-
DatabaseName: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome do banco de dados no AWS Glue Data Catalog.
-
TableName: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome da tabela no AWS Glue Data Catalog.
-
CatalogId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um identificador exclusivo para o AWS Glue Data Catalog.
-
ConnectionName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da conexão com o AWS Glue Data Catalog.
-
AdditionalOptions: uma matriz de mapas de pares chave-valor, não menos que 1 o não mais que 10 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 255 bytes, correspondente a Single-line string pattern.
Cada valor é uma string de descrição, com não mais de 2048 de comprimento, correspondo a URI address multi-line string pattern.
Opções adicionais para a tabela. Atualmente, duas chaves são compatíveis:
-
pushDownPredicate: para filtrar por partições sem a necessidade de listar e ler todos os arquivos do conjunto de dados. -
catalogPartitionPredicate: para usar a remoção de partições do lado do servidor usando índices de partição no AWS Glue Data Catalog.
-
-
PreProcessingQuery: string UTF-8 com no máximo 51.200 bytes de comprimento e correspondente a URI address multi-line string pattern.Consulta SQL do formato SparkSQL que pode ser usada para pré-processar os dados da tabela AWS Glue Data Catalog antes da execução da operação de qualidade de dados.
Operações
Ação StartDataQualityRulesetEvaluationRun (Python: start_data_quality_ruleset_evaluation_run)
Ação CancelDataQualityRulesetEvaluationRun (Python: cancel_data_quality_ruleset_evaluation_run)
Ação GetDataQualityRulesetEvaluationRun (Python: get_data_quality_ruleset_evaluation_run)
Ação ListDataQualityRulesetEvaluationRuns (Python: list_data_quality_ruleset_evaluation_runs)
Ação StartDataQualityRuleRecommendationRun (Python: start_data_quality_rule_recommendation_run)
Ação CancelDataQualityRuleRecommendationRun (Python: cancel_data_quality_rule_recommendation_run)
Ação GetDataQualityRuleRecommendationRun (Python: get_data_quality_rule_recommendation_run)
Ação ListDataQualityRuleRecommendationRuns (Python: list_data_quality_rule_recommendation_runs)
Ação BatchGetDataQualityResult (Python: batch_get_data_quality_result)
Ação ListDataQualityResults (Python: list_data_quality_results)
Ação CreateDataQualityRuleset (Python: create_data_quality_ruleset)
Ação DeleteDataQualityRuleset (Python: delete_data_quality_ruleset)
Ação GetDataQualityRuleset (Python: get_data_quality_ruleset)
Ação ListDataQualityRulesets (Python: list_data_quality_rulesets)
Ação UpdateDataQualityRuleset (Python: update_data_quality_ruleset)
Ação ListDataQualityStatistics (Python: list_data_quality_statistics)
Ação BatchPutDataQualityStatisticAnnotation (Python: batch_put_data_quality_statistic_annotation)
Ação GetDataQualityModelResult (Python: get_data_quality_model_result)
Ação ListDataQualityStatisticAnnotations (Python: list_data_quality_statistic_annotations)
Ação PutDataQualityProfileAnnotation (Python: put_data_quality_profile_annotation)
Ação StartDataQualityRulesetEvaluationRun (Python: start_data_quality_ruleset_evaluation_run)
Depois que você tem uma definição de conjunto de regras (recomendado ou seu própria conjunto), você chama essa operação para avaliar o conjunto de regras em relação a uma fonte de dados (tabela do AWS Glue). A avaliação calcula os resultados que você pode recuperar com a API GetDataQualityResult.
Solicitação
-
DataSource– Obrigatório: um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa execução.
-
Role– Obrigatório: string UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Usado para idempotência e é recomendado que seja definido como um ID aleatório (como um UUID) para evitar criar ou iniciar várias instâncias do mesmo recurso.
-
AdditionalRunOptions– Um objeto DataQualityEvaluationRunAdditionalRunOptions.Opções adicionais de execução que você pode especificar para uma execução de avaliação.
-
RulesetNames- obrigatório: uma matriz de strings UTF-8, não menos que 1 ou mais que 10 strings.Uma lista de nomes de conjuntos de regras.
-
AdditionalDataSources– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é um objeto DataSource A.
Um mapa de strings de referência para fontes de dados adicionais que você pode especificar para uma execução de avaliação.
Resposta
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Erros
InvalidInputExceptionEntityNotFoundExceptionOperationTimeoutExceptionInternalServiceExceptionConflictException
Ação CancelDataQualityRulesetEvaluationRun (Python: cancel_data_quality_ruleset_evaluation_run)
Cancela uma execução em que um conjunto de regras está sendo avaliado em relação a uma fonte de dados.
Solicitação
-
RunId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Resposta
Nenhum parâmetro de resposta.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação GetDataQualityRulesetEvaluationRun (Python: get_data_quality_ruleset_evaluation_run)
Cancela uma execução específica em que um conjunto de regras está sendo avaliado em relação a uma fonte de dados.
Solicitação
-
RunId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Resposta
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
-
DataSource– Um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa avaliação.
-
Role– String UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
AdditionalRunOptions– Um objeto DataQualityEvaluationRunAdditionalRunOptions.Opções adicionais de execução que você pode especificar para uma execução de avaliação.
-
Status– String UTF-8 (valores válidos:RUNNING|FINISHED|FAILED|PENDING_EXECUTION|TIMED_OUT|CANCELING|CANCELED|RECEIVED_BY_TASKRUNNER).O status dessa execução.
-
ErrorString– String UTF-8.As strings de erro associadas à execução.
-
StartedOn– Timestamp.A data e hora em que essa execução foi iniciada.
-
LastModifiedOn– Timestamp.Um carimbo de data/hora. O último ponto em que essa recomendação de regra de qualidade de dados foi executada foi modificado.
-
CompletedOn– Timestamp.A data e hora de conclusão dessa execução.
-
ExecutionTime– Número (íntegro).A quantidade de tempo (em segundos) durante a qual a execução consumiu recursos.
-
RulesetNames: uma matriz de strings UTF-8, não menos que 1 ou mais que 10 strings.Uma lista de nomes de conjuntos de regras para a execução. Atualmente, este parâmetro pode ter apenas um nome de conjunto de regras.
-
ResultIds: uma matriz de strings UTF-8, não menos que 1 ou mais que 10 strings.Uma lista de IDs de resultado para os resultados de qualidade de dados da execução.
-
AdditionalDataSources– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 com no mínimo 1 e e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.
Cada valor é um objeto DataSource A.
Um mapa de strings de referência para fontes de dados adicionais que você pode especificar para uma execução de avaliação.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação ListDataQualityRulesetEvaluationRuns (Python: list_data_quality_ruleset_evaluation_runs)
Lista todas as execuções que atendem aos critérios de filtro, em que um conjunto de regras é avaliado em relação a uma fonte de dados.
Solicitação
-
Filter– Um objeto DataQualityRulesetEvaluationRunFilter.Os critérios de filtro.
-
NextToken– String UTF-8.Um token paginado para equilibrar os resultados.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados.
Resposta
-
Runs: um array de objetos DataQualityRulesetEvaluationRunDescription.Uma lista de objetos
DataQualityRulesetEvaluationRunDescriptionque representam execuções de conjuntos de regras de qualidade de dados. -
NextToken– String UTF-8.Um token de paginação, se houver mais resultados disponíveis.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação StartDataQualityRuleRecommendationRun (Python: start_data_quality_rule_recommendation_run)
Inicia uma execução de recomendação que é usada para gerar regras quando você não sabe quais regras escrever. AWS Glue A Data Quality analisa os dados e gera recomendações para um possível conjunto de regras. Em seguida, você pode fazer a triagem do conjunto de regras e modificar o conjunto de regras gerado de acordo com sua preferência.
As execuções de recomendação são excluídas automaticamente após 90 dias.
Solicitação
A solicitação de recomendação da regra de qualidade dos dados.
-
DataSource– Obrigatório: um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa execução.
-
Role– Obrigatório: string UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
CreatedRulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um nome para o conjunto de regras.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
-
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Usado para idempotência e é recomendado que seja definido como um ID aleatório (como um UUID) para evitar criar ou iniciar várias instâncias do mesmo recurso.
Resposta
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceExceptionConflictException
Ação CancelDataQualityRuleRecommendationRun (Python: cancel_data_quality_rule_recommendation_run)
Cancela a execução da recomendação especificada que estava sendo usada para gerar regras.
Solicitação
-
RunId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Resposta
Nenhum parâmetro de resposta.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação GetDataQualityRuleRecommendationRun (Python: get_data_quality_rule_recommendation_run)
Obtém a execução da recomendação especificada que estava sendo usada para gerar regras.
Solicitação
-
RunId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
Resposta
A resposta para a execução de recomendação da regra de qualidade dos dados.
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
-
DataSource– Um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa execução.
-
Role– String UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
Status– String UTF-8 (valores válidos:RUNNING|FINISHED|FAILED|PENDING_EXECUTION|TIMED_OUT|CANCELING|CANCELED|RECEIVED_BY_TASKRUNNER).O status dessa execução.
-
ErrorString– String UTF-8.As strings de erro associadas à execução.
-
StartedOn– Timestamp.A data e hora em que essa execução foi iniciada.
-
LastModifiedOn– Timestamp.Um carimbo de data/hora. O último ponto em que essa recomendação de regra de qualidade de dados foi executada foi modificado.
-
CompletedOn– Timestamp.A data e hora de conclusão dessa execução.
-
ExecutionTime– Número (íntegro).A quantidade de tempo (em segundos) durante a qual a execução consumiu recursos.
-
RecommendedRuleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Quando uma execução de recomendação de regra inicial é concluída, ela cria um conjunto de regras recomendado. Esse membro tem essas regras no formato Data Quality Definition Language (DQDL).
-
CreatedRulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras que foi criado pela execução.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação ListDataQualityRuleRecommendationRuns (Python: list_data_quality_rule_recommendation_runs)
Lista as execuções de recomendações que atendem aos critérios do filtro.
Solicitação
-
Filter– Um objeto DataQualityRuleRecommendationRunFilter.Os critérios de filtro.
-
NextToken– String UTF-8.Um token paginado para equilibrar os resultados.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados.
Resposta
-
Runs: um array de objetos DataQualityRuleRecommendationRunDescription.Uma lista dos objetos
DataQualityRuleRecommendationRunDescription. -
NextToken– String UTF-8.Um token de paginação, se houver mais resultados disponíveis.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação GetDataQualityResult (Python: get_data_quality_result)
Recupera o resultado de uma avaliação da regra de qualidade de dados.
Solicitação
-
ResultId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.Um ID de resultado exclusivo para o resultado de qualidade dos dados.
Resposta
A resposta para o resultado de qualidade dos dados.
-
ResultId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um ID de resultado exclusivo para o resultado de qualidade dos dados.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil para o resultado de qualidade dos dados.
-
Score: número (double), no máximo 1,0.Uma pontuação de qualidade de dados agregada. Representa a razão de regras que foram aproadas para o número total de regras.
-
DataSource– Um objeto DataSource.A tabela associada ao resultado de qualidade dos dados, se houver.
-
RulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras associado ao resultado de qualidade de dados.
-
EvaluationContext– String UTF-8.No contexto de um trabalho no AWS Glue Studio, cada nó na tela normalmente recebe algum tipo de nome e os nós de qualidade de dados terão nomes. No caso de vários nós, o
evaluationContextpode diferenciar os nós. -
StartedOn– Timestamp.A data e hora de início da execução desse resultado de qualidade de dados.
-
CompletedOn– Timestamp.A data e hora de conclusão da execução desse resultado de qualidade de dados.
-
JobName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do trabalho associado ao resultado de qualidade dos dados, se houver.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução de trabalho associado ao resultado de qualidade dos dados, se houver.
-
RulesetEvaluationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução exclusivo associado à avaliação do conjunto de regras.
-
RuleResults: uma matriz de objetos DataQualityRuleResult, não mais de 2.000 estruturas.Uma lista de objetos do
DataQualityRuleResultrepresentando os resultados de cada regra. -
AnalyzerResults: uma matriz de objetos DataQualityAnalyzerResult, não mais de 2.000 estruturas.Uma lista de objetos
DataQualityAnalyzerResultrepresentando os resultados de cada analisador. -
Observations– Uma matriz de DataQualityObservation objetos, não mais de 50 estruturas.Uma lista de objetos
DataQualityObservationrepresentando as observações geradas após a avaliação das regras e dos analisadores. -
AggregatedMetrics– Um objeto DataQualityAggregatedMetrics.Um resumo dos objetos
DataQualityAggregatedMetricsmostrando as contagens totais de linhas e regras processadas, incluindo suas estatísticas de aprovação/reprovação com base nos resultados no nível de linha.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceExceptionEntityNotFoundException
Ação BatchGetDataQualityResult (Python: batch_get_data_quality_result)
Recupera uma lista de resultados de qualidade de dados para os IDs de resultados especificados.
Solicitação
-
ResultIds- obrigatório: uma matriz de strings UTF-8, não menos que 1 ou mais que 100 strings.Uma lista de IDs de resultado exclusivas para os resultados de qualidade dos dados.
Resposta
-
Results– Obrigatório: uma matriz de objetos DataQualityResult.Uma lista de objetos
DataQualityResultque representam os resultados de qualidade dos dados. -
ResultsNotFound: uma matriz de strings UTF-8, não menos que 1 ou mais que 100 strings.Uma lista de IDs de resultados para os quais resultados não foram encontrados.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação ListDataQualityResults (Python: list_data_quality_results)
Retorna todos os resultados de execução de qualidade de dados para sua conta.
Solicitação
-
Filter– Um objeto DataQualityResultFilterCriteria.Os critérios de filtro.
-
NextToken– String UTF-8.Um token paginado para equilibrar os resultados.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados.
Resposta
-
Results– Obrigatório: uma matriz de objetos DataQualityResultDescription.Uma lista dos objetos
DataQualityResultDescription. -
NextToken– String UTF-8.Um token de paginação, se houver mais resultados disponíveis.
Erros
InvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação CreateDataQualityRuleset (Python: create_data_quality_ruleset)
Cria um conjunto de regras de qualidade de dados com regras DQDL aplicadas a uma tabela do AWS Glue especificada.
Você cria o conjunto de regras usando a Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
Solicitação
Uma solicitação para criar um conjunto de regras de qualidade de dados
-
Name: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.Um nome exclusivo para o conjunto de regras de qualidade de dados.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição do conjunto de regras de qualidade de dados.
-
Ruleset- obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
-
Tags: uma matriz de mapa dos pares de chave-valor, não mais que 50 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.
Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.
Uma lista de tags aplicadas ao conjunto de regras de qualidade de dados.
-
TargetTable– Um objeto DataQualityTargetTable.Uma tabela de destino associada ao conjunto de regras de qualidade de dados.
-
RecommendationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um ID de execução exclusivo para a execução da recomendação.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
-
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Usado para idempotência e é recomendado que seja definido como um ID aleatório (como um UUID) para evitar criar ou iniciar várias instâncias do mesmo recurso.
Resposta
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um nome exclusivo para o conjunto de regras de qualidade de dados.
Erros
InvalidInputExceptionAlreadyExistsExceptionOperationTimeoutExceptionInternalServiceExceptionResourceNumberLimitExceededException
Ação DeleteDataQualityRuleset (Python: delete_data_quality_ruleset)
Exclui um conjunto de regras de qualidade de dados.
Solicitação
-
Name: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.Um nome para o conjunto de regras de qualidade de dados.
Resposta
Nenhum parâmetro de resposta.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação GetDataQualityRuleset (Python: get_data_quality_ruleset)
Retorna um conjunto de regras existente por identificador ou um nome.
Solicitação
-
Name: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome do grupo de regras.
Resposta
Retorna a resposta do conjunto de regras de qualidade de dados.
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do grupo de regras.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição da predefinição.
-
Ruleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
-
TargetTable– Um objeto DataQualityTargetTable.O nome e o nome do banco de dados da tabela de destino.
-
CreatedOn– Timestamp.Um carimbo de data/hora. A hora e a data de criação desse conjunto de regras de qualidade de dados.
-
LastModifiedOn– Timestamp.Um carimbo de data/hora. O último ponto em que esse conjunto de regras de qualidade de dados foi modificado.
-
RecommendationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Quando um conjunto de regras foi criado de execução de uma recomendação, esse ID de execução é gerado para vincular os dois.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação ListDataQualityRulesets (Python: list_data_quality_rulesets)
Retorna uma lista paginada dos conjuntos de regras para a lista de tabelas do AWS Glue especificadas.
Solicitação
-
NextToken– String UTF-8.Um token paginado para equilibrar os resultados.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados.
-
Filter– Um objeto DataQualityRulesetFilterCriteria.Os critérios de filtro.
-
Tags: uma matriz de mapa dos pares de chave-valor, não mais que 50 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.
Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.
Uma lista de tags de pares chave-valor.
Resposta
-
Rulesets: um array de objetos DataQualityRulesetListDetails.Uma lista paginada dos conjuntos de regras para a lista de tabelas do AWS Glue especificadas.
-
NextToken– String UTF-8.Um token de paginação, se houver mais resultados disponíveis.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação UpdateDataQualityRuleset (Python: update_data_quality_ruleset)
Atualiza o conjunto de regras de qualidade de dados especificado.
Solicitação
-
Name: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O nome do conjunto de regras de qualidade de dados.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição da predefinição.
-
Ruleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
Resposta
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras de qualidade de dados.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição da predefinição.
-
Ruleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
Erros
EntityNotFoundExceptionAlreadyExistsExceptionIdempotentParameterMismatchExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceExceptionResourceNumberLimitExceededException
Ação ListDataQualityStatistics (Python: list_data_quality_statistics)
Recupera uma lista de estatísticas de qualidade dos dados.
Solicitação
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil.
-
TimestampFilter– Um objeto TimestampFilter.Um filtro de carimbo de data e hora.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados nesta solicitação.
-
NextToken– String UTF-8.Um token de paginação para solicitar a próxima página de resultados.
Resposta
-
Statistics: um array de objetos StatisticSummary.O
StatisticSummaryList. -
NextToken– String UTF-8.Um token de paginação para solicitar a próxima página de resultados.
Erros
EntityNotFoundExceptionInvalidInputExceptionInternalServiceException
Estrutura TimestampFilter
Um filtro de carimbo de data e hora.
Campos
-
RecordedBefore– Timestamp.O registro de data e hora antes do qual as estatísticas devem ser incluídas nos resultados.
-
RecordedAfter– Timestamp.O registro de data e hora após o qual as estatísticas devem ser incluídas nos resultados.
Estrutura CreateDataQualityRulesetRequest
Uma solicitação para criar um conjunto de regras de qualidade de dados
Campos
-
Name: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.Um nome exclusivo para o conjunto de regras de qualidade de dados.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição do conjunto de regras de qualidade de dados.
-
Ruleset- obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
-
Tags: uma matriz de mapa dos pares de chave-valor, não mais que 50 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.
Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.
Uma lista de tags aplicadas ao conjunto de regras de qualidade de dados.
-
TargetTable– Um objeto DataQualityTargetTable.Uma tabela de destino associada ao conjunto de regras de qualidade de dados.
-
RecommendationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um ID de execução exclusivo para a execução da recomendação.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
-
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Usado para idempotência e é recomendado que seja definido como um ID aleatório (como um UUID) para evitar criar ou iniciar várias instâncias do mesmo recurso.
Estrutura GetDataQualityRulesetResponse
Retorna a resposta do conjunto de regras de qualidade de dados.
Campos
-
Name– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do grupo de regras.
-
Description: string de descrição com no máximo 2.048 bytes de comprimento e correspondente a URI address multi-line string pattern.Uma descrição da predefinição.
-
Ruleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Um conjunto de regras em Data Quality Definition Language (DQDL). Para obter mais informações, consulte o Guia do desenvolvedor do AWS Glue.
-
TargetTable– Um objeto DataQualityTargetTable.O nome e o nome do banco de dados da tabela de destino.
-
CreatedOn– Timestamp.Um carimbo de data/hora. A hora e a data de criação desse conjunto de regras de qualidade de dados.
-
LastModifiedOn– Timestamp.Um carimbo de data/hora. O último ponto em que esse conjunto de regras de qualidade de dados foi modificado.
-
RecommendationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Quando um conjunto de regras foi criado de execução de uma recomendação, esse ID de execução é gerado para vincular os dois.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
Estrutura GetDataQualityResultResponse
A resposta para o resultado de qualidade dos dados.
Campos
-
ResultId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um ID de resultado exclusivo para o resultado de qualidade dos dados.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil para o resultado de qualidade dos dados.
-
Score: número (double), no máximo 1,0.Uma pontuação de qualidade de dados agregada. Representa a razão de regras que foram aproadas para o número total de regras.
-
DataSource– Um objeto DataSource.A tabela associada ao resultado de qualidade dos dados, se houver.
-
RulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras associado ao resultado de qualidade de dados.
-
EvaluationContext– String UTF-8.No contexto de um trabalho no AWS Glue Studio, cada nó na tela normalmente recebe algum tipo de nome e os nós de qualidade de dados terão nomes. No caso de vários nós, o
evaluationContextpode diferenciar os nós. -
StartedOn– Timestamp.A data e hora de início da execução desse resultado de qualidade de dados.
-
CompletedOn– Timestamp.A data e hora de conclusão da execução desse resultado de qualidade de dados.
-
JobName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do trabalho associado ao resultado de qualidade dos dados, se houver.
-
JobRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução de trabalho associado ao resultado de qualidade dos dados, se houver.
-
RulesetEvaluationRunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID de execução exclusivo associado à avaliação do conjunto de regras.
-
RuleResults: uma matriz de objetos DataQualityRuleResult, não mais de 2.000 estruturas.Uma lista de objetos do
DataQualityRuleResultrepresentando os resultados de cada regra. -
AnalyzerResults: uma matriz de objetos DataQualityAnalyzerResult, não mais de 2.000 estruturas.Uma lista de objetos
DataQualityAnalyzerResultrepresentando os resultados de cada analisador. -
Observations– Uma matriz de DataQualityObservation objetos, não mais de 50 estruturas.Uma lista de objetos
DataQualityObservationrepresentando as observações geradas após a avaliação das regras e dos analisadores. -
AggregatedMetrics– Um objeto DataQualityAggregatedMetrics.Um resumo dos objetos
DataQualityAggregatedMetricsmostrando as contagens totais de linhas e regras processadas, incluindo suas estatísticas de aprovação/reprovação com base nos resultados no nível de linha.
Estrutura StartDataQualityRuleRecommendationRunRequest
A solicitação de recomendação da regra de qualidade dos dados.
Campos
-
DataSource– Obrigatório: um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa execução.
-
Role– Obrigatório: string UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
CreatedRulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Um nome para o conjunto de regras.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
-
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Usado para idempotência e é recomendado que seja definido como um ID aleatório (como um UUID) para evitar criar ou iniciar várias instâncias do mesmo recurso.
Estrutura GetDataQualityRuleRecommendationRunResponse
A resposta para a execução de recomendação da regra de qualidade dos dados.
Campos
-
RunId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O identificador de execução único associado a essa execução.
-
DataSource– Um objeto DataSource.A fonte de dados (uma tabela do AWS Glue) associada a essa execução.
-
Role– String UTF-8.Um perfil do IAM fornecido para criptografar os resultados da execução.
-
NumberOfWorkers– Número (íntegro).O número de processadores do
G.1Xa serem usados na execução. O padrão é 5. -
Timeout– Número (inteiro), pelo menos 1.O tempo limite em minutos para uma execução. Esse é o tempo máximo durante o qual uma execução pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT. O padrão é 2.880 minutos (48 horas). -
Status– String UTF-8 (valores válidos:RUNNING|FINISHED|FAILED|PENDING_EXECUTION|TIMED_OUT|CANCELING|CANCELED|RECEIVED_BY_TASKRUNNER).O status dessa execução.
-
ErrorString– String UTF-8.As strings de erro associadas à execução.
-
StartedOn– Timestamp.A data e hora em que essa execução foi iniciada.
-
LastModifiedOn– Timestamp.Um carimbo de data/hora. O último ponto em que essa recomendação de regra de qualidade de dados foi executada foi modificado.
-
CompletedOn– Timestamp.A data e hora de conclusão dessa execução.
-
ExecutionTime– Número (íntegro).A quantidade de tempo (em segundos) durante a qual a execução consumiu recursos.
-
RecommendedRuleset: string UTF-8, não menos do que 1 ou mais de 65536 bytes de comprimento.Quando uma execução de recomendação de regra inicial é concluída, ela cria um conjunto de regras recomendado. Esse membro tem essas regras no formato Data Quality Definition Language (DQDL).
-
CreatedRulesetName– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome do conjunto de regras que foi criado pela execução.
-
DataQualitySecurityConfiguration– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da configuração de segurança criada com a opção de criptografia de qualidade dos dados.
Ação BatchPutDataQualityStatisticAnnotation (Python: batch_put_data_quality_statistic_annotation)
Anote os pontos de dados ao longo do tempo para obter uma estatística específica de qualidade dos dados. A API exige tanto profileID quanto statisticID como parte da entrada InclusionAnnotation. A API funciona apenas para um único statisticID em vários perfis.
Solicitação
-
InclusionAnnotations– Obrigatório: uma matriz de objetos DatapointInclusionAnnotation.Uma lista de
DatapointInclusionAnnotation. InclusionAnnotations deve incluir um profileID e um statisticID. Se houver várias anotações de inclusão, a lista deverá se referir a um único statisticID em vários profileIDs. -
ClientToken– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Token cliente.
Resposta
-
FailedInclusionAnnotations: um array de objetos AnnotationError.Uma lista de
AnnotationError.
Erros
EntityNotFoundExceptionInvalidInputExceptionInternalServiceExceptionResourceNumberLimitExceededException
Ação GetDataQualityModel (Python: get_data_quality_model)
Recupere o status de treinamento do modelo com mais informações (CompletedOn, StartedOn, FailureReason).
Solicitação
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
ProfileId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O ID do perfil.
Resposta
-
Status– String UTF-8 (valores válidos:RUNNING|SUCCEEDED|FAILED).O status do treinamento de modelo de qualidade dos dados.
-
StartedOn– Timestamp.A data e hora em que o treinamento de modelo de qualidade dos dados começou.
-
CompletedOn– Timestamp.O carimbo de data e hora de quando o treinamento do modelo de qualidade dos dados foi concluído.
-
FailureReason– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O motivo da falha no treinamento.
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação GetDataQualityModelResult (Python: get_data_quality_model_result)
Recupere as previsões de uma estatística para um determinado ID de perfil.
Solicitação
-
StatisticId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O ID da estatística.
-
ProfileId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O ID do perfil.
Resposta
-
CompletedOn– Timestamp.O carimbo de data e hora de quando o treinamento do modelo de qualidade dos dados foi concluído.
-
Model: um array de objetos StatisticModelResult.Uma lista de
StatisticModelResult
Erros
EntityNotFoundExceptionInvalidInputExceptionOperationTimeoutExceptionInternalServiceException
Ação ListDataQualityStatisticAnnotations (Python: list_data_quality_statistic_annotations)
Recupere anotações para uma estatística de qualidade dos dados.
Solicitação
-
StatisticId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID da estatística.
-
ProfileId– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O ID do perfil.
-
TimestampFilter– Um objeto TimestampFilter.Um filtro de carimbo de data e hora.
-
MaxResults– Número (inteiro), superior a 1 ou mais que 1000.O número máximo de resultados a serem retornados nesta solicitação.
-
NextToken– String UTF-8.Um token de paginação para recuperar o próximo conjunto de resultados.
Resposta
-
Annotations: um array de objetos StatisticAnnotation.Uma lista de
StatisticAnnotationaplicadas à estatística -
NextToken– String UTF-8.Um token de paginação para recuperar o próximo conjunto de resultados.
Erros
InvalidInputExceptionInternalServiceException
Ação PutDataQualityProfileAnnotation (Python: put_data_quality_profile_annotation)
Anote todos os pontos de dados de um perfil.
Solicitação
-
ProfileId: obrigatório: string UTF-8 com no mínimo 1 e no máximo 255 bytes de comprimento e correspondente a Single-line string pattern.O ID do perfil de monitoramento da qualidade dos dados a ser anotado.
-
InclusionAnnotation– Obrigatório: string UTF-8 (valores válidos:INCLUDE|EXCLUDE).O valor da anotação de inclusão a ser aplicado ao perfil.
Resposta
Nenhum parâmetro de resposta.
Erros
EntityNotFoundExceptionInvalidInputExceptionInternalServiceException