Generación de estadísticas de columnas según una programación
Siga estos pasos para configurar una programación para generar estadísticas de columnas en AWS Glue Data Catalog mediante la consola de AWS Glue, la AWS CLI o la operación CreateColumnStatisticsTaskSettings.
- Console
-
Generación de estadísticas de columnas mediante la consola
-
Inicie sesión en la consola de AWS Glue en https://console.aws.amazon.com/glue/
. -
Seleccione las tablas del Data Catalog.
-
Seleccione una tabla de la lista.
-
Seleccione la pestaña Estadísticas de columnas en la sección inferior de la página Tablas.
-
También puede seleccionar Generar según una programación en Estadísticas de columnas de la sección Acciones.
-
En la página Generar estadísticas según una programación, configure una programación periódica para ejecutar la tarea de estadísticas de columnas seleccionando la frecuencia y la hora de inicio. Puede elegir la frecuencia para que sea por hora, día o semana, o definir una expresión cron para especificar el horario.
Una expresión cron es una cadena que representa un patrón de programación y consta de 6 campos separados por espacios: * * * * * <minuto> <hora> <día del mes> <mes> <día de la semana> <año> Por ejemplo, para ejecutar una tarea todos los días a medianoche, la expresión cron sería: 0 0 * * ? *
Para obtener más información, consulte Expresiones Cron.
A continuación, elija la opción de columnas para generar las estadísticas.
-
Todas las columnas: elija esta opción para generar estadísticas para todas las columnas de la tabla.
-
Columnas seleccionadas: elija esta opción para generar estadísticas para columnas específicas. Puede seleccionar las columnas en la lista desplegable.
-
Elija un rol de IAM o cree un rol existente que tenga permisos para generar estadísticas. AWS Glue asume este rol para generar estadísticas de columnas.
Un enfoque más rápido es dejar que la consola de AWS Glue cree un rol para usted. El rol que crea es específicamente para generar las estadísticas de columnas e incluye la política
AWSGlueServiceRoleadministrada por AWS, más la política en línea necesaria para el origen de datos especificado.Si especifica un rol existente para generar estadísticas de columnas, asegúrese de que incluya la política
AWSGlueServiceRoleo una equivalente (o una versión reducida de esta política), además de las políticas insertadas requeridas.-
(Opcional) A continuación, elija una configuración de seguridad para habilitar el cifrado en reposo de los registros.
-
(Opcional) Para elegir un tamaño de muestra, indique solo un porcentaje específico de filas de la tabla para generar estadísticas. El valor predeterminado es Todas las filas. Utilice las flechas hacia arriba y hacia abajo para aumentar o disminuir el valor porcentual.
Se recomienda incluir todas las filas de la tabla para calcular estadísticas precisas. Utilice filas de muestra para generar estadísticas de columnas solo cuando los valores aproximados sean aceptables.
-
Elija Generar estadísticas para ejecutar la tarea de generación de estadísticas de columnas.
-
- AWS CLI
-
Puede usar el siguiente AWS CLI de ejemplo para crear una programación de generación de estadísticas de columnas. Database-name, table-name y role son parámetros obligatorios, y los parámetros opcionales son schedule, column-name-list, catalog-id, sample-size, and security-configuration.
aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-nametable_name\ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0' \ --security-configuration 'test-security'También puede generar estadísticas de columnas llamando a la operación StartColumnStatisticsTaskRun.