

# Creación de tablas para los trabajos de ETL
<a name="schema-classifier"></a>

Puede utilizar Athena para crear tablas que AWS Glue pueda utilizar para los trabajos de ETL. Los trabajos de AWS Glue realizan operaciones de ETL. Un trabajo de AWS Glue ejecuta un script que extrae datos de las fuentes, los transforma y los carga en los destinos. Para obtener más información, consulte la sección sobre [creación de trabajos en GlueAWS](https://docs.aws.amazon.com/glue/latest/dg/author-job-glue.html) en la *Guía para desarrolladores de AWS Glue*.

## Creación de tablas en Athena para los trabajos de ETL de AWS Glue
<a name="schema-etl-tables"></a>

Es necesario agregar a las tablas que cree en Athena una propiedad denominada `classification`, que identifica el formato de los datos. Esto permite a AWS Glue utilizar las tablas para trabajos de ETL. Los valores de clasificación pueden ser `avro`, `csv`, `json`, `orc`, `parquet` o `xml`. A continuación, se muestra un ejemplo de instrucción `CREATE TABLE` en Athena:

```
CREATE EXTERNAL TABLE sampleTable (
  column1 INT,
  column2 INT
  ) STORED AS PARQUET
  TBLPROPERTIES (
  'classification'='parquet')
```

Si no se añadió la propiedad de `classification` al crear la tabla, puede hacerse ahora por medio de la consola de AWS Glue.

**Para agregar la propiedad de clasificación con la consola de AWS Glue**

1. Inicie sesión en la Consola de administración de AWS y abra la consola de AWS Glue en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En el panel de navegación de la consola, elija **Tables** (Tablas).

1. Elija el enlace para la tabla que quiere editar y, a continuación, elija **Actions** (Acciones), **Edit table details** (Editar detalles de la tabla).

1. Desplácese hacia abajo hasta la sección **Table properties** (Propiedades de la tabla).

1. Elija **Agregar**.

1. En **Clave**, escriba **classification**.

1. En **Value** (Valor), especifique un tipo de datos (por ejemplo, **json**).

1. Seleccione **Save**.

   En la sección **Table details** (Detalles de la tabla), el tipo de datos que ha especificado aparecerá en el campo **Classification** (Clasificación) de la tabla.

Para obtener más información, consulte [Uso de tablas](https://docs.aws.amazon.com/glue/latest/dg/console-tables.html) en la *Guía para desarrolladores de AWS Glue*.

## Uso de los trabajos de ETL para optimizar el rendimiento de las consultas
<a name="schema-etl-performance"></a>

AWS GlueLos trabajos de son útiles para transformar los datos a un formato que optimice el rendimiento de las consultas en Athena. Los formatos de datos tienen un gran impacto en el rendimiento y el costo de las consultas en Athena.

AWS Glue es compatible con la escritura en los formatos de datos Parquet y ORC. Se puede utilizar esta característica para transformar los datos y utilizarlos en Athena. Para obtener más información sobre el uso de Parquet y ORC, y otras formas de mejorar el rendimiento en Athena, consulte los [10 mejores consejos para ajustar el rendimiento de Amazon Athena](https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/).

**nota**  
Para reducir la probabilidad de que Athena no pueda leer los tipos de datos `SMALLINT` y `TINYINT` generados por un trabajo de ETL de AWS Glue, convierta `SMALLINT` y `TINYINT` a `INT` cuando crea un trabajo de ETL que convierte los datos en ORC.

## Automatización de trabajos de AWS Glue para ETL
<a name="schema-etl-automate"></a>

Puede configurar los trabajos de ETL de AWS Glue para que se ejecuten automáticamente basándose en desencadenadores. Esta característica es ideal cuando se insertan datos del exterior de AWS en un bucket de Amazon S3, en un formato que es ineficiente para realizar consultas en Athena. Para obtener más información, consulte [Desencadenar trabajos de AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/trigger-job.html) en la *Guía para desarrolladores de AWS Glue*.