

# Uso de varios orígenes de datos con un rastreador
<a name="schema-crawlers-data-sources"></a>

Cuando un rastreador de AWS Glue analiza Amazon S3 y detecta varios directorios, utiliza una heurística para determinar dónde se encuentra la raíz de una tabla en la estructura de directorios y qué directorios son particiones de tabla. En algunos casos en que el esquema detectado en dos o más directorios es similar, el rastreador puede tratarlos como si fueran particiones en vez de tablas diferentes. Una forma de ayudar al rastreador a detectar tablas individuales consiste en añadir el directorio raíz de cada tabla como almacén de datos para el rastreador.

Las siguientes particiones en Amazon S3 son un ejemplo:

```
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
```

Si los esquemas de `table1` y `table2` son similares, y se ha establecido un único origen de datos para `s3://amzn-s3-demo-bucket/folder1/` en AWS Glue, el rastreador puede crear una única tabla con dos columnas de partición: una columna de partición que contenga `table1` y `table2`, y otra columna que contenga de `partition1` a `partition5`.

Para que el rastreador de AWS Glue cree dos tablas diferentes configure el rastreador con dos orígenes de datos, `s3://amzn-s3-demo-bucket/folder1/table1/` y `s3://amzn-s3-demo-bucket/folder1/table2`, tal y como se muestra en el siguiente procedimiento.

**Para agregar otro almacén de datos de S3 a un rastreador existente en AWS Glue**

1. Inicie sesión en la Consola de administración de AWS y abra la consola de AWS Glue en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. En el panel de navegación, elija **Crawlers (Rastreadores)**.

1. Elija el enlace a su rastreador y, a continuación, elija **Edit** (Editar). 

1. Para**Step 2: Choose data sources and classifiers** (Paso 2: Elegir orígenes de datos y clasificadores), elija **Edit** (Editar). 

1. En **Orígenes de datos y catálogos**, seleccione **Agregar un origen de datos**.

1. En el cuadro de diálogo **Add data source** (Agregar origen de datos), en **S3 path** (Ruta de S3), elija **Browse** (Examinar). 

1. Elija el bucket que desee actualizar y, a continuación, elija **Choose** (Elegir).

   El origen de datos que ha agregado aparece en la lista **Data sources** (Orígenes de datos).

1. Elija **Siguiente**.

1. En la página **Configurar ajustes de seguridad**, cree o elija un rol de IAM para el rastreador y, a continuación, elija **Siguiente**.

1. Asegúrese de que la ruta de S3 termina en una barra diagonal y, a continuación, seleccione **Add an S3 data source** (Agregar un origen de datos de S3).

1. En la página **Set output and scheduling** (Definir la salida y la programación), en **Output configuration** (Configuración de salida), elija la base de datos de destino.

1. Elija **Siguiente**.

1. En la página **Review and update** (Revisar y actualizar), revise las elecciones que ha realizado. Para editar un paso, seleccione **Edit** (Editar).

1.  Elija **Actualizar**.