

 O Amazon Forecast não está mais disponível para novos clientes. Os clientes existentes do Amazon Forecast podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/machine-learning/transition-your-amazon-forecast-usage-to-amazon-sagemaker-canvas/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Importação de conjuntos de dados
<a name="howitworks-datasets-groups"></a>

Os *conjuntos de dados* contêm os dados usados para treinar um [preditor](howitworks-predictor.md). Crie um ou mais conjuntos de dados do Amazon Forecast e importe os dados de treinamento para eles. Um *grupo de conjuntos de dados* é uma coleção de conjuntos de dados complementares que detalham um conjunto de alterações de parâmetros ao longo de uma série temporal. Depois de criar um grupo de conjuntos de dados, você o usará para treinar um preditor. 

Cada grupo de conjuntos de dados pode ter até três conjuntos de dados, um de cada tipo de [conjunto de dados](#howitworks-dataset-domainstypes): séries temporais de destino, séries temporais relacionadas e metadados de itens.

Para criar e gerenciar conjuntos de dados e grupos de conjuntos de dados do Forecast, você pode usar o console do Forecast, AWS Command Line Interface (AWS CLI) ou AWS o SDK.

Por exemplo, conjuntos de dados do Forecast, consulte o [ GitHubrepositório Amazon Forecast Sample](https://github.com/aws-samples/amazon-forecast-samples).

**Topics**
+ [Conjuntos de dados](#howitworks-dataset)
+ [Grupos de conjuntos de dados](#howitworks-datasetgroup)
+ [Resolver conflitos na frequência da coleta de dados](#howitworks-data-alignment)
+ [Usar conjuntos de dados de séries temporais relacionadas](related-time-series-datasets.md)
+ [Uso de conjuntos de dados de metadados de itens](item-metadata-datasets.md)
+ [Domínios e tipos de conjunto de dados predefinidos](howitworks-domains-ds-types.md)
+ [Atualização de dados](updating-data.md)
+ [Lidar com valores ausentes](howitworks-missing-values.md)
+ [Diretrizes de conjuntos de dados do Forecast](dataset-import-guidelines-troubleshooting.md)

## Conjuntos de dados
<a name="howitworks-dataset"></a>

Para criar e gerenciar conjuntos de dados do Forecast, você pode usar o Forecast APIs, incluindo as [DescribeDataset](API_DescribeDataset.md) operações [CreateDataset](API_CreateDataset.md) e. Para obter uma lista completa do Forecast APIs, consulte[Referência da API](api-reference.md).

Ao criar um conjunto de dados, você fornece informações, como as seguintes:
+ O frequency/interval local em que você gravou seus dados. Por exemplo, você pode agregar e registrar vendas de itens de varejo toda semana. No exercício [Conceitos básicos](getting-started.md), use a eletricidade média usada por hora.
+ O formato de previsão (o *domínio*) e o tipo de conjunto de dados (dentro do domínio). Um domínio de conjunto de dados especifica qual tipo de previsão você gostaria de executar, enquanto um tipo de conjunto de dados ajuda você a organizar os dados de treinamento em categorias intuitivas para o Forecast.
+ O *esquema* do conjunto de dados. Um esquema mapeia os cabeçalhos da coluna do conjunto de dados. Por exemplo, ao monitorar a demanda, você pode ter coletado dados por hora sobre as vendas de um item em várias lojas. Nesse caso, o esquema define a ordem, da esquerda para a direita, em que o time stamp, o local e as vendas por hora aparecem no arquivo de dados de treinamento. Os esquemas também definem o tipo de dados de cada coluna, como `string` ou `integer`.
+ Informações sobre geolocalização e fuso horário. O atributo de geolocalização é definido no esquema com o tipo de atributo `geolocation`. As informações de fuso horário são definidas com a [ CreateDatasetImportJob](API_CreateDatasetImportJob.md)operação. Os dados de geolocalização e fuso horário devem ser incluídos para habilitar o [Weather Index](weather.md).

Cada coluna no conjunto de dados do Forecast representa uma *dimension* ou *feature* da previsão. As dimensões de previsão descrevem os aspectos dos dados que não mudam ao longo do tempo, tal como `store` ou `location`. Os recursos de previsão incluem qualquer parâmetro em nos dados que variam ao longo do tempo, como `price` ou `promotion`. Algumas dimensões, como `timestamp` ou `itemId`, são necessárias em conjuntos de dados de séries temporais de destino e de séries temporais relacionadas.

### Domínios e tipos de conjunto de dados
<a name="howitworks-dataset-domainstypes"></a>

Ao criar um conjunto de dados do Forecast, você escolhe um domínio e um tipo de conjunto de dados. O Forecast fornece domínios para vários casos de uso, como previsão de demanda de varejo ou tráfego da web. Também é possível criar um domínio personalizado. Para obter uma lista completa de domínios do Forecast, consulte [Domínios e tipos de conjunto de dados predefinidos](howitworks-domains-ds-types.md).

Em cada domínio, os usuários do Forecast podem especificar os seguintes tipos de conjuntos de dados:
+ Conjunto de dados de séries temporais de destino (obrigatório): use este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal *e* eles incluírem o campo para o qual você deseja gerar uma previsão. Esse campo é chamado de *campo de destino*.
+ Conjunto de dados de séries temporais relacionadas (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal, mas *não* incluírem o campo de destino. Por exemplo, se você estiver prevendo a demanda de itens, um conjunto de dados de séries temporais relacionadas pode ter `price` como um campo, mas não `demand`.
+ Conjunto de dados de metadados de itens (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento *não* forem dados de séries temporais, mas incluírem informações de metadados sobre os itens nos conjuntos de dados de séries temporais de destino ou relacionadas. Por exemplo, se você estiver prevendo a demanda do item, um conjunto de dados de metadados de itens pode ter `color` ou `brand` como dimensões. 

  O Forecast considera somente os dados fornecidos por um tipo de conjunto de dados de metadados de itens quando você usa o algoritmo [CNN-QR](aws-forecast-algo-cnnqr.md) ou [DeepAR\+](aws-forecast-recipe-deeparplus.md).

  Os metadados de itens são especialmente úteis em cenários de previsão coldstart, nos quais você tem poucos dados históricos diretos com os quais fazer previsões, mas tem dados históricos em itens com atributos de metadados semelhantes. Quando você inclui metadados de itens, o Forecast cria previsões coldstart com base em séries temporais semelhantes, o que pode criar uma previsão mais precisa. 

Dependendo das informações nos dados de treinamento e do que você deseja prever, é possível criar mais de um conjunto de dados. 

Por exemplo, suponha que você deseja gerar uma previsão para a demanda de itens de varejo, como sapatos e meias. Você pode criar os seguintes conjuntos de dados no domínio RETAIL:
+ Conjunto de dados de séries temporais de destino: inclui os dados históricos de demanda de séries temporais para os itens de varejo (`item_id`, `timestamp` e o campo de destino `demand`). Como ele designa o campo de destino que você deseja prever, é necessário ter pelo menos um conjunto de dados de séries temporais de destino em um grupo de conjuntos de dados.

  Também é possível adicionar até dez outras dimensões a um conjunto de dados de séries temporais de destino. Se você incluir somente um conjunto de dados de séries temporais de destino no grupo de conjuntos de dados, poderá criar previsões no nível do item ou somente no nível de granularidade da dimensão da previsão. Para obter mais informações, consulte [CreatePredictor](API_CreatePredictor.md).
+ Conjunto de dados de séries temporais relacionadas: inclui dados históricos de séries temporais diferentes do campo de destino, como `price` ou `revenue`. Como os dados de séries temporais relacionadas devem ser mapeáveis para os dados de séries temporais de destino, cada conjunto de dados de séries temporais relacionadas deve conter os mesmos campos de identificação. No domínio RETAIL, eles seriam `item_id` e `timestamp`.

  Um conjunto de dados de séries temporais relacionadas pode conter dados que refinam as previsões feitas com base no conjunto de dados de séries temporais de destino. Por exemplo, você pode incluir dados `price` no conjunto de dados de séries temporais relacionadas nas datas futuras para as quais deseja gerar uma previsão. Desta forma, o Forecast pode fazer previsões com uma dimensão adicional de contexto. Para obter mais informações, consulte [Usar conjuntos de dados de séries temporais relacionadas](related-time-series-datasets.md).
+ Conjunto de dados de metadados de itens: inclui metadados para os itens de varejo. Outros exemplos de metadados incluem `brand`, `category`, `color` e `genre`.

**Exemplo de conjunto de dados com uma dimensão de previsão**

Dando continuidade ao exemplo anterior, imagine que você deseja prever a demanda por sapatos e meias com base nas vendas anteriores de uma loja. No conjunto de dados de séries temporais de destino a seguir, `store` é uma dimensão de previsão de série temporal, enquanto `demand` é o campo de destino. As meias são vendidas em duas localizações de loja (NYC e SFO), e os sapatos são vendidos somente em ORD.

As três primeiras linhas dessa tabela contêm os primeiros dados de vendas disponíveis para as lojas de NYC, SFO e ORD. As últimas três linhas contêm os últimos dados de vendas registrados para cada loja. A linha `...` representa todos os dados de vendas de itens registrados entre a primeira e a última entradas.


<table>
<thead>
  <tr><th>timestamp</th><th>item\_id</th><th>store</th><th>demand</th></tr>
</thead>
<tbody>
  <tr><td>2019-01-01</td><td>socks</td><td>NYC</td><td> 25 </td></tr>
  <tr><td>2019-01-05</td><td>socks</td><td>SFO</td><td>45</td></tr>
  <tr><td>2019-02-01</td><td>shoes</td><td>ORD</td><td>10</td></tr>
  <tr><td colspan="4">...</td></tr>
  <tr><td>2019-06-01</td><td>socks</td><td>NYC</td><td>100</td></tr>
  <tr><td>2019-06-05</td><td>socks</td><td>SFO</td><td>5</td></tr>
  <tr><td>2019-07-01</td><td>shoes</td><td>ORD</td><td>50</td></tr>
</tbody>
</table>


### Esquema do conjunto de dados
<a name="howitworks-dataset-schema"></a>

Cada conjunto de dados requer um esquema, um mapeamento JSON fornecido pelo usuário dos campos nos dados de treinamento. É aqui que você lista as dimensões e os recursos obrigatórios e opcionais que deseja incluir no conjunto de dados.

Se seu conjunto de dados incluir um atributo de geolocalização, defina o atributo no esquema com o tipo de atributo `geolocation`. Para obter mais informações, consulte [Como adicionar informações de geolocalização](weather.md#adding-geolocation). Para aplicar o [Weather Index](weather.md), você deve incluir um atributo de geolocalização na série temporal de destino e em qualquer conjunto de dados de séries temporais relacionadas.

Alguns domínios têm dimensões opcionais que recomendamos incluir. As dimensões opcionais são listadas nas descrições de cada domínio posteriormente neste guia. Para ver um exemplo, consulte [Domínio RETAIL](retail-domain.md). Todas as dimensões opcionais têm o tipo de dados `string`.

Para cada conjunto de dados, é necessário um esquema. Veja a seguir o esquema que acompanha o exemplo de conjunto de dados de séries temporais de destino acima.

```
{
     "attributes": [
        {
           "AttributeName": "timestamp",
           "AttributeType": "timestamp"
        },
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "store",
           "AttributeType": "string"
        },
        {
           "AttributeName": "demand",
           "AttributeType": "float"
        }
    ]
}
```

Ao fazer upload dos dados de treinamento para o conjunto de dados que usa esse esquema, o Forecast pressupõe que o campo `timestamp` é a coluna 1, o campo `item_id` é a coluna 2, o campo `store` é a coluna 3 e o campo `demand`, o campo de *destino*, é a coluna 4.

Para o tipo de conjunto de dados de séries temporais relacionadas, todos os recursos relacionados devem ter um tipo de atributo flutuante ou inteiro. Para o tipo de conjunto de dados de metadados de itens, todos os recursos devem ter um tipo de atributo de string. Para obter mais informações, consulte [SchemaAttribute](API_SchemaAttribute.md).

**nota**  
Um par `attributeName` e `attributeType` é necessário para cada coluna no conjunto de dados. O Forecast reserva vários nomes que não podem ser usados como nome de um atributo de esquema. Para obter a lista de nomes reservados, consulte [Nomes de campo reservados](reserved-field-names.md).

## Grupos de conjuntos de dados
<a name="howitworks-datasetgroup"></a>

Um *grupo de conjuntos de dados* é uma coleção de um a três conjuntos de dados complementares, um de cada tipo de conjunto de dados. Importa conjuntos de dados para um grupo de conjuntos de dados e use o grupo de conjuntos de dados para treinar um preditor.

O Forecast inclui as seguintes operações para criar grupos de conjuntos de dados e adicionar conjuntos de dados a eles:
+ [CreateDatasetGroup](API_CreateDatasetGroup.md)
+ [UpdateDatasetGroup](API_UpdateDatasetGroup.md)

## Resolver conflitos na frequência da coleta de dados
<a name="howitworks-data-alignment"></a>

O Forecast pode treinar preditores com dados que não se alinham à frequência de dados especificada na operação [CreateDataset](API_CreateDataset.md). Por exemplo, você pode importar dados registrados em intervalos de hora em hora, mesmo que alguns dos dados não tenham carimbo de data e hora no início da hora (02:20, 02:45). O Forecast usa a frequência de dados especificada para aprender sobre seus dados. Em seguida, o Forecast agrega os dados durante o treinamento do preditor. Para obter mais informações, consulte [Agregação de dados para diferentes frequências de previsão](data-aggregation.md). 