

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Tipos de arquivo de conjunto de dados e formato de dados de entrada
<a name="autopilot-llms-finetuning-data-format"></a>

O ajuste fino baseado em instruções usa conjuntos de dados rotulados para melhorar o desempenho de tarefas pré-treinadas LLMs em tarefas específicas de processamento de linguagem natural (PNL). Os exemplos rotulados são formatados como prompts, pares de respostas a prompt e expressos como instruções.



Para saber mais sobre os tipos de arquivo de conjunto de dados compatíveis, consulte [Tipos de arquivos compatíveis do conjunto de dados compatíveis](#autopilot-llms-finetuning-dataset-format).

Para saber mais sobre o formato de dados de entrada, consulte [Formato de dados de entrada para ajuste fino baseado em instruções](#autopilot-llms-finetuning-input-format).

## Tipos de arquivos compatíveis do conjunto de dados compatíveis
<a name="autopilot-llms-finetuning-dataset-format"></a>

O Autopilot é compatível com conjuntos de dados de ajuste de acordo com as instruções formatados como arquivos CSV (padrão) ou como arquivos Parquet.
+ **CSV** (valores separados por vírgula) é um formato de arquivo em linhas que armazena dados em texto simples legível por humanos, o que é uma escolha frequente para troca de dados, pois é compatível com uma ampla variedade de aplicações.
+ O **Parquet** é um formato de arquivo em colunas, binário, no qual os dados são armazenados e processados com mais eficiência do que em formatos de arquivo de leitura humana como o CSV. Isso os torna uma opção melhor para problemas de big data.

**nota**  
O conjunto de dados pode consistir em vários arquivos, cada um dos quais deve seguir um modelo específico. Para obter informações sobre como formatar seus dados de entrada, consulte [Formato de dados de entrada para ajuste fino baseado em instruções](#autopilot-llms-finetuning-input-format).

## Formato de dados de entrada para ajuste fino baseado em instruções
<a name="autopilot-llms-finetuning-input-format"></a>

Cada arquivo do conjunto de dados deve seguir o seguinte formato:
+ O conjunto de dados deve conter exatamente duas colunas separadas por vírgula e nomeadas, `input` e `output`. O Autopilot não permite colunas adicionais. 
+ As colunas `input` contêm os prompts e as `output` correspondentes contêm a resposta esperada. Tanto o `input` quanto `output` estão no formato de string.

O exemplo a seguir ilustra o formato de dados de entrada para o ajuste fino baseado em instruções no Autopilot.

```
input,output
"<prompt text>","<expected generated text>"
```

**nota**  
Recomendamos usar conjuntos de dados com no mínimo 1.000 linhas para garantir o aprendizado e o performance ideais do modelo.

Além disso, o Autopilot define um limite máximo para o número de linhas no conjunto de dados e o tamanho do contexto com base no tipo de modelo que está sendo usado.
+ Os limites do número de linhas em um conjunto de dados se aplicam à contagem cumulativa de linhas em todos os arquivos dentro do conjunto de dados, incluindo vários arquivos. Se houver dois [tipos de canais](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html) definidos (um para treinamento e outro para validação), o limite se aplicará ao número total de linhas em todos os conjuntos de dados em ambos os canais. Quando o número de linhas excede o limite, o trabalho falha com um erro de validação.
+ Quando o comprimento da entrada ou saída de uma linha no conjunto de dados excede o limite definido no contexto do modelo de linguagem, ele é automaticamente truncado. Se mais de 60% das linhas no conjunto de dados estiverem truncadas, seja na entrada ou na saída, o Autopilot falhará no trabalho com um erro de validação.

A tabela a seguir apresenta esses limites para cada modelo.


| JumpStart ID do modelo | `BaseModelName` na solicitação de API | Limite de linhas | Limite de comprimento do contexto | 
| --- | --- | --- | --- | 
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B | 10.000 linhas | 1.024 tokens | 
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B | 10.000 linhas | 1.024 tokens | 
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B | 10.000 linhas | 1.024 tokens | 
| huggingface-llm-falcon-7b-bf16 | Falcon7B | 1.000 linhas | 1.024 tokens | 
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct | 1.000 linhas | 1.024 tokens | 
| huggingface-llm-falcon-40b-bf16 | Falcon40B | 10.000 linhas | 1.024 tokens | 
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct | 10.000 linhas | 1.024 tokens | 
| huggingface-text2text-flan-t5-large | FlanT5L | 10.000 linhas | 1.024 tokens | 
| huggingface-text2text-flan-t5-xl | FlanT5XL | 10.000 linhas | 1.024 tokens | 
| huggingface-text2text-flan-t5-xxll | FlanT5XXL | 10.000 linhas | 1.024 tokens | 
| meta-textgeneration-llama-2-7b | Llama2-7B | 10.000 linhas | 2.048 tokens | 
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat | 10.000 linhas | 2.048 tokens | 
| meta-textgeneration-llama-2-13b | Llama2-13B | 7.000 linhas | 2.048 tokens | 
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat | 7.000 linhas | 2.048 tokens | 
| huggingface-llm-mistral-7b | Mistral7B | 10.000 linhas | 2.048 tokens | 
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct | 10.000 linhas | 2.048 tokens | 
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B | 10.000 linhas | 1.024 tokens | 
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct | 10.000 linhas | 1.024 tokens | 