

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Plain-text arquivos de anotação
<a name="cer-annotation-csv"></a>

Para anotações em texto simples, crie um arquivo de valores separados por vírgulas (CSV) contendo uma lista de anotações. O arquivo CSV deverá conter as seguintes colunas se o formato de entrada do arquivo de treinamento estiver configurado como **um documento por linha**.


| Arquivo | Linha | Início deslocamento | Final deslocamento | Tipo | 
| --- | --- | --- | --- | --- | 
| O nome do arquivo que contém o documento. Por exemplo, se um dos arquivos do documento estiver localizado em `s3://my-S3-bucket/test-files/documents.txt`, o valor na coluna `File` será `documents.txt`. Você deve incluir a extensão do arquivo (nesse caso, “`.txt`”) como parte do nome do arquivo. | O número da linha que contém a entidade. Omita essa coluna se o formato de entrada estiver configurado como um documento por arquivo. | O deslocamento de caracteres no texto de entrada (em relação ao início da linha) que mostra onde a entidade começa. O primeiro caractere está na posição 0. | O deslocamento de caracteres no texto de entrada que mostra onde a entidade termina. | O tipo de entidade definido pelo cliente. Os tipos de entidade devem ser uma sequência de caracteres em letras maiúsculas separadas por sublinhado. Recomendamos usar tipos de entidade descritivos, como `MANAGER`, `SENIOR_MANAGER` ou `PRODUCT_CODE`. É possível treinar até 25 tipos de entidades por modelo. | 

Se o formato de entrada do arquivo de treinamento estiver configurado como **um documento por arquivo**, você omitirá a coluna do número de linha e os valores de **Início deslocamento** e **Final deslocamento** serão os deslocamentos da entidade desde o início do documento.

O exemplo a seguir é para um documento por linha. O arquivo `documents.txt` contém 4 linhas (linhas 0, 1, 2 e 3):

```
Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
```

O arquivo CSV com a lista de anotações é o seguinte: 

```
File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER
```

**nota**  
No arquivo de anotações, o número da linha que contém a entidade começa com a linha 0. Neste exemplo, o arquivo CSV não contém nenhuma entrada para a linha 2 porque não há nenhuma entidade na linha 2 de `documents.txt`.

**Como criar seus arquivos de dados**

Para reduzir o risco de erros, é importante colocar suas anotações em um arquivo CSV configurado corretamente. Para configurar seu arquivo CSV manualmente, o seguinte deve ser verdadeiro:
+ UTF-8 a codificação deve ser especificada explicitamente, mesmo que seja usada como padrão na maioria dos casos.
+ A primeira linha contém os cabeçalhos de coluna: `File`, `Line` (opcional), `Begin Offset`, `End Offset`, `Type`.

É altamente recomendável que você gere os arquivos de entrada CSV programaticamente para evitar possíveis problemas.

O exemplo a seguir usa Python para gerar um CSV para as anotações apresentadas anteriormente:

```
import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])
```