

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Plain-text file anotasi
<a name="cer-annotation-csv"></a>

Untuk anotasi teks biasa, Anda membuat file nilai dipisahkan koma (CSV) yang berisi daftar anotasi. File CSV harus berisi kolom berikut jika format input file pelatihan Anda adalah **satu dokumen per baris**.


| File | Garis | Mulai offset | Akhiri offset | Tipe | 
| --- | --- | --- | --- | --- | 
| Nama file yang berisi dokumen. Misalnya, jika salah satu file dokumen berada di`s3://my-S3-bucket/test-files/documents.txt`, nilai di `File` kolom akan menjadi`documents.txt`. Anda harus menyertakan ekstensi file (dalam hal ini '`.txt`') sebagai bagian dari nama file. | Nomor baris yang berisi entitas. Hilangkan kolom ini jika format input Anda adalah satu dokumen per file. | Karakter offset dalam teks input (relatif terhadap awal baris) yang menunjukkan di mana entitas dimulai. Karakter pertama berada di posisi 0. | Karakter offset dalam teks input yang menunjukkan di mana entitas berakhir. | Jenis entitas yang ditentukan pelanggan. Tipe entitas harus berupa huruf besar, string yang dipisahkan underscore-separated. Sebaiknya gunakan tipe entitas deskriptif seperti`MANAGER`,`SENIOR_MANAGER`, atau`PRODUCT_CODE`. Hingga 25 jenis entitas dapat dilatih per model. | 

Jika format input file pelatihan Anda adalah **satu dokumen per file**, Anda menghilangkan kolom nomor baris dan nilai **offset Mulai** dan **akhir offset** adalah offset entitas dari awal dokumen.

Contoh berikut adalah untuk satu dokumen per baris. File `documents.txt` berisi empat baris (baris 0, 1, 2, dan 3):

```
Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
```

File CSV dengan daftar anotasi adalah sebagai berikut: 

```
File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER
```

**catatan**  
Dalam file anotasi, nomor baris yang berisi entitas dimulai dengan baris 0. Dalam contoh ini, file CSV tidak berisi entri untuk baris 2 karena tidak ada entitas di baris 2 dari. `documents.txt`

**Membuat file data Anda**

Penting untuk menempatkan anotasi Anda dalam file CSV yang dikonfigurasi dengan benar untuk mengurangi risiko kesalahan. Untuk mengonfigurasi file CSV Anda secara manual, berikut ini harus benar:
+ UTF-8 pengkodean harus ditentukan secara eksplisit, bahkan jika digunakan sebagai default dalam banyak kasus.
+ Baris pertama berisi header kolom:`File`, `Line` (opsional),, `Begin Offset``End Offset`,`Type`.

Kami sangat menyarankan agar Anda membuat file input CSV secara terprogram untuk menghindari potensi masalah.

Contoh berikut menggunakan Python untuk menghasilkan CSV untuk anotasi yang ditunjukkan sebelumnya:

```
import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])
```