

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 일반 텍스트 주석 파일
<a name="cer-annotation-csv"></a>

일반 텍스트 주석의 경우 주석 목록이 포함된 쉼표로 구분된 값 (CSV) 파일을 생성합니다. 학습 파일 입력 형식이 **한 줄에 한 문서**인 경우 CSV 파일에는 다음 열이 포함되어야 합니다.


| 파일 | 행 | 오프셋 시작 | 오프셋 종료 | Type | 
| --- | --- | --- | --- | --- | 
|  문서가 포함된 파일의 이름입니다. 예를 들어, 문서 파일 중 하나가 `s3://my-S3-bucket/test-files/documents.txt`에 있는 경우, `File` 열의 값은 `documents.txt`가 됩니다. 파일 이름의 일부로 파일 확장자(이 경우 '`.txt`')를 포함해야 합니다.  |  개체가 포함된 줄 번호입니다. 입력 형식이 파일당 문서 하나인 경우 이 열을 생략합니다.  |  개체가 시작되는 위치를 나타내는 입력 텍스트의 문자 오프셋(줄의 시작 부분을 기준으로 함)입니다. 첫 번째 문자는 위치 0에 있습니다.  |  개체가 끝나는 위치를 나타내는 입력 텍스트의 문자 오프셋입니다.  |  고객이 정의한 개체 유형. 개체 유형은 대문자로 밑줄로 구분된 문자열이어야 합니다. `MANAGER`, `SENIOR_MANAGER` 또는 `PRODUCT_CODE` 같은 설명형 개체 유형을 사용하는 것이 좋습니다. 모델당 최대 25개의 개체 유형을 학습시킬 수 있습니다.  | 

학습 파일 입력 형식이 **파일당 하나의 문서**인 경우, 줄 번호 열을 생략하고 **시작 오프셋** 및 **종료 오프셋** 값은 문서 시작부터 개체의 오프셋입니다.

다음 예제는 한 줄에 한 문서에 대한 것입니다. `documents.txt` 파일은 네 줄(행 0, 1, 2, 3)로 구성됩니다.

```
Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
```

주석 목록이 있는 CSV 파일은 다음과 같습니다.

```
File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER
```

**참고**  
주석 파일에서 개체를 포함하는 줄 번호는 줄 0으로 시작합니다. 이 예제에서는 `documents.txt`의 줄 2에 개체가 없기 때문에 CSV 파일에는 줄 2에 대한 항목이 없습니다.

**데이터 파일 생성**

오류 위험을 줄이려면 적절하게 구성된 CSV 파일에 주석을 넣는 것이 중요합니다. CSV 파일을 수동으로 구성하려면 다음 조건이 충족되어야 합니다.
+ UTF-8 인코딩은 대부분의 경우 기본값으로 사용되더라도 명시적으로 지정해야 합니다.
+ 첫 번째 줄에는 열 머리글: `File`, `Line`(선택 사항), `Begin Offset`, `End Offset`, `Type`이 포함됩니다.

잠재적 문제를 방지하려면 프로그래밍 방식으로 CSV 입력 파일을 생성하는 것이 좋습니다.

다음 예제는 Python을 사용하여 이전에 표시된 주석에 대한 CSV를 생성합니다.

```
import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])
```