더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 [머신 러닝이란?](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html) 단원을 참조하세요.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon ML의 데이터 형식에 대한 이해
<a name="understanding-the-data-format-for-amazon-ml"></a>

 입력 데이터는 데이터 소스를 생성하는 데 사용하는 데이터입니다. 입력 데이터는 쉼표로 구분된 값(.csv) 형식으로 저장해야 합니다. .csv 파일의 각 행은 단일 데이터 레코드 또는 관측값에 해당합니다. .csv 파일의 각 열에는 관측치의 속성이 들어 있습니다. 예를 들어, 다음 그림은 각각 행에 네 개의 관측치가 있는.csv 파일의 내용을 보여줍니다. 각 관측치에 쉼표로 구분된 8개의 속성이 있습니다. 속성은 관측치(customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign)로 표시되는 각 개인에 대한 다음 정보를 나타냅니다.

 ![\[Diagram showing Attributes and Observations sections with sample data entries.\]](http://docs.aws.amazon.com/ko_kr/machine-learning/latest/dg/images/image39.png) 

## 속성
<a name="attributes"></a>

 Amazon ML에는 각 속성에 이름이 필요합니다. 다음과 같이 속성 이름을 지정할 수 있습니다.
+  입력 데이터로 사용하는 .csv 파일의 첫 번째 줄(헤더 라인이라고도 함)에 속성 이름을 포함시켜서 
+  입력 데이터와 동일한 S3 버킷에 있는 별도의 스키마 파일에 속성 이름을 포함시켜서 

 스키마 파일 사용에 대한 자세한 내용은 [데이터 스키마 생성](https://docs.aws.amazon.com/machine-learning/latest/dg/creating-a-data-schema-for-amazon-ml.html) 단원을 참조하세요.

 .csv 파일의 다음 예제에는 헤더 라인에 속성 이름이 포함되어 있습니다.

```
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign

1,3,basic.4y,no,no,1,261,0

2,1,high.school,no,no,22,149,0

3,1,high.school,yes,no,65,226,1

4,2,basic.6y,no,no,1,151,0
```

## 입력 파일 형식 요구 사항
<a name="csv-format-requirements"></a>

 입력 데이터가 포함된 .csv 파일은 다음 요구 사항을 충족시켜야 합니다.
+  ASCII, 유니코드 또는 EBCDIC과 같은 문자 세트를 사용하여 일반 텍스트로 작성되어야 합니다.
+  한 라인에 관측치 한 개씩, 관측치로 구성되어야 합니다.
+  각 관측치에 대해 속성 값을 쉼표로 구분해야 합니다.
+  속성 값에 쉼표(구분 기호)가 포함된 경우 전체 속성 값을 큰따옴표로 묶어야 합니다.
+  각 관측값은 라인 끝을 나타내는 특수 문자 또는 일련의 문자인 라인 끝 문자로 끝나야 합니다.
+  속성 값을 큰 따옴표로 묶더라도 속성 값에 라인 끝 문자를 포함할 수 없습니다.
+  모든 관측치는 동일한 수의 속성과 속성 순서를 가져야 합니다.
+  각 관측치는 100KB를 넘지 않아야 합니다. Amazon ML은 처리 중에 100KB를 초과하는 관측치를 모두 거부합니다. Amazon ML이 10,000개 이상의 관측치를 거부하게 될 경우 전체 .csv 파일을 거부합니다.

## 여러 파일을 Amazon ML에 데이터 입력으로 사용
<a name="using-multiple-files-as-data-input-to-amazon-ml"></a>

 Amazon ML에 입력 내용을 단일 파일 또는 파일 모음으로 제공할 수 있습니다. 파일 모음은 다음 조건을 충족시켜야 합니다.
+  모든 파일에 동일한 데이터 스키마가 있어야 합니다.
+  모든 파일에 동일한 Amazon Simple Storage Service(Amazon S3) 접두사에 있어야 합니다. 파일 모음에 제공하는 경로는 슬래시('/') 문자로 끝나야 합니다.

 예를 들어 데이터 파일 이름이 input1.csv, input2.csv, input3.csv이고 S3 버킷 이름이 s3://examplebucket 인 경우 파일 경로는 다음과 같을 수 있습니다.

 s3://examplebucket/path/to/data/input1.csv 

 s3://examplebucket/path/to/data/input2.csv 

 s3://examplebucket/path/to/data/input3.csv 

Amazon ML에 대한 입력으로 다음과 같은 S3 위치를 제공하면 됩니다.

 's3://examplebucket/path/to/data/'

## CSV 형식의 라인 끝 문자
<a name="end-of-line-characters-in-csv-format"></a>

 .csv 파일을 만들면 각 관측치는 특수 라인 끝 문자로 종료됩니다. 이 문자는 보이지 않지만 **Enter** 또는 **Return** 키를 누르면 각 관측치 끝에 자동으로 포함됩니다. 라인 끝을 나타내는 특수 문자는 운영 체제에 따라 다릅니다. Linux 또는 OS X와 같은 Unix 시스템에서는 “\$1n”(10진수는 ASCII 코드 10 또는 16진수의 경우 0x0a)으로 표시되는 *줄 바꿈* 문자를 사용합니다. Microsoft Windows에서는 “\$1r\$1n”(ASCII 코드 십진수 13과 10, 16진수의 경우 0x0d 및 0x0a)으로 표시되는 *캐리지 리턴*과 *줄 바꿈*이라는 두 가지 문자를 사용합니다.

 OS X와 Microsoft Excel을 사용하여.csv 파일을 만들려면 다음 절차를 수행합니다. 올바른 형식을 선택했는지 확인합니다.

 **OS X 및 Excel을 사용하는 경우 .csv 파일을 저장하려면** 

1.  .csv 파일을 저장할 때는 **형식**을 선택한 다음 **Windows 쉼표로 분리(.csv)**를 선택합니다.

1.  **저장**을 선택합니다.

    ![\[Excel file save dialog showing various file format options, including CSV and specialty formats.\]](http://docs.aws.amazon.com/ko_kr/machine-learning/latest/dg/images/image40b.png) 
**중요**  
 ML에서 읽을 수 없으므로 **쉼표로 구분된 값(.csv)** 또는 **MS-DOS 쉼표로 구분된 값(.csv)** 형식을 사용하여.csv 파일을 저장하지 마세요.