

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 실시간 사용자 지정 분석을 위한 입력
<a name="idp-inputs-sync"></a>

사용자 지정 모델을 사용한 실시간 분석은 단일 문서를 입력으로 사용합니다. 다음 주제는 사용할 수 있는 입력 문서 유형에 대해 설명합니다.

**Topics**
+ [일반 텍스트 문서](#idp-inputs-sync-text)
+ [반정형 문서](#idp-inputs-sync-semi)
+ [이미지 파일 및 스캔한 PDF 파일](#idp-inputs-sync-ocr)
+ [Amazon Textract 출력](#idp-inputs-sync-textract)
+ [실시간 분석을 위한 최대 문서 크기](#idp-inputs-sync-sizes)
+ [반정형 문서의 오류](#idp-inputs-sync-err)

## 일반 텍스트 문서
<a name="idp-inputs-sync-text"></a>

입력 문서를 UTF-8 형식의 텍스트로 제공합니다.

## 반정형 문서
<a name="idp-inputs-sync-semi"></a>

반정형 문서에는 기본 PDF 문서와 Word 문서가 포함됩니다.

기본적으로 실시간 사용자 지정 분석은 Amazon Comprehend 파서를 사용하여 Word 파일 및 디지털 PDF 파일에서 텍스트를 추출합니다. PDF 파일의 경우 이 기본 설정을 재정의하고 Amazon Textract를 사용하여 텍스트를 추출할 수 있습니다. [텍스트 추출 옵션을 설정하는](idp-set-textract-options.md) 참조.

## 이미지 파일 및 스캔한 PDF 파일
<a name="idp-inputs-sync-ocr"></a>

지원되는 이미지 유형에는 JPEG, PNG 및 TIFF가 포함됩니다.

기본적으로 사용자 지정 개체 인식은 Amazon Textract `DetectDocumentText` API 작업을 사용하여 이미지 파일 및 스캔한 PDF 파일에서 텍스트를 추출합니다. 이 기본 설정을 재정의하여 `AnalyzeDocument` API 작업을 대신 사용할 수 있습니다. [텍스트 추출 옵션을 설정하는](idp-set-textract-options.md)을(를) 참조하세요.

## Amazon Textract 출력
<a name="idp-inputs-sync-textract"></a>

Amazon Textract `DetectDocumentText` API 또는 `AnalyzeDocument` API의 JSON 출력을 사용자 지정 분류 및 사용자 지정 개체 인식을 위한 실시간 API 작업에 대한 입력으로 제공할 수 있습니다. Amazon Comprehend에서는 실시간 API 작업에 대해 이 입력 유형을 지원하지만 콘솔에서는 지원하지 않습니다.

## 실시간 분석을 위한 최대 문서 크기
<a name="idp-inputs-sync-sizes"></a>

모든 입력 문서 유형의 경우 입력 파일의 최대 크기는 1페이지이며 10,000자를 넘지 않아야 합니다.

다음 표는 입력 문서의 최대 파일 크기를 보여줍니다.


| 파일 유형 | 최대 크기(API) | 최대 크기(콘솔) | 
| --- | --- | --- | 
| UTF-8 텍스트 문서 | 10KB | 10KB | 
| PDF 문서 | 10MB | 5MB | 
| Word 문서 | 10MB | 1MB | 
| 이미지 파일 | 10MB | 5MB | 
| Textract 출력 파일 | 1MB | 해당 사항 없음 | 

## 반정형 문서의 오류
<a name="idp-inputs-sync-err"></a>

 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 또는 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 작업에서 반정형 문서 또는 이미지 파일에서 텍스트를 추출하는 동안 문서 수준 또는 페이지 수준의 오류를 경험할 수 있습니다.

### 페이지 수준 오류
<a name="idp-inputs-sync-page-err"></a>

 [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 또는 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 작업에서 입력 문서의 페이지를 처리하는 동안 오류가 발생하는 경우, API 응답에는 각 오류에 대한 [오류 목록](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html) 항목이 포함됩니다.

오류 목록 항목의 `ErrorCode`에는 다음 값 중 하나가 포함됩니다.
+ TEXTRACT\_BAD\_PAGE – Amazon Textract이 페이지를 읽을 수 없습니다. Amazon Textract의 페이지 제한에 대한 자세한 내용은 [Amazon Textract의 페이지 할당량](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html)을 참조하세요.
+ TEXTRACT\_PROVISIONED\_THROUGHPUT\_EXCEEDED – 요청 수가 처리량 한도를 초과했습니다. Amazon Textract의 처리량에 대한 자세한 내용은 [Amazon Textract의 기본 처리량](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html)을 참조하세요.
+ PAGE\_CHARACTERS\_EXCEEDED – 페이지에 텍스트 문자가 너무 많습니다(최대 10,000자).
+ PAGE\_SIZE\_EXCEEDED – 최대 페이지 크기는 10MB입니다.
+ INTERNAL\_SERVER\_ERROR – 요청 중 서비스 문제가 발생했습니다. API 요청을 다시 시도하세요.

### 문서 수준 오류
<a name="idp-inputs-sync-doc-err"></a>

[ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html) 또는 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 작업이 입력 문서에서 문서 수준 오류를 감지하는 경우 API는 `InvalidRequestException` 오류 응답을 반환합니다.

응답에서 **Reason**필드에 `INVALID_DOCUMENT` 값이 포함됩니다.

**Detail** 필드에는 다음 값 중 하나가 포함될 수 있습니다.
+ DOCUMENT\_SIZE\_EXCEEDED – 문서 크기가 너무 큽니다. 파일 크기를 확인하고 요청을 다시 제출하세요.
+ UNSUPPORTED\_DOC\_TYPE – 지원되지 않는 문서 유형입니다. 파일 유형을 확인하고 요청을 다시 제출하세요.
+ PAGE\_LIMIT\_EXCEEDED – 문서에 페이지가 너무 많습니다. 파일의 페이지 수를 확인하고 요청을 다시 제출하세요.
+ TEXTRACT\_ACCESS\_DENIED\_EXCEPTION – Amazon Textract에 대한 액세스가 거부되었습니다. 계정에 Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html) 및 [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html) API 작업을 사용할 권한이 있는지 확인하고 요청을 다시 제출하세요.