

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon S3
<a name="data-source-s3"></a>

Amazon S3 는 버킷 내에 데이터를 객체로 저장하는 객체 스토리지 서비스입니다. Amazon Kendra 를 사용하여 Amazon S3 버킷 문서 리포지토리를 인덱싱할 수 있습니다.

**주의**  
Amazon Kendra 는 Amazon Kendra 보안 주체에게 S3 버킷과 상호 작용할 수 있는 권한을 부여하는 버킷 정책을 사용하지 않습니다. 대신 IAM 역할을 사용합니다. 실수로 임의의 보안 주체에게 권한을 부여할 때 발생하는 데이터 보안 문제를 방지하려면 Amazon Kendra 가 버킷 정책에 신뢰할 수 있는 멤버로 포함되지 않도록 해야 합니다. 하지만 여러 계정에서 Amazon S3 버킷을 사용하도록 버킷 정책을 추가할 수 있습니다. 자세한 내용은 [여러 계정에서 Amazon S3 를 사용할 수 있는 정책](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds-s3-cross-accounts)(S3 IAM 역할 탭의 **데이터 소스의IAM 역할** 아래)을 참조하세요. S3 데이터 소스의 IAM 역할에 대한 자세한 내용은 [IAM 역할을](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds-s3) 참조하세요.

**참고**  
Amazon Kendra 는 이제 업그레이드된 Amazon S3 커넥터를 지원합니다.  
콘솔이 자동으로 업그레이드되었습니다. 콘솔에서 생성하는 모든 새 커넥터는 업그레이드된 아키텍처를 사용합니다. API를 사용하는 경우 이제 `S3DataSourceConfiguration` 객체 대신 [https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) 객체를 사용하여 커넥터를 구성해야 합니다.  
이전 콘솔 및 API 아키텍처를 사용하여 구성된 커넥터는 구성된 대로 계속 작동합니다. 하지만 편집하거나 업데이트할 수는 없습니다. 커넥터 구성을 편집하거나 업데이트하려면 새 커넥터를 생성해야 합니다.  
커넥터 워크플로를 업그레이드된 버전으로 마이그레이션하는 것이 좋습니다. 이전 아키텍처를 사용하여 구성된 커넥터에 대한 지원은 2024년 6월에 종료될 예정입니다.

[Amazon Kendra 콘솔](https://console.aws.amazon.com/kendra/) 또는 [TemplateConfiguration](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) API를 사용하여 Amazon S3 데이터 소스에 연결할 수 있습니다.

**참고**  
 Amazon S3 데이터 소스에 대한 동기화 상태 보고서를 생성하려면 [데이터 소스 문제 해결을](https://docs.aws.amazon.com/kendra/latest/dg/troubleshooting-data-sources.html#troubleshooting-data-sources-sync-status-manifest) 참조하세요.

 Amazon Kendra S3 데이터 소스 커넥터의 문제 해결은 섹션을 참조하세요[데이터 소스 문제 해결](troubleshooting-data-sources.md).

**Topics**
+ [지원되는 기능](#supported-features-s3)
+ [사전 조건](#prerequisites-s3)
+ [연결 지침](#data-source-procedure-s3)
+ [Amazon S3 데이터 소스 생성](create-ds-s3.md)
+ [Amazon S3 문서 메타데이터](s3-metadata.md)
+ [Amazon S3 데이터 소스에 대한 액세스 제어](s3-acl.md)
+ [Amazon S3 데이터 소스와 Amazon VPC 함께 사용](s3-vpc-example-1.md)

## 지원되는 기능
<a name="supported-features-s3"></a>
+ 필드 매핑
+ 사용자 액세스 제어
+ 포함/제외 필터
+ 전체 및 증분 콘텐츠 동기화
+ Virtual private cloud(VPC)

## 사전 조건
<a name="prerequisites-s3"></a>

 Amazon Kendra 를 사용하여 S3 데이터 소스를 인덱싱하려면 먼저 S3 및 AWS 계정에서 이러한 변경을 수행합니다.

**S3에서 다음 사항을 갖추었는지 확인하세요.**
+  Amazon S3 버킷의 이름을 복사했습니다.
**참고**  
버킷은 Amazon Kendra 인덱스와 동일한 리전에 있어야 하며, 인덱스에는 문서가 포함된 버킷에 액세스할 수 있는 권한이 있어야 합니다.
+ S3 및 동일한 인덱스에 사용할 다른 여러 데이터 소스에서 각 문서가 고유한지 확인했습니다. 인덱스에 사용하려는 각 데이터 소스에는 데이터 소스 전체에서 동일한 문서가 포함되어서는 안 됩니다. 문서 ID는 인덱스 전체에 적용되며 인덱스별로 고유해야 합니다.

** AWS 계정에 다음이 있는지 확인합니다.**
+ [Amazon Kendra 인덱스를 생성하고](https://docs.aws.amazon.com/kendra/latest/dg/create-index.html) API를 사용하는 경우 인덱스 ID를 기록했습니다.
+ 데이터 소스에 대한 [IAM 역할을 생성하고](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds) API를 사용하는 경우 IAM 역할의 ARN을 기록했습니다.

기존 IAM 역할이 없는 경우 S3 데이터 소스를 연결할 때 콘솔을 사용하여 새 IAM 역할을 생성할 수 있습니다 Amazon Kendra. API를 사용하는 경우 기존 IAM 역할의 ARN과 인덱스 ID를 제공해야 합니다.

## 연결 지침
<a name="data-source-procedure-s3"></a>

S3 데이터 소스 Amazon Kendra 에 연결하려면가 데이터에 액세스할 Amazon Kendra 수 있도록 S3 데이터 소스에 필요한 세부 정보를 제공해야 합니다. 에 대해 S3를 아직 구성하지 않은 경우 섹션을 Amazon Kendra참조하세요[사전 조건](#prerequisites-s3).

------
#### [ Console ]

** Amazon Kendra 에 연결하려면 Amazon S3 ** 

1. 에 로그인 AWS Management Console 하고 [Amazon Kendra 콘솔](https://console.aws.amazon.com/kendra/)을 엽니다.

1. 왼쪽 탐색 창에서 **인덱스**를 선택한 다음 인덱스 목록에서 사용할 인덱스를 선택합니다.
**참고**  
**인덱스 설정**에서 **사용자 액세스 제어** 설정을 구성하거나 편집할 수 있습니다.

1. **시작하기** 페이지에서 **데이터 소스 추가**를 선택합니다.

1. **데이터 소스 추가** 페이지에서 **S3 커넥터**를 선택한 다음 **커넥터 추가**를 선택합니다. 버전 2(해당하는 경우)를 사용하는 경우 'V2.0' 태그가 있는 **S3 커넥터**를 선택합니다.

1. **데이터 소스 세부 정보 지정** 페이지에서 다음 정보를 입력합니다.

   1. **이름 및 설명**에서 **데이터 소스 이름**에 데이터 소스의 이름을 입력합니다. 하이픈은 포함할 수 있지만 공백은 포함할 수 없습니다.

   1. (선택 사항) **설명** - 데이터 소스에 대한 선택적 설명을 입력합니다.

   1. **기본 언어** - 인덱스에 사용할 문서를 필터링할 언어를 선택합니다. 달리 지정하지 않는 한, 언어는 영어로 기본 설정됩니다. 문서 메타데이터에 지정된 언어가 선택한 언어보다 우선합니다.

   1. **태그**에서 **새 태그 추가** - 리소스를 검색 및 필터링하거나 AWS 비용을 추적하는 선택적 태그를 포함합니다.

   1. **다음**을 선택합니다.

1. **액세스 및 보안 정의** 페이지에서 다음 선택적 정보를 입력합니다.

   1. **IAM 역할** - 기존 IAM 역할을 선택하거나 새 IAM 역할을 생성하여 리포지토리 자격 증명 및 인덱스 콘텐츠에 액세스합니다.
**참고**  
IAM 인덱스에 사용되는 역할은 데이터 소스에 사용할 수 없습니다. 기존 역할을 인덱스나 FAQ에 사용하는지 확실하지 않은 경우 **새 역할 생성**을 선택하여 오류를 방지하세요.

   1. **Virtual Private Cloud(VPC)** - VPC를 사용하기로 선택할 수 있습니다. 그렇다면 **서브넷**과 **VPC 보안 그룹**을 추가해야 합니다.

   1. **다음**을 선택합니다.

1. **동기화 설정 구성** 페이지에 다음 정보를 입력합니다.

   1. **데이터 소스 위치**의 경우 - 데이터가 저장되는 Amazon S3 버킷의 경로를 지정합니다. **S3 찾아보기**를 선택하고 S3 버킷을 선택합니다.

   1. **최대 파일 크기**의 경우 - 이 제한 미만의 파일만 크롤링하도록 제한을 MB 단위로 지정합니다. Amazon Kendra 허용되는 최대 파일 크기는 50MB입니다.

   1. (선택 사항) **메타데이터 파일 접두사 폴더 위치**의 경우 - 필드/속성 및 기타 문서 메타데이터가 저장된 폴더의 경로를 지정합니다. **S3 찾아보기**를 선택하여 메타데이터 폴더를 찾습니다.

   1. (선택 사항) **액세스 제어 목록 구성 파일 위치**의 경우 - 사용자의 JSON 구조와 문서에 대한 액세스 권한이 포함된 파일의 경로를 지정합니다. **S3 찾아보기**를 선택하여 ACL 파일을 찾습니다.

   1. (선택 사항) **해독 키 선택** - 암호 해독 키를 사용하려면 선택합니다. 기존 AWS KMS 키를 사용하도록 선택할 수 있습니다.

   1. (선택 사항) **추가 구성**의 경우 - 패턴을 추가하여 특정 파일을 포함하거나 제외합니다. 모든 경로는 데이터 소스 위치 S3 버킷과 관련이 있습니다.

   1. **동기화 모드** - 데이터 소스 콘텐츠가 변경될 때 인덱스를 업데이트하는 방법을 선택합니다. 데이터 소스를 Amazon Kendra 와 처음 동기화하면 기본적으로 모든 콘텐츠가 크롤링되고 인덱싱됩니다. 동기화 모드 옵션으로 전체 동기화를 선택하지 않은 경우에도 초기 동기화에 실패한 경우 데이터의 전체 동기화를 실행해야 합니다.
      + 전체 동기화: 데이터 소스가 인덱스와 동기화될 때마다 기존 콘텐츠를 교체하면서 모든 콘텐츠를 새로 인덱싱합니다.
      + 신규, 수정, 삭제된 동기화: 데이터 소스가 인덱스와 동기화될 때마다 신규, 수정 및 삭제된 콘텐츠만 인덱싱합니다. Amazon Kendra 는 데이터 소스의 메커니즘을 사용하여 콘텐츠 변경 사항을 추적하고 마지막 동기화 이후 변경된 콘텐츠를 인덱싱할 수 있습니다.

   1. **동기화 실행 일정**의 **빈도** - 데이터 소스 콘텐츠를 동기화하고 인덱스를 업데이트할 빈도를 선택합니다.

   1. **다음**을 선택합니다.

1. **필드 매핑 설정** 페이지에 다음 선택적 정보를 입력합니다.

   1. **기본 필드 매핑 **- 인덱스에 매핑하려는 Amazon Kendra 생성된 기본 데이터 소스 필드 중에서 선택합니다.

   1.  **필드 추가** - 사용자 지정 데이터 소스 필드를 추가하려면 매핑할 인덱스 필드 이름과 필드 데이터 유형을 만들려면 선택합니다.

   1. **다음**을 선택합니다.

1. **검토 및 생성** 페이지에서 입력한 정보가 정확한지 확인한 다음 **데이터 소스 추가**를 선택합니다. 이 페이지에서 정보를 편집하도록 선택할 수도 있습니다. 데이터 소스가 성공적으로 추가된 후 **데이터 소스** 페이지에 데이터 소스가 표시됩니다.

------
#### [ API ]

** Amazon Kendra 에 연결하려면 Amazon S3**

[TemplateConfiguration](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) API를 사용하여 [데이터 소스 스키마](https://docs.aws.amazon.com/kendra/latest/dg/ds-schemas.html)의 JSON을 지정해야 합니다. 다음 정보를 제공해야 합니다.
+ **데이터 소스** - [https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html) JSON 스키마를 사용할 때 데이터 소스 유형을 `S3`로 지정합니다. 또한, [https://docs.aws.amazon.com/kendra/latest/dg/API_CreateDataSource.html](https://docs.aws.amazon.com/kendra/latest/dg/API_CreateDataSource.html) API를 직접 호출할 때 데이터 소스를 `TEMPLATE`으로 지정합니다.
+ **BucketName** - 문서가 포함된 버킷의 이름입니다.
+ **동기화 모드** - 데이터 소스 콘텐츠가 변경될 때 Amazon Kendra 가 인덱스를 업데이트하는 방법을 지정합니다. 데이터 소스를 Amazon Kendra 와 처음 동기화할 때 기본적으로 모든 콘텐츠가 크롤링되어 인덱싱됩니다. 동기화 모드 옵션으로 전체 동기화를 선택하지 않은 경우에도 초기 동기화에 실패한 경우 데이터의 전체 동기화를 실행해야 합니다. 다음 중에서 선택할 수 있습니다.
  + `FORCED_FULL_CRAWL`은 데이터 소스가 인덱스와 동기화될 때마다 기존 콘텐츠를 교체하면서 모든 콘텐츠를 새로 인덱싱합니다.
  + `FULL_CRAWL`은 데이터 소스가 인덱스와 동기화될 때마다 신규, 수정 및 삭제된 콘텐츠만 인덱싱합니다. Amazon Kendra 는 데이터 소스의 메커니즘을 사용하여 콘텐츠 변경 사항을 추적하고 마지막 동기화 이후 변경된 콘텐츠를 인덱싱할 수 있습니다.
+ **IAM 역할** - Secrets Manager 보안 암호`CreateDataSource`에 액세스하고 S3 커넥터 및에 필요한 퍼블릭 APIs를 호출할 수 있는 권한을 IAM 역할에 제공하기 위해를 호출할 `RoleArn` 때를 지정합니다 Amazon Kendra. 자세한 내용은 [S3 데이터 소스에 대한IAM 역할](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)을 참조하세요.

다음 선택적 기능도 추가할 수 있습니다.
+  **Virtual Private Cloud(VPC)** - `CreateDataSource`를 호출할 때 `VpcConfiguration`을 지정합니다. 자세한 내용은 [Amazon Kendra 를 사용하도록 구성 Amazon VPC](vpc-configuration.md) 단원을 참조하십시오.
+  **포함 및 제외 필터** - 특정 파일 이름, 파일 유형, 파일 경로를 포함할지 또는 제외할지를 지정합니다. glob 패턴(와일드카드 패턴을 확장하여 주어진 패턴과 일치하는 경로 이름 목록으로 변환할 수 있는 패턴)을 사용합니다. 예제는 AWS CLI 명령 참조[의 제외 및 포함 필터 사용을 참조하세요](https://docs.aws.amazon.com/cli/latest/reference/s3/#use-of-exclude-and-include-filters).
+ **문서 메타데이터 및 액세스 제어 구성** - 소스 URI, 문서 작성자, 사용자 지정 문서 속성/필드 등의 정보를 포함한 문서 메타데이터와 액세스 제어 파일, 사용자와 사용자가 액세스할 수 있는 문서를 추가합니다. 각 메타데이터 파일에는 단일 문서에 대한 메타데이터가 들어 있습니다.
+  **필드 매핑** - S3 데이터 소스 필드를 Amazon Kendra 인덱스 필드에 매핑하기로 선택합니다. 자세한 내용을 알아보려면 [데이터 소스 필드 매핑](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)을 참조하세요.
**참고**  
가 문서를 Amazon Kendra 검색하려면 문서 본문 필드 또는 문서에 해당하는 문서 본문이 필요합니다. 데이터 소스의 문서 본문 필드 이름을 인덱스 필드 이름 `_document_body`에 매핑해야 합니다. 다른 모든 필드는 선택 사항입니다.

구성해야 할 기타 중요한 JSON 키 목록은 [S3 템플릿 스키마](https://docs.aws.amazon.com/kendra/latest/dg/ds-schemas.html#ds-s3-schema)를 참조하세요.

------

### 자세히 알아보기
<a name="s3-learn-more"></a>

S3 데이터 소스 Amazon Kendra 와 통합하는 방법에 대한 자세한 내용은 다음을 참조하세요.
+ [VPC 지원 Amazon Kendra S3 Connector를 사용하여 정확한 답변 검색](https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/)