데이터 소스 문제 해결 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 소스 문제 해결

이 섹션에서는 Amazon Kendra데이터 소스 커넥터를 구성하고 사용할 때 발생하는 일반적인 문제를 해결하는 데 도움이 될 수 있습니다.

내 문서가 인덱싱되지 않았습니다.

Amazon Kendra인덱스를 데이터 소스와 동기화하면 문서가 인덱싱되지 않는 문제가 발생할 수 있습니다. 인덱싱은 두 단계로 이루어져 있습니다. 먼저 데이터 소스에서 인덱스를 생성할 새 문서 및 업데이트된 문서가 있는지 확인하고 인덱스에서 제거할 문서를 찾습니다. 둘째, 문서 수준에서 각 문서에 액세스하고 인덱싱합니다.

두 단계 중 하나에서 오류가 발생할 수 있습니다. 데이터 소스 수준 오류는 콘솔의 데이터 소스 세부정보 페이지의 동기화 실행 기록 섹션에 보고됩니다. 동기화 작업의 상태는 성공, 미완료 또는 실패일 수 있습니다. 또한 작업 중에 인덱싱되고 삭제된 문서 수를 볼 수 있습니다. 상태가 실패인 경우 세부 정보 열에 메시지가 표시됩니다.

문서 수준 오류는에 보고됩니다Amazon CloudWatch Logs. CloudWatch콘솔을 사용하여 오류를 확인할 수 있습니다.

문서 동기화 상태 보고서를 생성하려면 내 문서에 대한 동기화 상태 보고서를 생성하고자 함을 참조하세요.

동기화 작업이 실패함

동기화 작업은 일반적으로 인덱스 또는 데이터 소스에 구성 오류가 있는 경우 실패합니다. 콘솔의 세부 정보 열 아래에 있는 데이터 소스 세부 정보 페이지의 동기화 실행 기록 섹션에서 오류 메시지를 찾을 수 있습니다. 문서 수준 오류는 Amazon CloudWatch Logs에 보고됩니다. 오류 메시지는 무엇이 잘못되었는지에 대한 정보를 제공합니다. 문제는 일반적으로 인덱스 또는 데이터 소스에 적절한 IAM권한이 없다는 것입니다. 오류 메시지에 누락된 권한이 설명되어 있습니다. 수신할 수 있는 몇 가지 오류 메시지는 다음과 같습니다.

Failed to create log group for job. Please make sure that theIAMrole provided has sufficient permissions.

인덱스 역할에 사용 권한이 없는 경우 CloudWatch데이터 소스는 CloudWatch로그를 생성할 수 없습니다. 이 오류가 발생하면 인덱스 역할에 CloudWatch권한을 추가해야 합니다.

Failed to accessAmazon S3file prefix (bucket name) while trying to crawl your metadata files. Please make sure theIAMrole (ARN) provided has sufficient permissions.

Amazon S3데이터 소스를 사용하는 경우 문서가 포함된 버킷에 액세스할 수 있는 권한이 있어야 Amazon Kendra합니다. 가 데이터 소스 IAM역할에 버킷Amazon Kendra을 읽을 수 있는 권한을 추가해야 합니다.

The providedIAMrole (ARN) could not be assumed. Please make sureAmazon Kendrais a trusted entity that is allowed to assume the role.

Amazon Kendra에는 인덱스 및 데이터 소스 IAM역할을 수임할 수 있는 권한이 필요합니다. sts:AssumeRole 작업에 대한 권한이 있는 역할에 신뢰 정책을 추가해야 합니다.

데이터 소스를 인덱싱Amazon Kendra해야 하는 IAM정책은 IAM역할을 참조하세요.

문서 동기화 상태 보고서를 생성하려면 내 문서에 대한 동기화 상태 보고서를 생성하고자 함을 참조하세요.

동기화 작업이 완료되지 않음

데이터 소스 수준 프로세스를 완료했지만 문서 수준 프로세스에서 약간의 오류가 발생한 경우, 작업은 일반적으로 완료되지 않습니다. 작업이 완료되지 않은 경우 일부 문서의 인덱스가 제대로 생성되지 않았을 수 있습니다. Amazon S3 데이터 소스의 경우 미완료 작업은 일반적으로 다음과 같은 원인으로 발생합니다.

  • 하나 이상의 문서에 대한 메타데이터가 잘못되었습니다.

  • 인덱싱을 위해 문서를 제출했지만 하나 이상의 문서가 제출되지 않은 경우.

  • 인덱스에서 삭제하기 위해 문서를 제출했지만 하나 이상의 문서가 제출되지 않은 경우.

불완전한 동기화 작업 문제를 해결하려면 먼저 CloudWatch로그를 찾습니다.

  1. 세부 정보 열에서 세부 정보 보기를CloudWatch 선택합니다.

  2. 오류 메시지를 검토하여 문서 오류의 원인을 확인하세요.

문서 동기화 상태 보고서를 생성하려면 내 문서에 대한 동기화 상태 보고서를 생성하고자 함을 참조하세요.

동기화 작업은 성공했지만 인덱싱된 문서가 없음

인덱스 동기화 작업 실행이 성공한 것으로 표시되지만 예상했던 인덱싱된 새 문서나 업데이트된 문서가 없는 경우가 있습니다. 가능한 이유는 다음과 같습니다.

  • DocumentsSubmittedForIndexingFailed 지표를 확인하여CloudWatch 동기화에 실패한 문서가 있는지 확인합니다. CloudWatch로그에서 세부 정보를 확인하세요.

  • Amazon S3데이터 소스의 경우 Amazon Kendra잘못된 버킷 이름 또는 접두사를 지정했을 수 있습니다. 를 사용하는 버킷Amazon Kendra이 인덱싱할 문서가 포함된 버킷인지 확인합니다.

  • 이전 작업에서 인덱싱하지 못한 문서를 다시 인덱싱할 때는 문서 또는 관련 메타데이터 파일을 변경하지 않는 한, Amazon Kendra가 인덱싱하지 않습니다.

문서 동기화 상태 보고서를 생성하려면 내 문서에 대한 동기화 상태 보고서를 생성하고자 함을 참조하세요.

데이터 소스를 동기화하는 동안 파일 형식 문제가 발생함

데이터 소스에 파일을 추가하거나 데이터 소스를 동기화하는 동안 파일 형식 문제가 발생하는 경우 문서 유형이 Amazon Kendra를 지원하는지 확인하세요. 에서 지원하는 문서 유형 목록은 문서 유형 또는 형식을 Amazon Kendra참조하세요.

일반 텍스트 파일과 함께 BatchPutDocument API를 사용하는 경우 콘텐츠 유형으로 PLAIN_TEXT를 지정하세요.

내 문서에 대한 동기화 기록 보고서를 생성하고자 함

보고서 보기를 선택하여 CloudWatch에서 데이터 소스 동기화 작업에 대한 문서 수준 동기화 실행 기록 보고서를 볼 수 있습니다. 동기화 실행 기록 보고서에는 동기화 작업의 각 문서에 대한 진행 상황 및 상태 관련 세부 정보가 나와 있습니다. 크롤링, 동기화 및 인덱스 단계에서 문서가 성공했는지, 실패했는지 또는 건너뛰었는지 여부를 표시합니다. 실패하거나 건너뛴 문서와 관련된 오류 메시지도 확인할 수 있습니다. 보고서에 진행 중인 동기화 작업의 결과가 나타나지 않으면 로그를 아직 사용할 수 없는 것일 수 있습니다. 나중에 동기화 프로세스 중에 이벤트가 발생할 때 데이터가 보고서로 전송되면 다시 확인하세요.

동기화 실행 기록 보고서에 액세스하려면 다음 단계를 수행합니다.

  1. https://console.aws.amazon.com/kendra/에서 Amazon Kendra 콘솔을 엽니다.

  2. 왼쪽 탐색 메뉴의 데이터 관리에서 데이터 소스를 선택한 다음, 데이터 소스를 선택합니다.

  3. 데이터 소스 요약 페이지에서 아래로 스크롤하여 동기화 기록 탭을 선택합니다.

  4. 동기화 실행 기록에서 작업을 선택합니다.

  5. 작업에서 보고서 보기를 선택합니다. CloudWatch 콘솔로 리디렉션되며, 여기에서 보고서에 액세스할 수 있습니다.

참고

동기화 실행 기록은 연결된 ACL 및 메타데이터를 포함하여 수집 중에 모든 Amazon Kendra 지원 커넥터에 대해 문서가 성공적으로 인덱싱되었는지를 기록합니다.

Amazon S3 커넥터를 사용하는 경우:

CloudWatch의 문서 수준 동기화 실행 기록 보고서 외에도 Amazon S3 데이터 소스의 각 문서에 대한 동기화 기록 보고서를 생성하여 Amazon S3버킷에 복사할 수 있습니다. 이 프로세스 중에 데이터는 AWS KMS키를 사용하여 암호화되며 사용자만 볼 수 있습니다. 보고된 문서 상태는 실패, 완료 또는 성공(오류 있음) 중 하나일 수 있습니다. Amazon S3용 동기화 상태 보고서를 생성하는 경우 먼저 다음을 수행해야 합니다.

  • Amazon S3액세스 정책에 다음 Amazon Kendra서비스 보안 주체 추가

  • 에 대한 액세스 권한이 있는 Amazon S3버킷 생성Amazon Kendra

콘솔을 사용하여 Amazon S3의 동기화 기록 보고서를 생성하려면 데이터 소스 세부 정보 페이지의 동기화 기록 보고서 - 선택 사항 섹션에서 보고서 생성 옵션을 활성화하세요. 그런 다음 Amazon S3 버킷 위치를 입력하고 사용 가능한 구성 옵션 중에서 선택합니다. 보고서 생성을 활성화하면 다음번 동기화에서 보고서가 생성됩니다.

Amazon S3버킷을 삭제하면 로그 데이터가 손실되므로 새 동기화 보고서를 저장하도록 새 버킷을 설정해야 합니다.

참고

동기화 기록 보고서는 Amazon S3 커넥터가 데이터를 성공적으로 크롤링하고 수집했는지에 대한 정보만 제공합니다.

데이터 소스를 동기화하는 데 시간이 얼마나 걸리나요?

문서에 대한 업데이트가 없는 경우 Amazon Kendra인덱스의 동기화 시간은 문서 수에 비례하여 선형적으로 증가합니다. 예를 들어 업데이트가 없는 문서 1,000개는 동기화하는 데 약 5분이 걸리고, 업데이트가 없는 문서 2,000개는 동기화하는 데 약 10분이 걸립니다. 문서가 업데이트된 경우 업데이트된 문서 수에 따라 동기화 시간이 늘어납니다.

데이터 소스를 동기화하는 데 드는 요금은 얼마인가요?

인덱스를 동기화할 때 워밍업하고 활성화하여 필요한 연결을 설정하는 Amazon EC2데 2분이 걸립니다. 이 프로세스에는 요금이 청구되지 않습니다. 사용량 측정기는 동기화 작업이 시작된 후에만 시작됩니다. Amazon Kendra요금에 대한 자세한 내용은 Amazon Kendra 요금을 참조하세요.

Amazon EC2권한 부여 오류가 발생합니다.

Virtual Private Cloud(VPC) 데이터 소스에 대한 동기화 중에 Amazon EC2무단 작업 오류가 발생하는 경우 VPC IAM역할에 필요한 권한이 없을 수 있습니다. 데이터 소스에 사용하는 IAM역할에 연결된 권한이 있는지 확인하세요. 자세한 내용은 Virtual Private Cloud IAM역할을 참조하세요.

Amazon Kendra인덱스는 Amazon S3데이터 소스가 액세스 권한을 부여하는 파일에만 액세스할 수 있습니다. 예를 들어, 객체가 퍼블릭 또는 암호화 대상인지 여부를 결정하는 Amazon S3권한을 수정할 수 Amazon Kendra없습니다. Amazon Kendra또한 에는 Amazon S3객체에 대해 서명된 링크를 생성하거나 반환할 수 있는 기본 권한이 없습니다. Amazon Kendra인덱스의 Amazon S3객체에 대해 서명된 연결을 활성화하려면 다음 두 가지 옵션이 있습니다.

  • 결과를 검색 페이지에 반환하기 전에 소스 uri 객체를 사용하여 인덱스 쿼리 결과에 서명할 수 있습니다. 이 프로세스의 단계별 안내 지침은 미리 서명된 URL을 사용하여 객체 공유를 참조하세요.

  • Amazon S3객체 메타데이터 소스 uri를 재정의하고 Amazon S3버킷에 연결된 CloudFront콘텐츠 전송 네트워크(CDN)를 통해 서비스를 사용할 수 있도록 할 수 있습니다. 또는 미리 서명된 URL을 반환하고 리디렉션하는 API Gateway프록시 엔드포인트를 사용할 수 있습니다.

SSL 인증서 파일 사용 시 액세스가 거부됨 오류 메시지가 나타남

데이터 소스와 함께 SSL 인증서를 사용할 때 액세스 거부 오류가 발생하는 경우 IAM역할에 지정된 위치의 SSL 인증서 파일에 액세스할 수 있는 권한이 있는지 확인합니다. 인증서가 AWS KMS키로 암호화된 경우 IAM역할에AWS KMS는 키를 사용하여 복호화할 수 있는 권한도 있어야 합니다. 자세한 내용은 AWS KMS에 대한 인증 및 액세스 제어를 참조하세요.

SharePoint 데이터 소스를 사용할 때 인증 오류가 발생함

인덱스를 SharePoint 데이터 소스와 동기화하는 동안 인증 오류가 발생하는 경우 SharePoint에서 사이트 관리자 역할을 할당 받았는지 확인하세요.

내 인덱스가 Confluence 데이터 소스의 문서를 크롤링하지 않음

동기화 프로세스 중에 Amazon Kendra인덱스가 Confluence 데이터 소스에서 문서를 크롤링하지 않는 경우 Confluence의 관리자 그룹에 속해 있는지 확인합니다.