

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Kendra 웹 크롤러 커넥터 v1.0
<a name="data-source-v1-web-crawler"></a>

 Amazon Kendra 웹 크롤러를 사용하여 웹 페이지를 크롤링하고 인덱싱할 수 있습니다.

보안 통신 프로토콜인 HTTPS(Hypertext Transfer Protocol Secure)를 사용하는 웹사이트와 공개 웹 사이트만 크롤링할 수 있습니다. 웹 사이트를 크롤링할 때 오류가 발생하면 웹 사이트가 크롤링되지 않도록 차단되었을 수 있습니다. 내부 웹 사이트를 크롤링하기 위해 웹 프록시를 설정할 수 있습니다. 이 웹 프록시는 공개용이어야 합니다.

*인덱싱할 웹 사이트를 선택할 때 [Amazon 이용 정책](https://aws.amazon.com/aup/)과 기타 모든 Amazon 약관을 준수해야 합니다. Amazon Kendra 웹 크롤러는 자체 웹 페이지 또는 인덱싱 권한이 있는 웹 페이지를 인덱싱하는 데만 사용해야 합니다. Amazon Kendra 웹 크롤러가 웹 사이트(들) 인덱싱을 중지하는 방법을 알아보려면 섹션을 참조하세요[Amazon Kendra 웹 크롤러용 `robots.txt` 파일 구성](stop-web-crawler.md).*

**참고**  
 Amazon Kendra 웹 크롤러를 남용하여 소유하지 않은 웹 사이트 또는 웹 페이지를 공격적으로 크롤링하는 것은 허용 가능한 사용으로 간주되지 **않습니다**.

 Amazon Kendra 웹 크롤러 데이터 소스 커넥터 문제를 해결하려면 섹션을 참조하세요[데이터 소스 문제 해결](troubleshooting-data-sources.md).

**Topics**
+ [지원되는 기능](#supported-features-v1-web-crawler)
+ [사전 조건](#prerequisites-v1-web-crawler)
+ [연결 지침](#data-source-v1-procedure-web-crawler)
+ [자세히 알아보기](#web-crawler-learn-more)

## 지원되는 기능
<a name="supported-features-v1-web-crawler"></a>
+ 웹 프록시
+ 포함/제외 필터

## 사전 조건
<a name="prerequisites-v1-web-crawler"></a>

 Amazon Kendra 를 사용하여 웹 사이트를 인덱싱하려면 먼저 웹 사이트 및 AWS 계정의 세부 정보를 확인하세요.

**웹 사이트의 경우 다음이 있어야 합니다.**
+ 인덱싱하려는 웹 사이트의 시드 또는 사이트맵 URL을 복사했습니다.
+ **기본 인증이 필요한 웹 사이트의 경우**: 사용자 이름과 암호를 기록하고 웹 사이트의 호스트 이름과 포트 번호를 복사했습니다.
+ **선택 사항:** 웹 프록시를 사용하여 크롤링하려는 내부 웹 사이트에 연결하려는 경우 웹 사이트의 호스트 이름과 포트 번호를 복사했습니다. 이 웹 프록시는 공용이어야 합니다. Amazon Kendra 에서는 기본 인증으로 뒷받침되는 웹 프록시 서버 또는 인증 없이 연결할 수 있는 웹 프록시 서버에 연결할 수 있습니다.
+ 인덱싱하려는 각 웹 페이지 문서가 고유한지, 동일한 인덱스에 사용할 다른 데이터 소스 전체를 확인했습니다. 인덱스에 사용하려는 각 데이터 소스에는 데이터 소스 전체에서 동일한 문서가 포함되어서는 안 됩니다. 문서 ID는 인덱스 전체에 적용되며 인덱스별로 고유해야 합니다.

** AWS 계정에 다음이 있는지 확인합니다.**
+ [Amazon Kendra 인덱스를 생성하고](https://docs.aws.amazon.com/kendra/latest/dg/create-index.html) API를 사용하는 경우 인덱스 ID를 기록했습니다.
+ 데이터 소스에 대한 [IAM 역할을 생성](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)했으며 API를 사용하는 경우 IAM 역할의 ARN을 기록했습니다.
**참고**  
인증 유형과 자격 증명을 변경하는 경우 올바른 AWS Secrets Manager 보안 암호 ID에 액세스하도록 IAM 역할을 업데이트해야 합니다.
+ 인증이 필요한 웹 사이트의 경우 또는 인증과 함께 웹 프록시를 사용하는 경우는 보안 AWS Secrets Manager 암호에 인증 자격 증명을 저장하고 API를 사용하는 경우 보안 암호의 ARN을 기록했습니다.
**참고**  
보안 인증 정보와 보안 암호를 정기적으로 새로 고치거나 교체하는 것이 좋습니다. 보안을 위해 필요한 액세스 수준만 제공하세요. 데이터 소스, 커넥터 버전 1.0 및 2.0(해당하는 경우) 간에 보안 인증 정보와 보안 암호를 재사용하지 **않는** 것이 좋습니다.

기존 IAM 역할이나 보안 암호가 없는 경우 web crawler 데이터 소스를 연결할 때 콘솔을 사용하여 새 IAM 역할 및 Secrets Manager 보안 암호를 생성할 수 있습니다 Amazon Kendra. API를 사용하는 경우 기존 IAM 역할 및 Secrets Manager 보안 암호의 ARN과 인덱스 ID를 제공해야 합니다.

## 연결 지침
<a name="data-source-v1-procedure-web-crawler"></a>

web crawler 데이터 소스 Amazon Kendra 에 연결하려면가 web crawler 데이터에 액세스할 Amazon Kendra 수 있도록 데이터 소스에 필요한 세부 정보를 제공해야 합니다. 아직에 web crawler 대해를 구성하지 않은 경우 단원을 Amazon Kendra 참조하십시오[사전 조건](#prerequisites-v1-web-crawler).

------
#### [ Console ]

** Amazon Kendra 에 연결하려면 web crawler** 

1. 에 로그인 AWS Management Console 하고 [Amazon Kendra 콘솔](https://console.aws.amazon.com/kendra/)을 엽니다.

1. 왼쪽 탐색 창에서 **인덱스**를 선택한 다음 인덱스 목록에서 사용할 인덱스를 선택합니다.
**참고**  
**인덱스 설정**에서 **사용자 액세스 제어** 설정을 구성하거나 편집할 수 있습니다.

1. **시작하기** 페이지에서 **데이터 소스 추가**를 선택합니다.

1. **데이터 소스 추가** 페이지에서 **웹 크롤러 커넥터**를 선택한 다음 **커넥터 추가**를 선택합니다. 버전 2(해당하는 경우)를 사용하는 경우 'V2.0' 태그가 있는 **웹 크롤러 커넥터**를 선택합니다.

1. **데이터 소스 세부 정보 지정** 페이지에서 다음 정보를 입력합니다.

   1. **이름 및 설명**에서 **데이터 소스 이름**에 데이터 소스의 이름을 입력합니다. 하이픈은 포함할 수 있지만 공백은 포함할 수 없습니다.

   1. (선택 사항) **설명** - 데이터 소스에 대한 선택적 설명을 입력합니다.

   1. **기본 언어** - 인덱스에 사용할 문서를 필터링할 언어를 선택합니다. 달리 지정하지 않는 한, 언어는 영어로 기본 설정됩니다. 문서 메타데이터에 지정된 언어가 선택한 언어보다 우선합니다.

   1. **태그**에서 **새 태그 추가** - 리소스를 검색 및 필터링하거나 AWS 비용을 추적하는 선택적 태그를 포함합니다.

   1. **다음**을 선택합니다.

1. **액세스 및 보안 정의** 페이지에서 다음 정보를 입력합니다.

   1. **소스**의 경우 사용 사례에 따라 **소스 URL**과 **소스 사이트맵** 중에서 선택하고 각 값을 입력합니다.

      최대 10개의 소스 URL과 3개의 사이트맵을 추가할 수 있습니다.
**참고**  
사이트맵을 크롤링하려면 기본 또는 루트 URL이 사이트맵 페이지에 나열된 URL과 동일한지 확인하세요. 예를 들어 사이트맵 URL이 *https://example.com/sitemap-page.html*인 경우 이 사이트맵 페이지에 나열된 URL도 기본 URL “https://example.com/”을 사용해야 합니다.

   1. (선택 사항) **웹 프록시**의 경우 다음 정보를 입력합니다.

      1. **호스트 이름** - 웹 프록시가 필요한 호스트 이름입니다.

      1. **포트 번호** - 호스트 URL 전송 프로토콜에서 사용하는 포트입니다. 포트 번호는 0에서 65535 사이의 숫자 값이어야 합니다.

      1. **웹 프록시 보안 인증**의 경우 - 웹 프록시 연결에 인증이 필요한 경우 기존 보안 암호를 선택하거나 보안 인증 정보를 저장할 새 보안 암호를 생성합니다. 새 암호를 만들기로 선택하면 AWS Secrets Manager 보안 암호 창이 열립니다.

      1. ** AWS Secrets Manager Secrets Manager 보안 암호 생성 창**에 다음 정보를 입력합니다.

         1. **보안 암호 이름** - 보안 암호의 이름. 'AmazonKendra-WebCrawler-'라는 접두사가 보안 암호 이름에 자동으로 추가됩니다.

         1. **사용자 이름** 및 **암호**의 경우 - 웹 사이트의 기본 보안 인증 정보를 입력합니다.

         1. **저장**을 선택합니다.

   1. (선택 사항) **인증 받은 호스트** - 인증 받은 호스트를 더 추가하려면 선택합니다.

   1. **IAM 역할** - 기존 IAM 역할을 선택하거나 새 IAM 역할을 생성하여 리포지토리 자격 증명 및 인덱스 콘텐츠에 액세스합니다.
**참고**  
IAM 인덱스에 사용되는 역할은 데이터 소스에 사용할 수 없습니다. 기존 역할을 인덱스나 FAQ에 사용하는지 확실하지 않은 경우 **새 역할 생성**을 선택하여 오류를 방지하세요.

   1. **다음**을 선택합니다.

1. **동기화 설정 구성** 페이지에 다음 정보를 입력합니다.

   1. **크롤링 범위** - 크롤링하려는 웹 페이지의 종류를 선택합니다.

   1. **크롤링 깊이** - 시드 URL에서 크롤링 Amazon Kendra 해야 하는 레벨 수를 선택합니다.

   1. **고급 크롤링 설정** 및 **추가 구성**은 다음 정보를 입력합니다.

      1. **최대 파일 크기** - 크롤링할 최대 웹 페이지 또는 첨부 파일 크기입니다. 최소 0.000001MB(1바이트). 최대 50MB.

      1. **페이지당 최대 링크 수** - 페이지당 크롤링된 최대 링크 수입니다. 링크는 표시되는 순서대로 크롤링됩니다. 페이지당 최소 1개 링크. 페이지당 최대 1000개의 링크.

      1. **최대 제한** - 1분간 호스트 이름당 크롤링되는 최대 URL 수입니다. 분당 호스트 이름당 최소 1개 URL. 분당 호스트 이름당 최대 300개 URL.

      1. **정규식 패턴** - 특정 URL을 포함하거나 제외하기 위한 정규 표현식 패턴을 추가합니다. 최대 100개의 패턴을 추가할 수 있습니다.

   1. **동기화 실행 일정**에서 **빈도** - Amazon Kendra 가 데이터 소스와 동기화하는 빈도를 선택합니다.

   1. **다음**을 선택합니다.

1. **검토 및 생성** 페이지에서 입력한 정보가 정확한지 확인한 다음 **데이터 소스 추가**를 선택합니다. 이 페이지에서 정보를 편집하도록 선택할 수도 있습니다. 데이터 소스가 성공적으로 추가된 후 **데이터 소스** 페이지에 데이터 소스가 표시됩니다.

------
#### [ API ]

** Amazon Kendra 에 연결하려면 web crawler**

[WebCrawlerConfiguration](https://docs.aws.amazon.com/kendra/latest/dg/API_WebCrawlerConfiguration.html) API를 사용하여 다음을 지정해야 합니다.
+ **URL** - [https://docs.aws.amazon.com/kendra/latest/dg/API_SeedUrlConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_SeedUrlConfiguration.html) 및 [https://docs.aws.amazon.com/kendra/latest/dg/API_SiteMapsConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_SiteMapsConfiguration.html)를 사용하여 크롤링할 웹 사이트의 시드나 시작 지점 URL 또는 웹 사이트의 사이트맵 URL을 지정합니다.
**참고**  
사이트맵을 크롤링하려면 기본 또는 루트 URL이 사이트맵 페이지에 나열된 URL과 동일한지 확인하세요. 예를 들어 사이트맵 URL이 *https://example.com/sitemap-page.html*인 경우 이 사이트맵 페이지에 나열된 URL도 기본 URL “https://example.com/”을 사용해야 합니다.
+ **보안 암호 Amazon 리소스 이름(ARN)** - 웹사이트에서 기본 인증을 요구하는 경우 호스트 이름, 포트 번호, 사용자 이름 및 암호의 기본 보안 인증 정보를 저장하는 보안 암호를 제공합니다. [https://docs.aws.amazon.com/kendra/latest/dg/API_AuthenticationConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_AuthenticationConfiguration.html) API를 사용하여 보안 암호 ARN을 제공합니다. 보안 암호는 다음 키가 있는 JSON 구조로 저장됩니다.

  ```
  {
      "username": "user name",
      "password": "password"
  }
  ```

   AWS Secrets Manager 보안 암호를 사용하여 웹 프록시 보안 인증 정보를 제공할 수도 있습니다. [https://docs.aws.amazon.com/kendra/latest/dg/API_ProxyConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_ProxyConfiguration.html) API를 사용하여 웹 사이트 호스트 이름과 포트 번호를 제공하고, 선택적으로 웹 프록시 보안 인증 정보를 저장하는 보안 암호를 제공합니다.
+ **IAM 역할** - Secrets Manager 보안 암호`CreateDataSource`에 액세스하고 웹 크롤러 커넥터 및에 필요한 퍼블릭 APIs를 호출할 수 있는 권한을 IAM 역할에 제공하기 위해를 호출할 `RoleArn` 때를 지정합니다 Amazon Kendra. 자세한 내용은 [웹 크롤러 데이터 소스에 대한IAM 역할](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)을 참조하세요.

다음 선택적 기능도 추가할 수 있습니다.
+ **크롤링 모드** - 웹 사이트 호스트 이름만 크롤링할지, 하위 도메인이 포함된 호스트 이름을 크롤링할지, 아니면 웹 페이지가 연결된 다른 도메인도 크롤링할지 선택합니다.
+ 시드 수준에서부터 크롤링할 '깊이' 또는 수준 수. 예를 들어 시드 URL 페이지는 깊이 1이고 이 페이지에서 크롤링되는 모든 하이퍼링크는 깊이 2입니다.
+ 크롤링할 단일 웹 페이지의 최대 URL 수입니다.
+ 크롤링할 웹 페이지의 최대 크기(MB 단위)입니다.
+ 1분간 웹 사이트 호스트당 크롤링되는 최대 URL 수입니다.
+ 내부 웹 사이트에 연결하고 크롤링하기 위한 웹 프록시 호스트 및 포트 번호입니다. 예를 들어, *https://a.example.com/page1.html*의 호스트 이름은 “a.example.com”이고 포트 번호는 HTTPS의 표준 포트인 443입니다. 웹 사이트 호스트에 연결하는 데 웹 프록시 보안 인증이 필요한 경우, 보안 인증을 저장하는 AWS Secrets Manager 보안 암호를 만들 수 있습니다.
+ 사용자 인증이 필요한 웹 사이트에 액세스하고 크롤링하기 위한 인증 정보입니다.
+ *사용자 지정 문서 보강* 도구를 사용하여 HTML 메타 태그를 필드로 추출할 수 있습니다. 자세한 내용을 알아보려면 [수집 프로세스 중 문서 메타데이터 사용자 지정](https://docs.aws.amazon.com/kendra/latest/dg/custom-document-enrichment.html)을 참조하세요. HTML 메타태그 추출의 예는 [CDE 예제](https://github.com/aws-samples/amazon-kendra-cde-examples)를 참조하세요.
+  **포함 및 제외 필터** - 특정 URL을 포함할지 또는 제외할지 여부를 지정합니다.
**참고**  
대부분의 데이터 소스는 필터라고 하는 포함 또는 제외 패턴인 정규 표현식 패턴을 사용합니다. 포함 필터를 지정하는 경우 포함 필터와 일치하는 콘텐츠만 인덱싱됩니다. 포함 필터와 일치하지 않는 문서는 인덱싱되지 않습니다. 포함 및 제외 필터를 지정하는 경우 제외 필터와 일치하는 문서는 포함 필터와 일치하더라도 인덱싱되지 않습니다.

------

## 자세히 알아보기
<a name="web-crawler-learn-more"></a>

web crawler 데이터 소스 Amazon Kendra 와의 통합에 대한 자세한 내용은 다음을 참조하세요.
+ [Amazon Kendra의 웹 크롤러를 사용하여 지식 검색 재구상](https://aws.amazon.com/blogs/machine-learning/reimagine-knowledge-discovery-using-amazon-kendras-web-crawler/)