Amazon Kendra Rastreador da Web - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Amazon Kendra Rastreador da Web

Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.

Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.

Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra

nota

Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.

Amazon Kendra tem duas versões do web crawler conector. Os recursos suportados de cada versão incluem:

Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration

  • Proxy da Web

  • Filtros de inclusão/exclusão

Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration

  • Mapeamentos de campos

  • Filtros de inclusão/exclusão

  • Sincronizações de conteúdo completas e incrementais

  • Proxy da Web

  • Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites

  • Nuvem privada virtual (VPC)

Importante

A criação do conector Web Crawler v2.0 não é suportada pelo. CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. CloudFormation

Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados