As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Amazon Kendra Rastreador da Web
Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.
Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.
Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon
nota
Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.
Amazon Kendra tem duas versões do web crawler conector. Os recursos suportados de cada versão incluem:
Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration
-
Proxy da Web
-
Filtros de inclusão/exclusão
Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration
-
Mapeamentos de campos
-
Filtros de inclusão/exclusão
-
Sincronizações de conteúdo completas e incrementais
-
Proxy da Web
-
Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites
-
Nuvem privada virtual (VPC)
Importante
A criação do conector Web Crawler v2.0 não é suportada pelo. CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. CloudFormation
Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados