Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra

Amazon Kendraé um serviço de pesquisa inteligente que AWS os clientes usam para indexar e pesquisar documentos de sua escolha. Para indexar documentos na web, os clientes podem usar o Amazon Kendra Web Crawler, indicando quais URLs devem ser indexados e outros parâmetros operacionais. Amazon Kendraos clientes precisam obter autorização antes de indexar qualquer site específico.

Amazon KendraO Web Crawler respeita as diretivas padrão do robots.txt, como e. Allow Disallow Você pode modificar o robots.txt arquivo do seu site para controlar como o Amazon Kendra Web Crawler rastreia seu site.

Configurando como o Amazon Kendra Web Crawler acessa seu site

Você pode controlar como o Amazon Kendra Web Crawler indexa o uso Allow e as diretrizes do seu site. Disallow Você também pode controlar quais páginas da Web são indexadas e quais páginas da Web não são rastreadas.

Para permitir que o Amazon Kendra Web Crawler rastreie todas as páginas da Web, exceto páginas da Web não permitidas, use a seguinte diretiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Para permitir que o Amazon Kendra Web Crawler rastreie somente páginas da Web específicas, use a seguinte diretiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Para permitir que o Amazon Kendra Web Crawler rastreie todo o conteúdo do site e proibir o rastreamento de outros robôs, use a seguinte diretiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Impedindo que o Amazon Kendra Web Crawler rastreie seu site

Você pode impedir que o Amazon Kendra Web Crawler indexe seu site usando a diretiva. Disallow Você também pode controlar quais páginas da Web são rastreadas ou não.

Para impedir que o Amazon Kendra Web Crawler rastreie o site, use a seguinte diretiva:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Se você tiver alguma dúvida ou preocupação em relação ao Amazon Kendra Web Crawler, entre em contato com a equipe de AWSsuporte.