

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Perguntas frequentes
<a name="faq"></a>

## E se um arquivo robots.txt não estiver disponível?
<a name="faq1"></a>

A ausência de um arquivo robots.txt não significa necessariamente que você não pode ou não deve rastrear um site. O rastreamento deve sempre ser feito com responsabilidade, respeitando os recursos do site e os direitos implícitos do proprietário do site.

## E se um arquivo sitemaps.xml não estiver disponível?
<a name="faq2"></a>

Dependendo do requisito, você pode fazer o seguinte:
+ **Pesquisar sitemaps em HTML** — Procure uma página de sitemap em HTML que liste as páginas importantes do site. Eles geralmente estão vinculados no rodapé.
+ **Rastreamento a partir da página inicial** — Comece a rastrear a partir da página inicial e siga os links internos para descobrir outras páginas.
+ **Analise padrões de URL** — Analise a estrutura de URL do site para identificar padrões e gerar potencial de forma programática. URLs
+ **Examine o arquivo robots.txt** — Verifique se há páginas ou diretórios não permitidos no arquivo robots.txt. Eles podem fornecer pistas sobre a estrutura do site.
+ **Analise os endpoints da API** — Alguns sites oferecem endpoints de API que podem ser usados para recuperar conteúdo e estruturar informações.
+ **Verifique os resultados do mecanismo** de pesquisa — Use os mecanismos de pesquisa para encontrar páginas indexadas do site usando o [site: operador de pesquisa](https://developers.google.com/search/docs/monitor-debug/search-operators/all-search-site), como`site:example.com`.
+ **Analise backlinks** — Analise os backlinks para o site para descobrir páginas importantes às quais outros sites estão vinculados.
+ **Analise os arquivos da web** — Verifique os arquivos da Internet, como o [Wayback Machine](http://web.archive.org/), para ver as versões mais antigas do site que poderiam ter mapas do site ou estruturas diferentes.
+ **Procure padrões do sistema de gerenciamento de conteúdo (CMS)** — Se você puder identificar o CMS, use padrões de URL comuns associados a esse sistema.
+ **Confirme a JavaScript renderização** — Se o site depender muito JavaScript, certifique-se de que seu rastreador possa renderizar JavaScript para descobrir conteúdo carregado dinamicamente. Para alguns sites, o arquivo sitemap.xml é carregado depois que a JavaScript renderização é ativada.

## Posso usar uma solução sem servidor em vez do Amazon EC2 ou do Amazon ECS?
<a name="faq3"></a>

Sim. [AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html)funções de rastreamento na web podem ser uma opção viável, especialmente para tarefas de rastreamento em menor escala ou mais modulares. No entanto, para operações de rastreamento em grande escala e de longa duração, uma abordagem mais tradicional que usa instâncias do Amazon Elastic Compute Cloud (Amazon EC2) ou o Amazon Elastic Container Service (Amazon ECS) pode ser mais adequada. É importante avaliar cuidadosamente seus requisitos e desvantagens específicos ao escolher o serviço de computação certo para suas necessidades de rastreamento na web.

## Por que o rastreador está recebendo um código de status 403?
<a name="faq4"></a>

HTTP 403 é um código de status HTTP que significa que o acesso ao recurso solicitado é proibido. Se a solicitação estiver correta, o servidor entendeu a solicitação e não a atenderá. Para evitar um código de status 403, você pode fazer o seguinte:
+ Limite sua taxa de rastreamento.
+ Verifique se o mapa do site ou o arquivo robots.txt permitem que o rastreador acesse o URL.
+ Experimente com um agente de usuário móvel em vez de um agente de usuário para desktop.

Se nenhuma das opções acima funcionar, você deve respeitar a decisão dos proprietários do site e não rastrear a página.