E se um arquivo robots.txt não estiver disponível?E se um arquivo sitemaps.xml não estiver disponível?Posso usar uma solução sem servidor em vez do Amazon EC2 ou do Amazon ECS?Por que o rastreador está recebendo um código de status 403?

Perguntas frequentes

E se um arquivo robots.txt não estiver disponível?

A ausência de um arquivo robots.txt não significa necessariamente que você não pode ou não deve rastrear um site. O rastreamento deve sempre ser feito com responsabilidade, respeitando os recursos do site e os direitos implícitos do proprietário do site.

E se um arquivo sitemaps.xml não estiver disponível?

Dependendo do requisito, você pode fazer o seguinte:

Pesquisar sitemaps em HTML — Procure uma página de sitemap em HTML que liste as páginas importantes do site. Eles geralmente estão vinculados no rodapé.
Rastreamento a partir da página inicial — Comece a rastrear a partir da página inicial e siga os links internos para descobrir outras páginas.
Analise padrões de URL — Analise a estrutura de URL do site para identificar padrões e gerar potencial de forma programática. URLs
Examine o arquivo robots.txt — Verifique se há páginas ou diretórios não permitidos no arquivo robots.txt. Eles podem fornecer pistas sobre a estrutura do site.
Analise os endpoints da API — Alguns sites oferecem endpoints de API que podem ser usados para recuperar conteúdo e estruturar informações.
Verifique os resultados do mecanismo de pesquisa — Use os mecanismos de pesquisa para encontrar páginas indexadas do site usando o site: operador de pesquisa, comosite:example.com.
Analise backlinks — Analise os backlinks para o site para descobrir páginas importantes às quais outros sites estão vinculados.
Analise os arquivos da web — Verifique os arquivos da Internet, como o Wayback Machine, para ver as versões mais antigas do site que poderiam ter mapas do site ou estruturas diferentes.
Procure padrões do sistema de gerenciamento de conteúdo (CMS) — Se você puder identificar o CMS, use padrões de URL comuns associados a esse sistema.
Confirme a JavaScript renderização — Se o site depender muito JavaScript, certifique-se de que seu rastreador possa renderizar JavaScript para descobrir conteúdo carregado dinamicamente. Para alguns sites, o arquivo sitemap.xml é carregado depois que a JavaScript renderização é ativada.

Posso usar uma solução sem servidor em vez do Amazon EC2 ou do Amazon ECS?

Sim. AWS Lambdafunções de rastreamento na web podem ser uma opção viável, especialmente para tarefas de rastreamento em menor escala ou mais modulares. No entanto, para operações de rastreamento em grande escala e de longa duração, uma abordagem mais tradicional que usa instâncias do Amazon Elastic Compute Cloud (Amazon EC2) ou o Amazon Elastic Container Service (Amazon ECS) pode ser mais adequada. É importante avaliar cuidadosamente seus requisitos e desvantagens específicos ao escolher o serviço de computação certo para suas necessidades de rastreamento na web.

Por que o rastreador está recebendo um código de status 403?

HTTP 403 é um código de status HTTP que significa que o acesso ao recurso solicitado é proibido. Se a solicitação estiver correta, o servidor entendeu a solicitação e não a atenderá. Para evitar um código de status 403, você pode fazer o seguinte:

Limite sua taxa de rastreamento.
Verifique se o mapa do site ou o arquivo robots.txt permitem que o rastreador acesse o URL.
Experimente com um agente de usuário móvel em vez de um agente de usuário para desktop.

Se nenhuma das opções acima funcionar, você deve respeitar a decisão dos proprietários do site e não rastrear a página.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Práticas recomendadas

Próximas etapas e recursos