Que faire si le fichier robots.txt n'est pas disponible ?Que faire si le fichier sitemaps.xml n'est pas disponible ?Puis-je utiliser une solution sans serveur au lieu d'Amazon EC2 ou Amazon ECS ?Pourquoi le crawler reçoit-il un code d'état 403 ?

FAQ

Que faire si le fichier robots.txt n'est pas disponible ?

L'absence d'un fichier robots.txt ne signifie pas nécessairement que vous ne pouvez pas ou ne devez pas explorer un site Web. L'exploration doit toujours être effectuée de manière responsable, en respectant les ressources du site Web et les droits implicites du propriétaire du site Web.

Que faire si le fichier sitemaps.xml n'est pas disponible ?

Selon les besoins, vous pouvez effectuer l'une des opérations suivantes :

Rechercher des plans de site HTML : recherchez une page de plan de site HTML répertoriant les pages importantes du site Web. Ils sont souvent liés dans le pied de page.
Explorez depuis la page d'accueil — Commencez à explorer depuis la page d'accueil et suivez les liens internes pour découvrir d'autres pages.
Analyser les modèles d'URL : analysez la structure des URL du site Web pour identifier les modèles et générer du potentiel par programmation. URLs
Vérifiez le fichier robots.txt : vérifiez que le fichier robots.txt ne contient pas de pages ou de répertoires interdits. Ils peuvent fournir des indications sur la structure du site.
Examiner les points de terminaison d'API — Certains sites Web proposent des points de terminaison d'API qui peuvent être utilisés pour récupérer des informations de contenu et de structure.
Vérifiez les résultats des moteurs de recherche — Utilisez les moteurs de recherche pour trouver les pages indexées du site Web en utilisant l'opérateur de recherche site : tel quesite:example.com.
Analyser les backlinks — Analysez les backlinks vers le site Web pour découvrir les pages importantes vers lesquelles d'autres sites renvoient.
Consultez les archives Web — Consultez les archives Internet, telles que Wayback Machine, pour vérifier si d'anciennes versions du site pouvaient comporter des plans du site ou des structures différentes.
Recherchez des modèles de système de gestion de contenu (CMS) — Si vous pouvez identifier le CMS, utilisez des modèles d'URL courants associés à ce système.
Confirmer le JavaScript rendu : si le site s'appuie fortement sur ce JavaScript dernier, assurez-vous que votre robot d'exploration peut effectuer le rendu JavaScript pour découvrir le contenu chargé dynamiquement. Pour certains sites Web, le fichier sitemap.xml se charge une fois JavaScript le rendu activé.

Puis-je utiliser une solution sans serveur au lieu d'Amazon EC2 ou Amazon ECS ?

Oui AWS Lambdales fonctions d'exploration Web peuvent être une option viable, en particulier pour les tâches d'exploration à petite échelle ou plus modulaires. Toutefois, pour les opérations d'exploration à grande échelle et de longue durée, une approche plus traditionnelle utilisant des instances Amazon Elastic Compute Cloud (Amazon EC2) ou Amazon Elastic Container Service (Amazon ECS) peut être plus adaptée. Il est important d'évaluer soigneusement vos exigences spécifiques et vos compromis lorsque vous choisissez le service informatique adapté à vos besoins en matière d'exploration Web.

Pourquoi le crawler reçoit-il un code d'état 403 ?

Le HTTP 403 est un code d'état HTTP qui signifie que l'accès à la ressource demandée est interdit. Si la demande était correcte, le serveur l'a comprise et ne la répondra pas. Pour empêcher l'émission d'un code d'état 403, vous pouvez effectuer les opérations suivantes :

Limitez votre taux de crawl.
Vérifiez si le plan du site ou le fichier robots.txt autorise le robot d'exploration à accéder à l'URL.
Essayez d'utiliser un agent utilisateur mobile plutôt qu'un agent utilisateur de bureau.

Si aucune des solutions ci-dessus ne fonctionne, vous devez respecter la décision des propriétaires du site Web et ne pas explorer la page.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Bonnes pratiques

Prochaines étapes et ressources