Conformité à Robots.txt Limitation du taux de crawl Transparence entre les agents utilisateurs Ramper efficacement Approche adaptative Gestion des erreurs Ramper par lots Sécurité Autres considérations

Bonnes pratiques pour les robots d'exploration éthiques

Cette section décrit les meilleures pratiques et les principales considérations éthiques liées à la création d'une application d'exploration Web qui collecte des données environnementales, sociales et de gouvernance (ESG). En adhérant à ces meilleures pratiques, vous pouvez protéger votre projet et votre organisation et contribuer à un écosystème Web plus responsable et durable. Cette approche vous permet d'accéder à des données précieuses et de les utiliser pour la recherche, les affaires et l'innovation dans le respect de toutes les parties prenantes.

Conformité à Robots.txt

Le fichier robots.txt est utilisé sur les sites Web pour communiquer avec les robots d'exploration et les robots pour savoir quelles parties du site Web doivent ou ne doivent pas être consultées ou explorées. Lorsqu'un robot d'exploration rencontre un fichier robots.txt sur un site Web, il analyse les instructions et ajuste son comportement d'exploration en conséquence. Cela empêche le robot de violer les instructions du propriétaire du site Web et maintient une relation de coopération entre le site Web et le robot d'exploration. Par conséquent, le fichier robots.txt contribue au contrôle d'accès, à la protection du contenu sensible, à la gestion de la charge et à la conformité légale.

Nous vous recommandons de respecter les bonnes pratiques ci-dessous :

Vérifiez et respectez toujours les règles du fichier robots.txt.
Avant d'explorer une URL, vérifiez les règles applicables aux agents utilisateurs de bureau et mobiles.
Si le site Web n'autorise que les agents utilisateurs mobiles, utilisez un en-tête d'agent différent, tel qu'un en-tête d'agent mobile, pour votre demande.

L'absence d'un fichier robots.txt ne signifie pas nécessairement que vous ne pouvez pas ou ne devez pas explorer un site Web. L'exploration doit toujours être effectuée de manière responsable, en respectant les ressources du site Web et les droits implicites du propriétaire. Les meilleures pratiques recommandées en l'absence d'un fichier robots.txt sont les suivantes :

Supposons que l'exploration soit autorisée, mais soyez prudent.
Mettez en œuvre des pratiques d'exploration polies.
Envisagez de demander l'autorisation du propriétaire du site Web si vous prévoyez d'effectuer une exploration approfondie.

Limitation du taux de crawl

Utilisez un taux d'exploration raisonnable pour éviter de surcharger le serveur. Implémentez les délais entre les demandes, soit comme indiqué dans le fichier robots.txt, soit en utilisant un délai aléatoire. Pour les sites Web de petite ou moyenne taille, une demande toutes les 10 à 15 secondes peut être appropriée. Pour les sites Web plus volumineux ou ceux dotés d'autorisations d'exploration explicites, 1 à 2 requêtes par seconde peuvent être appropriées.

Transparence entre les agents utilisateurs

Identifiez votre robot dans l'en-tête de l'agent utilisateur. Ces informations d'en-tête HTTP sont destinées à identifier l'appareil qui demande le contenu. Généralement, le mot bot est inclus dans le nom de l'agent. Les robots d'exploration et autres robots utilisent parfois un champ important dans l'en-tête pour inclure des informations de contact.

Ramper efficacement

Utilisez le plan du site, développé par le propriétaire du site Web, afin de vous concentrer sur les pages importantes.

Approche adaptative

Programmez le crawler pour qu'il passe à un agent utilisateur mobile en cas d'échec de la version de bureau. Cela peut fournir un accès au robot d'exploration et réduire la pression sur le serveur du site Web.

Gestion des erreurs

Assurez-vous que le robot gère correctement les différents codes d'état HTTP. Par exemple, le robot d'exploration doit faire une pause s'il rencontre un code d'état 429 (« Trop de demandes »). Si le robot reçoit en permanence 403 codes d'état (« Interdit »), envisagez d'arrêter l'exploration.

Ramper par lots

Nous vous recommandons d'effectuer les opérations suivantes :

Au lieu de tout parcourir en une seule URLs fois, divisez la tâche en lots plus petits. Cela peut aider à répartir la charge et à réduire le risque de rencontrer des problèmes, tels que des délais d'attente ou des contraintes de ressources.
Si l'on s'attend à ce que la tâche d'exploration globale soit longue, envisagez de la diviser en plusieurs tâches plus petites et plus faciles à gérer. Cela peut rendre le processus plus évolutif et plus résilient.
Si le nombre de objets URLs à explorer est relativement faible, envisagez d'utiliser une solution sans serveur, telle que. AWS Lambda Les fonctions Lambda peuvent être parfaitement adaptées aux tâches de courte durée axées sur les événements, car elles dimensionnent et gèrent automatiquement la gestion des ressources.

Sécurité

Pour les tâches de calcul liées à l'exploration du Web, nous vous recommandons de configurer l'environnement de manière à autoriser uniquement le trafic sortant. Cela permet de renforcer la sécurité en minimisant la surface d'attaque et en réduisant le risque d'accès entrant non autorisé. Le fait d'autoriser uniquement les connexions sortantes permet au processus d'exploration de communiquer avec les sites Web cibles et de récupérer les données nécessaires, tout en limitant le trafic entrant susceptible de compromettre le système.

Autres considérations

Passez en revue les considérations supplémentaires et les meilleures pratiques suivantes :

Consultez les directives relatives à l'exploration dans les conditions d'utilisation ou la politique de confidentialité du site Web.
Recherchez dans le code HTML les meta balises susceptibles de fournir des directives d'exploration.
Soyez conscient des restrictions légales en vigueur dans votre juridiction concernant la collecte et l'utilisation des données.
Soyez prêt à arrêter l'exploration si le propriétaire du site Web le demande.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Construire l' AWS infrastructure

FAQ