Conformidad con Robots.txt Limitación de la velocidad de rastreo Transparencia entre los agentes de usuario Rastreo eficiente Enfoque adaptativo Gestión de errores Arrastrándose en lotes Seguridad Otras consideraciones

Mejores prácticas para rastreadores web éticos

En esta sección, se analizan las mejores prácticas y las consideraciones éticas clave para crear una aplicación de rastreo web que recopile datos ambientales, sociales y de gobierno (ESG). Si sigue estas mejores prácticas, puede proteger su proyecto y su organización y contribuir a un ecosistema web más responsable y sostenible. Este enfoque le ayuda a acceder a datos valiosos y a utilizarlos para la investigación, los negocios y la innovación de una manera que respeta a todas las partes interesadas.

Conformidad con Robots.txt

El archivo robots.txt se utiliza en los sitios web para comunicarse con los rastreadores web y los bots sobre qué partes del sitio web deben o no deben accederse o rastrearse. Cuando un rastreador web encuentra un archivo robots.txt en un sitio web, analiza las instrucciones y ajusta su comportamiento de rastreo en consecuencia. Esto evita que el rastreador infrinja las instrucciones del propietario del sitio web y mantiene una relación de cooperación entre el sitio web y el rastreador. Por lo tanto, el archivo robots.txt ayuda al control de acceso, a la protección del contenido confidencial, a la gestión de la carga y al cumplimiento de la legislación.

Recomendamos que siga las siguientes prácticas recomendadas:

Compruebe y respete siempre las reglas del archivo robots.txt.
Antes de rastrear cualquier URL, compruebe las reglas de los agentes de usuario de escritorio y móviles.
Si el sitio web solo permite los agentes de usuario móviles, utilice un encabezado de agente diferente, como un encabezado de agente móvil, para su solicitud.

La ausencia de un archivo robots.txt no significa necesariamente que no puedas o no debas rastrear un sitio web. El rastreo siempre debe realizarse de manera responsable, respetando los recursos del sitio web y los derechos implícitos del propietario. Las siguientes son las prácticas recomendadas cuando el archivo robots.txt no está presente:

Suponga que está permitido rastrear, pero proceda con precaución.
Implemente prácticas de rastreo educadas.
Considera la posibilidad de pedir permiso al propietario del sitio web si tienes pensado realizar un rastreo exhaustivo.

Limitación de la velocidad de rastreo

Utilice una velocidad de rastreo razonable para evitar sobrecargar el servidor. Implemente los retrasos entre las solicitudes, ya sea según lo especificado en el archivo robots.txt o mediante un retraso aleatorio. En el caso de sitios web pequeños o medianos, podría ser adecuado realizar una solicitud cada 10 o 15 segundos. En el caso de sitios web más grandes o con permisos de rastreo explícitos, podría ser adecuado realizar entre 1 y 2 solicitudes por segundo.

Transparencia entre los agentes de usuario

Identifique su rastreador en el encabezado del agente de usuario. La información del encabezado HTTP está destinada a identificar el dispositivo que solicita el contenido. Por lo general, la palabra bot se incluye en el nombre del agente. Los rastreadores y otros bots a veces utilizan un campo importante en el encabezado para incluir la información de contacto.

Rastreo eficiente

Utiliza el mapa del sitio, desarrollado por el propietario del sitio web, para centrarte en las páginas importantes.

Enfoque adaptativo

Programe el rastreador para que cambie a un agente de usuario móvil si la versión de escritorio no funciona correctamente. Esto puede proporcionar acceso al rastreador y reducir la carga sobre el servidor del sitio web.

Gestión de errores

Asegúrese de que el rastreador gestione varios códigos de estado HTTP de forma adecuada. Por ejemplo, el rastreador debería hacer una pausa si encuentra un código de estado 429 («Demasiadas solicitudes»). Si el rastreador recibe 403 códigos de estado de forma continua («Prohibido»), considere la posibilidad de dejar de rastrear.

Arrastrándose en lotes

Le recomendamos que realice las siguientes acciones:

En lugar de arrastrarlas todas URLs a la vez, divida la tarea en lotes más pequeños. Esto puede ayudar a distribuir la carga y reducir el riesgo de que surjan problemas, como tiempos de espera o limitaciones de recursos.
Si se espera que la tarea de rastreo en general dure mucho tiempo, considere la posibilidad de dividirla en varias tareas más pequeñas y fáciles de gestionar. Esto puede hacer que el proceso sea más escalable y resiliente.
Si el número de objetos URLs por rastrear es relativamente pequeño, considere la posibilidad de utilizar una solución sin servidor, como. AWS Lambda Las funciones Lambda pueden ser una buena opción para tareas de corta duración impulsadas por eventos, ya que escalan y gestionan automáticamente la administración de recursos.

Seguridad

Para las tareas informáticas de rastreo web, le recomendamos que configure el entorno para que solo permita el tráfico saliente. Esto ayuda a mejorar la seguridad al minimizar la superficie de ataque y reducir el riesgo de acceso entrante no autorizado. Al permitir únicamente las conexiones salientes, el proceso de rastreo permite comunicarse con los sitios web de destino y recuperar los datos necesarios, además de restringir cualquier tráfico entrante que pueda comprometer el sistema.

Otras consideraciones

Revise las siguientes consideraciones y prácticas recomendadas adicionales:

Consulta las pautas de rastreo en las condiciones de servicio o la política de privacidad del sitio web.
Busca meta etiquetas en el HTML que puedan proporcionar directivas de rastreo.
Tenga en cuenta las restricciones legales de su jurisdicción en relación con la recopilación y el uso de datos.
Prepárate para dejar de rastrear si así lo solicita el propietario del sitio web.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Construir la infraestructura AWS

Preguntas frecuentes