¿Qué sucede si el archivo robots.txt no está disponible?¿Qué sucede si el archivo sitemaps.xml no está disponible?¿Puedo usar una solución sin servidor en lugar de Amazon EC2 o Amazon ECS?¿Por qué el rastreador recibe un código de estado 403?

Preguntas frecuentes

¿Qué sucede si el archivo robots.txt no está disponible?

La ausencia de un archivo robots.txt no significa necesariamente que no puedas o no debas rastrear un sitio web. El rastreo siempre debe realizarse de manera responsable, respetando los recursos del sitio web y los derechos implícitos del propietario del sitio web.

¿Qué sucede si el archivo sitemaps.xml no está disponible?

Según el requisito, puede realizar una de las siguientes acciones:

Busque mapas de sitio HTML: busque una página de mapa de sitio HTML que enumere las páginas importantes del sitio web. Suelen estar enlazados en el pie de página.
Rastrea desde la página de inicio: comienza a rastrear desde la página de inicio y sigue los enlaces internos para descubrir otras páginas.
Analice los patrones de URL: analice la estructura de URL del sitio web para identificar patrones y generar potencial mediante programación. URLs
Revisa el archivo robots.txt: comprueba si hay páginas o directorios no permitidos en el archivo robots.txt. Estos pueden proporcionar pistas sobre la estructura del sitio.
Revisa los puntos finales de la API: algunos sitios web ofrecen puntos finales de la API que se pueden usar para recuperar información de contenido y estructura.
Comprueba los resultados de los motores de búsqueda: utiliza los motores de búsqueda para encontrar páginas indexadas del sitio web utilizando el sitio: un operador de búsqueda, por ejemplo. site:example.com
Analice los backlinks: analice los backlinks al sitio web para descubrir páginas importantes a las que otros sitios enlazan.
Revisa los archivos web: consulta los archivos de Internet, como el Wayback Machine, para ver si hay versiones anteriores del sitio que podrían haber tenido mapas de sitio o estructuras diferentes.
Busca los patrones del sistema de administración de contenido (CMS): si puedes identificar el CMS, usa los patrones de URL comunes asociados a ese sistema.
Confirma la JavaScript representación: si el sitio depende en gran medida de JavaScript él, asegúrate de que tu rastreador pueda renderizar JavaScript para detectar el contenido cargado dinámicamente. En algunos sitios web, el archivo sitemap.xml se carga después de activar la JavaScript renderización.

¿Puedo usar una solución sin servidor en lugar de Amazon EC2 o Amazon ECS?

Sí. AWS Lambdalas funciones de rastreo web pueden ser una opción viable, especialmente para tareas de rastreo más modulares o de menor escala. Sin embargo, para operaciones de rastreo a gran escala y de larga duración, podría ser más adecuado un enfoque más tradicional que utilice instancias de Amazon Elastic Compute Cloud (Amazon EC2) o Amazon Elastic Container Service (Amazon ECS). Es importante evaluar detenidamente los requisitos específicos y las ventajas y desventajas a la hora de elegir el servicio de cómputo adecuado para sus necesidades de rastreo web.

¿Por qué el rastreador recibe un código de estado 403?

El HTTP 403 es un código de estado HTTP que significa que está prohibido el acceso al recurso solicitado. Si la solicitud era correcta, el servidor entendió la solicitud y no la atenderá. Para evitar un código de estado 403, puede hacer lo siguiente:

Limita tu velocidad de rastreo.
Comprueba si el mapa del sitio o el archivo robots.txt permiten al rastreador acceder a la URL.
Prueba con un agente de usuario móvil en lugar de un agente de usuario de escritorio.

Si nada de lo anterior funciona, debes respetar la decisión de los propietarios del sitio web y no rastrear la página.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Prácticas recomendadas

Próximos pasos y recursos