Bagaimana jika file robots.txt tidak tersedia?Bagaimana jika file sitemaps.xml tidak tersedia?Dapatkah saya menggunakan solusi tanpa server alih-alih Amazon EC2 atau Amazon ECS?Mengapa crawler mendapatkan kode status 403?

Pertanyaan yang Sering Diajukan

Bagaimana jika file robots.txt tidak tersedia?

Tidak adanya file robots.txt tidak selalu berarti Anda tidak dapat atau tidak boleh merayapi situs web. Crawling harus selalu dilakukan secara bertanggung jawab, menghormati sumber daya situs web dan hak implisit pemilik situs web.

Bagaimana jika file sitemaps.xml tidak tersedia?

Tergantung pada kebutuhan, Anda dapat melakukan salah satu dari yang berikut:

Cari peta situs HTML — Cari halaman peta situs HTML yang mencantumkan halaman penting di situs web. Ini sering ditautkan di footer.
Merayapi dari beranda - Mulai merangkak dari beranda dan ikuti tautan internal untuk menemukan halaman lain.
Analisis pola URL — Analisis struktur URL situs web untuk mengidentifikasi pola dan menghasilkan potensi secara terprogram. URLs
Tinjau file robots.txt - Periksa file robots.txt untuk halaman atau direktori yang tidak diizinkan. Ini dapat memberikan petunjuk tentang struktur situs.
Tinjau titik akhir API — Beberapa situs web menawarkan titik akhir API yang dapat digunakan untuk mengambil konten dan informasi struktur.
Periksa hasil mesin pencari — Gunakan mesin pencari untuk menemukan halaman situs web yang diindeks dengan menggunakan situs: operator pencarian, seperti. site:example.com
Analisis backlink — Analisis backlink ke situs web untuk menemukan halaman penting yang ditautkan oleh situs lain.
Tinjau arsip web — Periksa arsip internet, seperti Mesin Wayback, untuk versi situs yang lebih lama yang mungkin memiliki peta situs atau struktur yang berbeda.
Cari pola sistem manajemen konten (CMS) — Jika Anda dapat mengidentifikasi CMS, gunakan pola URL umum yang terkait dengan sistem itu.
Konfirmasi JavaScript rendering — Jika situs sangat bergantung JavaScript, pastikan crawler Anda dapat merender JavaScript untuk menemukan konten yang dimuat secara dinamis. Untuk beberapa situs web, file sitemap.xml dimuat setelah JavaScript rendering diaktifkan.

Dapatkah saya menggunakan solusi tanpa server alih-alih Amazon EC2 atau Amazon ECS?

Ya. AWS Lambdafungsi untuk perayapan web dapat menjadi opsi yang layak, terutama untuk tugas perayapan skala kecil atau lebih modular. Namun, untuk operasi crawling skala besar yang berjalan lama, pendekatan yang lebih tradisional yang menggunakan instans Amazon Elastic Compute Cloud (Amazon EC2) atau Amazon Elastic Container Service (Amazon ECS) mungkin lebih cocok. Penting untuk mengevaluasi dengan cermat persyaratan dan trade-off spesifik Anda saat memilih layanan komputasi yang tepat untuk kebutuhan crawling web Anda.

Mengapa crawler mendapatkan kode status 403?

HTTP 403 adalah kode status HTTP yang berarti akses ke sumber daya yang diminta dilarang. Jika permintaan itu benar, maka server memahami permintaan dan tidak akan memenuhinya. Untuk mencegah kode status 403, Anda dapat melakukan hal berikut:

Batasi kecepatan crawl Anda.
Periksa apakah peta situs atau file robots.txt memungkinkan crawler mengakses URL.
Coba dengan agen pengguna seluler alih-alih agen pengguna desktop.

Jika tidak ada yang berhasil di atas, Anda harus menghormati keputusan pemilik situs web dan tidak merayapi halaman.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Praktik terbaik

Langkah dan sumber daya selanjutnya