Kemampuan Web Crawler Prasyarat Siapkan akses dan otentikasi situs web Mengatur integrasi Web Crawler Konfigurasikan perayapan Kelola basis pengetahuan Pemecahan masalah

Integrasi Web Crawler

Dengan integrasi Web Crawler di Amazon Quick, Anda dapat membuat basis pengetahuan dari konten situs web dengan merayapi dan mengindeks halaman web. Integrasi ini mendukung kemampuan konsumsi data dengan opsi otentikasi yang berbeda.

Kemampuan Web Crawler

Pengguna Web Crawler dapat mengajukan pertanyaan tentang konten yang disimpan di situs web dan halaman web. Misalnya, pengguna dapat mencari situs dokumentasi, basis pengetahuan, atau informasi spesifik di beberapa halaman web.

Integrasi ini membantu pengguna mengakses dan memahami konten web terlepas dari lokasi atau jenisnya. Ini memberikan rincian kontekstual seperti tanggal publikasi, riwayat modifikasi, dan kepemilikan halaman untuk penemuan informasi yang lebih efisien.

catatan

Integrasi Web Crawler hanya mendukung konsumsi data. Itu tidak menyediakan kemampuan tindakan untuk mengelola situs web atau layanan web.

Prasyarat

Sebelum Anda mengatur integrasi Web Crawler, pastikan Anda memiliki yang berikut:

Situs web URLs untuk dirayapi dan diindeks.
Langganan Amazon Quick Enterprise.
Situs web yang tidak berada di belakang firewall dan tidak memerlukan plugin browser khusus untuk terhubung.

Siapkan akses dan otentikasi situs web

Sebelum menyiapkan integrasi di Amazon Quick, siapkan kredensyal akses situs web Anda. Integrasi Web Crawler mendukung metode otentikasi yang berbeda:

Tidak ada otentikasi

Gunakan untuk merayapi situs web yang tidak memerlukan otentikasi.

Otentikasi dasar

Otentikasi Dasar HTTP Standar untuk situs web yang aman. Ketika Anda mengunjungi situs yang dilindungi, browser Anda menampilkan kotak dialog yang meminta kredensyal Anda.

Kredensi yang diperlukan:

URL halaman login - URL halaman login
Nama Pengguna - Nama pengguna autentikasi dasar
Kata sandi - Kata sandi autentikasi dasar

Otentikasi formulir

Untuk situs web yang menggunakan halaman login berbasis formulir HTML. Anda menentukan XPath ekspresi untuk mengidentifikasi bidang formulir pada halaman login.

XPath (XMLPath Language) adalah bahasa query untuk menavigasi elemen dalam dokumen HTML atau XHTML. Untuk menemukan elemen XPath untuk halaman web, klik kanan elemen di browser Anda dan pilih Inspect. Di alat pengembang, klik kanan kode HTML yang disorot, pilih Salin, lalu pilih Salin XPath.

Informasi yang dibutuhkan:

URL halaman login - URL formulir login (misalnya,https://example.com/login)
Nama Pengguna - Nama pengguna Login
Kata Sandi - Kata sandi Login
Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (misalnya,//input[@id='username'])
Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (misalnya,//input[@id='username_button'])
Bidang kata sandi XPath - XPath ke bidang input kata sandi (misalnya,//input[@id='password'])
Tombol kata sandi XPath - XPath ke tombol kata sandi (misalnya,//button[@type='password'])

Otentikasi SALL

Untuk situs web yang menggunakan autentikasi single sign-on (SSO) berbasis SAMP.

Otentikasi SAM (Security Assertion Markup Language) adalah standar identitas federasi yang memungkinkan SSO. Pengguna mengautentikasi melalui penyedia identitas terpusat (seperti Microsoft Azure AD atau Okta) alih-alih memasukkan kredensyal langsung ke setiap aplikasi. Penyedia identitas meneruskan token aman kembali ke aplikasi untuk memberikan akses.

Informasi yang dibutuhkan:

URL halaman login - URL halaman login SAFL
Nama Pengguna - Nama pengguna SALL
Kata sandi - kata sandi SAFL
Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (misalnya,//input[@id='username'])
Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (misalnya,//input[@id='username_button'])
Bidang kata sandi XPath - XPath ke bidang input kata sandi (misalnya,//input[@id='password'])
Tombol kata sandi XPath - XPath ke tombol kata sandi (misalnya,//button[@type='password'])

XPath contoh konfigurasi

Gunakan XPath contoh ini untuk mengonfigurasi formulir dan otentikasi SAMP:



Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]

Mengatur integrasi Web Crawler

Setelah menyiapkan persyaratan akses situs web Anda, buat integrasi Web Crawler di Amazon Quick.

Di konsol Amazon Quick, pilih Integrasi.
Pilih Web Crawler dari opsi integrasi, dan klik tombol Tambah (ditambah tombol “+”).
Pilih Akses data dari Web Crawler. Integrasi Web Crawler hanya mendukung akses data - eksekusi tindakan tidak tersedia untuk perayapan web.
Konfigurasikan detail integrasi dan metode otentikasi, lalu buat basis pengetahuan sesuai kebutuhan.
1. Pilih jenis otentikasi untuk integrasi perayap web Anda.
2. Masukkan detail yang diperlukan berdasarkan metode otentikasi yang Anda pilih.
3. (Opsional) Pilih koneksi VPC untuk merayapi situs yang dihosting di jaringan pribadi Anda. Koneksi VPC harus dikonfigurasi dalam pengaturan admin sebelum Anda dapat memilihnya di sini. Untuk informasi selengkapnya, lihat Menyiapkan VPC untuk digunakan dengan Amazon Quick.
  
  catatan
  Anda tidak dapat mengubah koneksi VPC setelah integrasi dibuat. Untuk menggunakan koneksi VPC yang berbeda, buat integrasi baru.
4. Pilih Buat dan lanjutkan.
5. Masukkan nama dan deskripsi untuk basis pengetahuan Anda.
6. Tambahkan konten URLs yang ingin dirayapi.
7. Pilih Buat.

Setelah Anda memilih Buat, sinkronisasi data dimulai secara otomatis.

Konfigurasikan perayapan

Anda dapat mengonfigurasi situs web dan halaman mana yang akan dirayapi dan cara memfilter konten.

Konfigurasi URLs dan sumber konten

Konfigurasikan situs web dan halaman mana yang akan dirayapi:

Langsung URLs

Tentukan individu URLs untuk dirayapi:



https://example.com/docs
https://example.com/blog
https://example.com/support

Batas: Maksimum 10 URLs per kumpulan data

Filter konten dan pengaturan perayapan

Pengaturan cakupan perayapan

Untuk melihat pengaturan ini, Anda harus terlebih dahulu mengatur basis pengetahuan dan kemudian memeriksa opsi pengaturan lanjutan.

Kedalaman merangkak

Rentang: 0-10 (default: 1)
0 = crawl hanya ditentukan URLs
1 = sertakan halaman tertaut satu tingkat dalam
Nilai yang lebih tinggi mengikuti tautan lebih dalam ke situs

Tautan maksimum per halaman

Default: 1000
Maksimal: 1.000
Mengontrol berapa banyak tautan yang harus diikuti dari setiap halaman

Tunggu waktu

Default: 1
Waktu (dalam hitungan detik) perayap web menunggu setiap halaman setelah halaman mencapai status siap. Tingkatkan nilai ini untuk halaman dengan JavaScript konten dinamis yang dimuat setelah template utama.

Kelola basis pengetahuan

Setelah menyiapkan integrasi Web Crawler, Anda dapat membuat dan mengelola basis pengetahuan dari konten situs web yang dirayapi.

Edit basis pengetahuan yang ada

Anda dapat memodifikasi basis pengetahuan Web Crawler yang ada:

Di konsol Amazon Quick, pilih Basis pengetahuan.
Pilih basis pengetahuan Web Crawler Anda dari daftar.
Pilih ikon tiga titik di bawah Tindakan, lalu pilih Edit basis pengetahuan.
Perbarui pengaturan konfigurasi sesuai kebutuhan dan pilih Simpan.

Lampiran dan perayapan file

Kontrol apakah sistem memproses file dan lampiran yang ditautkan dari halaman web:

Aktifkan perayapan lampiran file — Pilih opsi ini untuk merayapi dan mengindeks file dan lampiran yang ditemukan di halaman web, seperti, dokumen PDFs, dan file media.

Perilaku perayapan dan konfigurasi sinkronisasi

Integrasi Web Crawler Anda mengikuti praktik perayapan ini:

Model sinkronisasi inkremental: Sinkronisasi pertama melakukan perayapan penuh. Sinkronisasi berikutnya hanya menangkap perubahan.
Coba lagi otomatis: Logika coba ulang bawaan untuk permintaan yang gagal.
Penanganan duplikat: Deteksi otomatis dan deduplikasi. URLs
Identifikasi crawler: <UUID>Mengidentifikasi dirinya dengan string user-agent "aws-quick-on-behalf-of-" di header permintaan.

Penemuan peta situs

Web Crawler secara otomatis memeriksa peta situs dengan menambahkan jalur peta situs umum ke seed Anda. URLs Anda tidak perlu menyediakan peta situs URLs secara terpisah. Jalur berikut diperiksa:



sitemap.xml
sitemap_index.xml
sitemap/sitemap.xml
sitemap/sitemap_index.xml
sitemaps/sitemap.xml
sitemap/index.xml

Misalnya, jika URL seed Andahttps://example.com/docs, crawler akan memeriksa https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, dan seterusnya.

catatan

Web Crawler tidak mengikuti referensi indeks peta situs rekursif. Hanya yang URLs terdaftar langsung di peta situs yang ditemukan yang digunakan. Arahan peta situs di robots.txt tidak digunakan untuk penemuan peta situs.

Kepatuhan Robots.txt

Web Crawler menghormati protokol robots.txt dan menghormati agen pengguna dan arahan. allow/disallow Ini memungkinkan Anda untuk mengontrol bagaimana crawler mengakses situs Anda.

Cara kerja pemeriksaan robots.txt

Pemeriksaan tingkat host: Web Crawler membaca file robots.txt di tingkat host (misalnya, example.com/robots.txt)
Dukungan beberapa host: Untuk domain dengan beberapa host, Web Crawler menghormati aturan robot untuk setiap host secara terpisah
Perilaku mundur: Jika Web Crawler tidak dapat mengambil robots.txt karena pemblokiran, kesalahan penguraian, atau batas waktu, itu berperilaku seolah-olah robots.txt tidak ada. Dalam hal ini, crawler melanjutkan untuk merayapi situs.

Bidang robots.txt yang didukung

Web Crawler mengenali bidang robots.txt ini (nama bidang tidak peka huruf besar/kecil, nilainya peka huruf besar/kecil):

user-agent: Mengidentifikasi crawler mana aturan berlaku.
allow: Jalur URL yang mungkin dirayapi.
disallow: Jalur URL yang mungkin tidak dirayapi.
crawl-delay: Waktu (dalam hitungan detik) untuk menunggu di antara permintaan ke situs web Anda.

Dukungan tag meta

Web Crawler mendukung tag meta robot tingkat halaman yang dapat Anda gunakan untuk mengontrol bagaimana data Anda digunakan. Anda dapat menentukan pengaturan tingkat halaman dengan menyertakan tag meta pada halaman HTML atau di header HTTP.

Tag meta yang didukung

noindex: Jangan mengindeks halaman. Jika Anda tidak menentukan aturan ini, halaman mungkin diindeks dan memenuhi syarat untuk ditampilkan dalam pengalaman.
nofollow: Jangan ikuti tautan di halaman ini. Jika Anda tidak menentukan aturan ini, Web Crawler dapat menggunakan tautan di halaman untuk menemukan halaman yang ditautkan tersebut.

Anda dapat menggabungkan beberapa nilai menggunakan koma (misalnya, “noindex, nofollow”).

catatan

Untuk mendeteksi meta tag, Web Crawler harus mengakses halaman Anda. Jangan blokir halaman Anda dengan robots.txt, karena hal ini mencegah halaman tersebut dirangkai kembali.

Pemecahan masalah

Gunakan bagian ini untuk menyelesaikan masalah umum dengan integrasi Web Crawler.

Kegagalan otentikasi

Gejala:

Pesan galat “Tidak dapat mengautentikasi”
401/403 Tanggapan HTTP
Loop pengalihan halaman login
Kesalahan batas waktu sesi

Langkah-langkah resolusi:

Pastikan situs dapat dijangkau dari AWS Wilayah tempat instans Amazon Quick disiapkan.
Verifikasi bahwa kredensyal Anda benar dan belum kedaluwarsa.
Periksa ketersediaan dan aksesibilitas titik akhir otentikasi.
Validasi XPath konfigurasi dengan mengujinya di alat pengembang browser.
Tinjau log jaringan browser untuk memahami alur otentikasi.
Pastikan URL halaman login benar dan dapat diakses.
Uji otentikasi secara manual menggunakan kredensyal yang sama.

Masalah akses dan konektivitas

Gejala:

Batas waktu koneksi dan kesalahan jaringan
Kesalahan jaringan yang tidak dapat dijangkau
Kegagalan resolusi DNS

Langkah-langkah resolusi:

Verifikasi konektivitas jaringan ke situs web target.
Validasi aksesibilitas situs:
- Periksa resolusi DNS untuk domain target.
- Verifikasi SSL/TLS konfigurasi dan sertifikat.
- Uji akses dari jaringan yang berbeda jika memungkinkan.

Resolusi DNS

Web Crawler menggunakan DNS untuk menyelesaikan nama host situs web (misalnya,www.example.com) ke alamat IP. Secara default, ia menggunakan resolusi DNS publik.

Saat merayapi situs di dalam VPC, Anda mungkin perlu mengonfigurasi server DNS pribadi sehingga crawler dapat menyelesaikan nama host untuk situs internal. Pilih salah satu opsi berikut berdasarkan konfigurasi VPC Anda:

Gunakan server DNS yang disediakan VPC - Jika VPC Anda mengaktifkan nama host DNS dan resolusi DNS, Anda dapat menggunakan resolver DNS VPC default (biasanya 10.0.0.2, atau lebih umum basis VPC CIDR +2). Untuk informasi selengkapnya, lihat VPC.
Gunakan server DNS kustom — Jika VPC Anda menggunakan resolver DNS kustom, berikan alamat IP server DNS internal organisasi Anda. Bekerja dengan administrator jaringan Anda untuk mendapatkan alamat ini.

Jika Anda tidak mengonfigurasi server DNS, crawler hanya menyelesaikan nama host yang terdaftar secara publik.

Gejala:

Hanya URL benih yang diindeks, tidak ada halaman tambahan yang ditemukan
Crawl berhasil diselesaikan tetapi hanya mengembalikan satu dokumen

Langkah-langkah resolusi:

Web Crawler mengeksekusi JavaScript dan merender konten halaman, tetapi tidak mensimulasikan interaksi pengguna seperti klik, gulir, atau tindakan hover. Jika situs Anda memuat tautan navigasi melalui interaksi pengguna (misalnya, penangan klik, gulir tak terbatas, atau menu dinamis), crawler tidak dapat menemukan tautan tersebut.
Periksa halaman Anda di alat pengembang browser untuk memeriksa apakah tautan navigasi menggunakan <a href="..."> elemen standar. Jika tautan dihubungkan melalui JavaScript event handler, crawler tidak akan mengikutinya.
Jika situs Anda menyediakan peta situs, Web Crawler secara otomatis memeriksa jalur peta situs umum pada benih Anda. URLs Pastikan peta situs Anda tersedia di lokasi standar (misalnya,/sitemap.xml) sehingga crawler dapat menemukan tambahan URLs tanpa bergantung pada ekstraksi tautan dalam halaman.
Atau, berikan semua halaman target URLs secara langsung sebagai benih URLs.
Jika konten dapat diekspor sebagai file HTML, PDF, atau teks, pertimbangkan untuk menggunakan konektor Amazon S3 sebagai sumber data Anda.

Masalah perayapan dan konten

Gejala:

Konten yang hilang atau tidak lengkap
Perayapan tidak lengkap atau penghentian dini
Kesalahan pembatas tingkat (429 tanggapan)
Konten tidak diindeks dengan benar

Langkah-langkah resolusi:

Tinjau pembatasan robots.txt:
- Periksa file robots.txt untuk pembatasan crawl.
- Verifikasi bahwa crawler diizinkan untuk mengakses jalur target.
- Pastikan kepatuhan robots.txt tidak memblokir konten.
Periksa pembatasan dan pelambatan laju:
- Pantau header respons untuk informasi batas tarif.
- Menerapkan penundaan crawl yang sesuai.
Verifikasi pola dan filter URL:
- Uji pola regex untuk akurasi.
- Periksa pemformatan dan struktur URL.
- Validasi logika include/exclude pola.
Tinjau batasan konten:
- Periksa tag meta noindex pada halaman.
- Verifikasi dukungan jenis konten.
- Pastikan ukuran konten berada dalam batas.
Perbarui waktu tunggu sehingga konten dimuat di halaman sebelum crawler mulai dirayapi.

Keterbatasan yang Sudah Diketahui

Integrasi Web Crawler memiliki batasan sebagai berikut:

Batas URL: Maksimum 10 seed URLs per dataset. Anda tidak dapat memberikan peta situs URLs di bidang URL benih.
Kedalaman merangkak: Kedalaman crawl maksimum 10 level
Persyaratan keamanan: HTTPS diperlukan untuk konfigurasi proxy web

Batasan berikut berlaku saat menggunakan Web Crawler dengan koneksi VPC:

Tidak ada dukungan HTTP/3 (QUIC): HTTP/3 tidak didukung. Sebagian besar situs akan kembali ke HTTP/2 secara otomatis, tetapi situs yang dikonfigurasi untuk HTTP/3 saja tidak akan dapat diakses.
DNS over TCP diperlukan: Resolusi DNS harus menggunakan TCP. Verifikasi bahwa server DNS Anda mendukung DNS melalui TCP sebelum mengonfigurasi crawling VPC.
Diperlukan sertifikat SSL yang dipercaya secara publik: Situs internal harus menggunakan sertifikat dari otoritas sertifikat terkenal (misalnya, Let's Encrypt atau). DigiCert Situs yang menggunakan sertifikat CA yang ditandatangani sendiri atau pribadi akan gagal terhubung.
IPv4 hanya: Hanya IPv4 alamat yang didukung. Situs yang dapat diakses secara eksklusif di atas IPv6 tidak dapat dirayapi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Integrasi Smartsheet

Integrasi Zendesk

Integrasi Web Crawler

Kemampuan Web Crawler

catatan

Prasyarat

Siapkan akses dan otentikasi situs web

XPath contoh konfigurasi

Mengatur integrasi Web Crawler

catatan

Konfigurasikan perayapan

Konfigurasi URLs dan sumber konten

Langsung URLs

Filter konten dan pengaturan perayapan

Pengaturan cakupan perayapan

Kelola basis pengetahuan

Edit basis pengetahuan yang ada

Lampiran dan perayapan file

Perilaku perayapan dan konfigurasi sinkronisasi

Penemuan peta situs

catatan

Kepatuhan Robots.txt

Cara kerja pemeriksaan robots.txt

Bidang robots.txt yang didukung

Dukungan tag meta

Tag meta yang didukung

catatan

Pemecahan masalah

Kegagalan otentikasi

Masalah akses dan konektivitas

Resolusi DNS

JavaScript-tergantung navigasi

Masalah perayapan dan konten

Keterbatasan yang Sudah Diketahui