Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Integrasi Web Crawler
Dengan integrasi Web Crawler di Amazon Quick, Anda dapat membuat basis pengetahuan dari konten situs web dengan merayapi dan mengindeks halaman web. Integrasi ini mendukung kemampuan konsumsi data dengan opsi otentikasi berbeda berdasarkan tingkat pengguna Anda.
Apa yang dapat Anda lakukan
Pengguna Web Crawler dapat mengajukan pertanyaan tentang konten yang disimpan di situs web dan halaman web. Misalnya, pengguna dapat menanyakan tentang situs dokumentasi, basis pengetahuan, atau mencari informasi spesifik di beberapa halaman web. Integrasi ini memungkinkan pengguna untuk dengan cepat mengakses dan memahami informasi dari konten web, terlepas dari lokasi atau jenisnya, sambil memberikan rincian kontekstual seperti tanggal publikasi, riwayat modifikasi, dan kepemilikan halaman — semuanya berkontribusi pada penemuan informasi yang lebih efisien dan pengambilan keputusan yang lebih baik.
catatan
Integrasi Web Crawler hanya mendukung konsumsi data. Itu tidak menyediakan kemampuan tindakan untuk mengelola situs web atau layanan web.
Sebelum Anda mulai
Sebelum Anda mengatur integrasi Web Crawler, pastikan Anda memiliki yang berikut:
-
Situs web URLs untuk dirayapi dan diindeks.
-
Langganan Amazon Quick Enterprise
-
Situs web yang ingin Anda jelajahi harus bersifat publik dan tidak dapat berada di belakang firewall atau memerlukan plugin browser khusus untuk terhubung.
Siapkan akses dan otentikasi situs web
Sebelum menyiapkan integrasi di Amazon Quick, siapkan kredensyal akses situs web Anda. Integrasi Web Crawler mendukung metode otentikasi yang berbeda berdasarkan peran pengguna Anda:
- Tidak ada otentikasi
-
Tersedia untuk semua pengguna. Gunakan untuk merayapi situs web publik yang tidak memerlukan otentikasi.
- Otentikasi dasar
-
Otentikasi Dasar HTTP Standar untuk situs web yang aman. HTTP Basic Authentication adalah cara sederhana untuk melindungi sumber daya web dengan memerlukan nama pengguna dan kata sandi. Saat Anda mengunjungi situs yang dilindungi menggunakan Basic Authentication, browser Anda akan menampilkan kotak dialog pop-up yang meminta kredensyal Anda.
Kredensi yang diperlukan:
-
URL halaman login - URL halaman login
Nama Pengguna - Nama pengguna autentikasi dasar
Kata sandi - Kata sandi autentikasi dasar
-
- Otentikasi formulir
-
Untuk situs web yang menggunakan halaman login berbasis formulir HTML.
Formisnya diatur agar Anda dapat memutuskan. XPath XPath (XMLPath Language) adalah bahasa query yang digunakan untuk menavigasi melalui elemen dan atribut dalam dokumen HTML atau XHTML. Untuk mengidentifikasi elemen XPath untuk halaman web, pengguna dapat menggunakan alat pengembang browser mereka, biasanya diakses dengan mengklik kanan pada elemen yang diinginkan dan memilih “Periksa” atau menekan F12. Setelah elemen disorot dalam alat pengembang, pengguna dapat mengklik kanan pada kode HTML yang sesuai, pilih “Salin,” dan kemudian pilih “Salin XPath" dari submenu. Ini menghasilkan jalur unik yang mengidentifikasi lokasi tepat elemen dalam struktur dokumen. Hasilnya XPath mungkin terlihat seperti //input [@id ='username'] atau //button [@type ='submit'], di mana garis miring maju ganda (//) menunjukkan jalur dapat dimulai di mana saja dalam dokumen, dan tanda kurung siku berisi atribut yang membantu mengidentifikasi elemen tertentu.
Informasi yang dibutuhkan:
URL halaman login - URL formulir login (mis.,
https://example.com/login)Nama Pengguna - Nama pengguna Login
Kata Sandi - Kata sandi masuk
Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (mis.,
//input[@id='username'])-
Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (mis.,
//input[@id='username_button']) Bidang kata sandi XPath - XPath ke bidang input kata sandi (mis.,
//input[@id='password'])Tombol kata sandi XPath - XPath ke tombol kata sandi (mis.,
//button[@type='password'])
- Otentikasi SALL
-
Untuk situs web yang menggunakan autentikasi masuk tunggal berbasis SALL.
Otentikasi SAM (Security Assertion Markup Language) adalah standar identitas federasi yang memungkinkan single sign-on (SSO) dengan memungkinkan pengguna untuk mengautentikasi melalui penyedia identitas terpusat daripada memasukkan kredensil langsung ke setiap aplikasi. Tidak seperti otentikasi formulir tradisional di mana pengguna mengetik nama pengguna dan kata sandi mereka ke dalam bidang pada halaman login aplikasi, SALL mengarahkan pengguna ke penyedia identitas organisasi mereka (seperti Microsoft Azure AD atau Okta) untuk mengautentikasi, lalu meneruskan token aman kembali ke aplikasi untuk memberikan akses. Pendekatan ini memberikan pengalaman pengguna yang mulus di beberapa aplikasi, manajemen pengguna terpusat untuk administrator TI, dan keamanan yang ditingkatkan melalui fitur-fitur seperti otentikasi multi-faktor, sementara otentikasi formulir memerlukan manajemen kredensi terpisah untuk setiap aplikasi individu
Informasi yang dibutuhkan:
URL halaman login - URL halaman login SAFL
Nama Pengguna - Nama pengguna SALL
Kata sandi - kata sandi SAFL
-
Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (mis.,
//input[@id='username']) -
Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (mis.,
//input[@id='username_button']) -
Bidang kata sandi XPath - XPath ke bidang input kata sandi (mis.,
//input[@id='password']) -
Tombol kata sandi XPath - XPath ke tombol kata sandi (mis.,
//button[@type='password'])
XPath contoh konfigurasi
Gunakan XPath contoh ini untuk mengonfigurasi formulir dan otentikasi SAMP:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Mengatur integrasi Web Crawler
Setelah menyiapkan persyaratan akses situs web Anda, buat integrasi Web Crawler di Amazon Quick.
-
Di konsol Amazon Quick, pilih Integrasi.
-
Pilih Web Crawler dari opsi integrasi, dan klik tombol Tambah (ditambah tombol “+”).
-
Pilih Akses data dari Web Crawler. Integrasi Web Crawler hanya mendukung akses data - eksekusi tindakan tidak tersedia untuk perayapan web.
-
Konfigurasikan detail integrasi dan metode otentikasi, lalu buat basis pengetahuan sesuai kebutuhan.
-
Pilih jenis otentikasi untuk integrasi perayap web Anda.
-
Isi detail yang diperlukan berdasarkan metode otentikasi yang Anda pilih.
-
Pilih Buat dan lanjutkan.
-
Isi Nama dan deskripsi untuk basis pengetahuan Anda.
-
Tambahkan konten yang URLs ingin dirayapi.
-
Pilih Buat.
-
Setelah mengklik buat, sinkronisasi data dimulai secara otomatis.
Konfigurasikan perayapan
Anda dapat mengonfigurasi situs web dan halaman mana yang akan dirayapi dan cara memfilter konten.
Konfigurasi URLs dan sumber konten
Konfigurasikan situs web dan halaman mana yang akan dirayapi:
Langsung URLs
Tentukan individu URLs untuk dirayapi:
https://example.com/docs https://example.com/blog https://example.com/support
Batas: Maksimum 10 URLs per kumpulan data
Filter konten dan pengaturan crawl
Pengaturan cakupan perayapan
Untuk melihat pengaturan ini, Anda harus terlebih dahulu mengatur basis pengetahuan dan kemudian memeriksa opsi pengaturan lanjutan.
- Kedalaman merangkak
-
Rentang: 0-10 (default: 1)
0 = crawl hanya ditentukan URLs
1 = sertakan halaman tertaut satu tingkat dalam
Nilai yang lebih tinggi mengikuti tautan lebih dalam ke situs
- Tautan maksimum per halaman
-
Default: 1000
Maksimal: 1.000
Mengontrol berapa banyak tautan yang harus diikuti dari setiap halaman
- Tunggu waktu
-
Default: 1
-
Jumlah waktu perayap web akan menunggu setiap halaman setelah halaman mencapai status “siap halaman”. Ini berguna untuk halaman yang memiliki karakteristik pemuatan javascript dinamis di mana halaman memiliki blok konten yang dimuat setelah template utama dimuat.Tingkatkan waktu tunggu jika Anda memiliki konten yang kaya secara visual atau mengantisipasi waktu muat yang tinggi.
Kelola basis pengetahuan
Setelah menyiapkan integrasi Web Crawler, Anda dapat membuat dan mengelola basis pengetahuan dari konten situs web yang dirayapi.
Edit basis pengetahuan yang ada
Anda dapat memodifikasi basis pengetahuan Web Crawler yang ada:
-
Di konsol Amazon Quick, pilih Basis pengetahuan.
-
Pilih basis pengetahuan Web Crawler Anda dari daftar.
-
Pilih ikon tiga titik di bawah Tindakan, lalu pilih Edit basis pengetahuan.
-
Perbarui pengaturan konfigurasi sesuai kebutuhan dan pilih Simpan.
Buat basis pengetahuan tambahan
Anda dapat membuat beberapa basis pengetahuan dari integrasi Web Crawler yang sama:
-
Di konsol Amazon Quick, pilih Integrasi, lalu pilih tab Data.
-
Pilih integrasi Web Crawler yang ada dari daftar.
-
Pilih ikon tiga titik di bawah Tindakan, lalu pilih Buat basis pengetahuan.
-
Konfigurasikan pengaturan basis pengetahuan Anda dan pilih Buat.
Untuk informasi rinci tentang opsi konfigurasi basis pengetahuan, lihatPengaturan konfigurasi umum.
Lampiran dan perayapan file
Kontrol apakah sistem memproses file dan lampiran yang ditautkan dari halaman web:
-
Aktifkan perayapan lampiran file - Pilih opsi ini untuk merayapi dan mengindeks file dan lampiran yang ditemukan di halaman web, seperti, dokumen PDFs, dan file media.
Perilaku perayapan dan konfigurasi sinkronisasi
Integrasi Web Crawler Anda mengikuti praktik perayapan ini:
Model sinkronisasi inkremental: Sinkronisasi pertama melakukan perayapan penuh, sinkronisasi berikutnya hanya menangkap perubahan
Coba lagi otomatis: Logika coba lagi bawaan untuk permintaan yang gagal
Penanganan duplikat: Deteksi dan penanganan otomatis URLs
Identifikasi perayap: <UUID>Mengidentifikasi dirinya dengan string agen pengguna "aws-quick-on-behalf-of-" di header permintaan
Kepatuhan Robots.txt
Web Crawler menghormati protokol robots.txt dan menghormati agen pengguna dan arahan. allow/disallow Ini memungkinkan Anda untuk mengontrol bagaimana crawler mengakses situs Anda.
Cara kerja pemeriksaan robots.txt
Pemeriksaan tingkat host: Web Crawler membaca file robots.txt di tingkat host (misalnya, example.com/robots.txt)
Dukungan beberapa host: Untuk domain dengan beberapa host, Web Crawler menghormati aturan robot untuk setiap host secara terpisah
Perilaku mundur: Jika Web Crawler tidak dapat mengambil robots.txt karena pemblokiran, kesalahan penguraian, atau batas waktu, itu akan berperilaku seolah-olah robots.txt tidak ada dan akan merayapi situs
Bidang robots.txt yang didukung
Web Crawler mengenali bidang robots.txt ini (nama bidang tidak peka huruf besar/kecil, nilainya peka huruf besar/kecil):
user-agentMengidentifikasi crawler mana yang berlaku aturan
allowJalur URL yang mungkin dirayapi
disallowJalur URL yang mungkin tidak dirayapi
sitemapURL lengkap dari sitemap
crawl-delayJumlah waktu tertentu (dalam detik) untuk menunggu di antara permintaan ke situs web Anda
Dukungan tag meta
Web Crawler mendukung tag meta robot tingkat halaman yang dapat Anda gunakan untuk mengontrol bagaimana data Anda digunakan. Anda dapat menentukan pengaturan tingkat halaman dengan menyertakan tag meta pada halaman HTML atau di header HTTP.
Tag meta yang didukung
noindexJangan mengindeks halaman. Jika Anda tidak menentukan aturan ini, halaman mungkin diindeks dan memenuhi syarat untuk ditampilkan dalam pengalaman
nofollowJangan ikuti tautan di halaman ini. Jika Anda tidak menentukan aturan ini, Web Crawler dapat menggunakan tautan di halaman untuk menemukan halaman yang ditautkan tersebut
Anda dapat menggabungkan beberapa nilai menggunakan koma (misalnya, “noindex, nofollow”).
catatan
Untuk mendeteksi meta tag, Web Crawler perlu mengakses halaman Anda, jadi jangan memblokir halaman Anda dengan robots.txt yang akan mencegahnya dirangkai kembali.
Pemecahan masalah
Gunakan bagian ini untuk menyelesaikan masalah umum dengan integrasi Web Crawler.
Kegagalan otentikasi
Gejala:
Pesan galat “Tidak dapat mengautentikasi”
401/403 Tanggapan HTTP
Loop pengalihan halaman login
Kesalahan batas waktu sesi
Langkah resolusi:
Verifikasi situs dapat dijangkau dari AWS wilayah yang disetel oleh instans Amazon Quick
Verifikasi akurasi kredensialnya dan pastikan belum kedaluwarsa
Periksa ketersediaan dan aksesibilitas titik akhir otentikasi
Validasi XPath konfigurasi dengan mengujinya di alat pengembang browser
Tinjau log jaringan browser untuk memahami alur otentikasi
Pastikan URL halaman login benar dan dapat diakses
Uji otentikasi secara manual menggunakan kredensyal yang sama
Masalah akses dan konektivitas
Gejala:
Batas waktu koneksi dan kesalahan jaringan
Kesalahan jaringan yang tidak dapat dijangkau
Kegagalan resolusi DNS
Langkah resolusi:
-
Verifikasi konektivitas jaringan ke situs web target
-
Validasi aksesibilitas situs:
Periksa resolusi DNS untuk domain target
Verifikasi SSL/TLS konfigurasi dan sertifikat
Uji akses dari jaringan yang berbeda jika memungkinkan
Masalah perayapan dan konten
Gejala:
Konten yang hilang atau tidak lengkap
Perayapan tidak lengkap atau penghentian dini
Kesalahan pembatas tingkat (429 tanggapan)
Konten tidak diindeks dengan benar
Langkah resolusi:
-
Tinjau pembatasan robots.txt:
Periksa file robots.txt untuk pembatasan perayapan
Verifikasi crawler diizinkan untuk mengakses jalur target
Pastikan kepatuhan robots.txt tidak memblokir konten
-
Periksa pembatasan dan pelambatan laju:
Pantau header respons untuk informasi batas tarif
Menerapkan penundaan crawl yang sesuai
-
Verifikasi pola dan filter URL:
Uji pola regex untuk akurasi
Periksa pemformatan dan struktur URL
Validasi include/exclude logika pola
-
Tinjau batasan konten:
Periksa tag meta noindex pada halaman
Verifikasi dukungan jenis konten
Pastikan ukuran konten berada dalam batas
-
Perbarui Waktu tunggu ke nilai yang sesuai sehingga konten dimuat di halaman sebelum cralwer mencoba merayapi
Keterbatasan yang Sudah Diketahui
Integrasi Web Crawler memiliki batasan sebagai berikut:
Batas URL: Maksimal 10 URLs, peta situs tidak didukung
Kedalaman merangkak: Kedalaman crawl maksimum 10 level
Persyaratan keamanan: HTTPS diperlukan untuk konfigurasi proxy web