Integrasi Web Crawler - Amazon Cepat

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Integrasi Web Crawler

Dengan integrasi Web Crawler di Amazon Quick, Anda dapat membuat basis pengetahuan dari konten situs web dengan merayapi dan mengindeks halaman web. Integrasi ini mendukung kemampuan konsumsi data dengan opsi otentikasi berbeda berdasarkan tingkat pengguna Anda.

Apa yang dapat Anda lakukan

Pengguna Web Crawler dapat mengajukan pertanyaan tentang konten yang disimpan di situs web dan halaman web. Misalnya, pengguna dapat menanyakan tentang situs dokumentasi, basis pengetahuan, atau mencari informasi spesifik di beberapa halaman web. Integrasi ini memungkinkan pengguna untuk dengan cepat mengakses dan memahami informasi dari konten web, terlepas dari lokasi atau jenisnya, sambil memberikan rincian kontekstual seperti tanggal publikasi, riwayat modifikasi, dan kepemilikan halaman — semuanya berkontribusi pada penemuan informasi yang lebih efisien dan pengambilan keputusan yang lebih baik.

catatan

Integrasi Web Crawler hanya mendukung konsumsi data. Itu tidak menyediakan kemampuan tindakan untuk mengelola situs web atau layanan web.

Sebelum Anda mulai

Sebelum Anda mengatur integrasi Web Crawler, pastikan Anda memiliki yang berikut:

  • Situs web URLs untuk dirayapi dan diindeks.

  • Langganan Amazon Quick Enterprise

  • Situs web yang ingin Anda jelajahi harus bersifat publik dan tidak dapat berada di belakang firewall atau memerlukan plugin browser khusus untuk terhubung.

Siapkan akses dan otentikasi situs web

Sebelum menyiapkan integrasi di Amazon Quick, siapkan kredensyal akses situs web Anda. Integrasi Web Crawler mendukung metode otentikasi yang berbeda berdasarkan peran pengguna Anda:

Tidak ada otentikasi

Tersedia untuk semua pengguna. Gunakan untuk merayapi situs web publik yang tidak memerlukan otentikasi.

Otentikasi dasar

Otentikasi Dasar HTTP Standar untuk situs web yang aman. HTTP Basic Authentication adalah cara sederhana untuk melindungi sumber daya web dengan memerlukan nama pengguna dan kata sandi. Saat Anda mengunjungi situs yang dilindungi menggunakan Basic Authentication, browser Anda akan menampilkan kotak dialog pop-up yang meminta kredensyal Anda.

Kredensi yang diperlukan:

  • URL halaman login - URL halaman login

  • Nama Pengguna - Nama pengguna autentikasi dasar

  • Kata sandi - Kata sandi autentikasi dasar

Otentikasi formulir

Untuk situs web yang menggunakan halaman login berbasis formulir HTML.

Formisnya diatur agar Anda dapat memutuskan. XPath XPath (XMLPath Language) adalah bahasa query yang digunakan untuk menavigasi melalui elemen dan atribut dalam dokumen HTML atau XHTML. Untuk mengidentifikasi elemen XPath untuk halaman web, pengguna dapat menggunakan alat pengembang browser mereka, biasanya diakses dengan mengklik kanan pada elemen yang diinginkan dan memilih “Periksa” atau menekan F12. Setelah elemen disorot dalam alat pengembang, pengguna dapat mengklik kanan pada kode HTML yang sesuai, pilih “Salin,” dan kemudian pilih “Salin XPath" dari submenu. Ini menghasilkan jalur unik yang mengidentifikasi lokasi tepat elemen dalam struktur dokumen. Hasilnya XPath mungkin terlihat seperti //input [@id ='username'] atau //button [@type ='submit'], di mana garis miring maju ganda (//) menunjukkan jalur dapat dimulai di mana saja dalam dokumen, dan tanda kurung siku berisi atribut yang membantu mengidentifikasi elemen tertentu.

Informasi yang dibutuhkan:

  • URL halaman login - URL formulir login (mis.,https://example.com/login)

  • Nama Pengguna - Nama pengguna Login

  • Kata Sandi - Kata sandi masuk

  • Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (mis.,//input[@id='username'])

  • Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (mis.,//input[@id='username_button'])

  • Bidang kata sandi XPath - XPath ke bidang input kata sandi (mis.,//input[@id='password'])

  • Tombol kata sandi XPath - XPath ke tombol kata sandi (mis.,//button[@type='password'])

Otentikasi SALL

Untuk situs web yang menggunakan autentikasi masuk tunggal berbasis SALL.

Otentikasi SAM (Security Assertion Markup Language) adalah standar identitas federasi yang memungkinkan single sign-on (SSO) dengan memungkinkan pengguna untuk mengautentikasi melalui penyedia identitas terpusat daripada memasukkan kredensil langsung ke setiap aplikasi. Tidak seperti otentikasi formulir tradisional di mana pengguna mengetik nama pengguna dan kata sandi mereka ke dalam bidang pada halaman login aplikasi, SALL mengarahkan pengguna ke penyedia identitas organisasi mereka (seperti Microsoft Azure AD atau Okta) untuk mengautentikasi, lalu meneruskan token aman kembali ke aplikasi untuk memberikan akses. Pendekatan ini memberikan pengalaman pengguna yang mulus di beberapa aplikasi, manajemen pengguna terpusat untuk administrator TI, dan keamanan yang ditingkatkan melalui fitur-fitur seperti otentikasi multi-faktor, sementara otentikasi formulir memerlukan manajemen kredensi terpisah untuk setiap aplikasi individu

Informasi yang dibutuhkan:

  • URL halaman login - URL halaman login SAFL

  • Nama Pengguna - Nama pengguna SALL

  • Kata sandi - kata sandi SAFL

  • Bidang nama pengguna XPath - XPath ke bidang input nama pengguna (mis.,//input[@id='username'])

  • Tombol nama pengguna XPath (Opsional) - XPath ke bidang tombol nama pengguna (mis.,//input[@id='username_button'])

  • Bidang kata sandi XPath - XPath ke bidang input kata sandi (mis.,//input[@id='password'])

  • Tombol kata sandi XPath - XPath ke tombol kata sandi (mis.,//button[@type='password'])

XPath contoh konfigurasi

Gunakan XPath contoh ini untuk mengonfigurasi formulir dan otentikasi SAMP:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Mengatur integrasi Web Crawler

Setelah menyiapkan persyaratan akses situs web Anda, buat integrasi Web Crawler di Amazon Quick.

  1. Di konsol Amazon Quick, pilih Integrasi.

  2. Pilih Web Crawler dari opsi integrasi, dan klik tombol Tambah (ditambah tombol “+”).

  3. Pilih Akses data dari Web Crawler. Integrasi Web Crawler hanya mendukung akses data - eksekusi tindakan tidak tersedia untuk perayapan web.

  4. Konfigurasikan detail integrasi dan metode otentikasi, lalu buat basis pengetahuan sesuai kebutuhan.

    1. Pilih jenis otentikasi untuk integrasi perayap web Anda.

    2. Isi detail yang diperlukan berdasarkan metode otentikasi yang Anda pilih.

    3. Pilih Buat dan lanjutkan.

    4. Isi Nama dan deskripsi untuk basis pengetahuan Anda.

    5. Tambahkan konten yang URLs ingin dirayapi.

    6. Pilih Buat.

Setelah mengklik buat, sinkronisasi data dimulai secara otomatis.

Konfigurasikan perayapan

Anda dapat mengonfigurasi situs web dan halaman mana yang akan dirayapi dan cara memfilter konten.

Konfigurasi URLs dan sumber konten

Konfigurasikan situs web dan halaman mana yang akan dirayapi:

Langsung URLs

Tentukan individu URLs untuk dirayapi:

https://example.com/docs https://example.com/blog https://example.com/support

Batas: Maksimum 10 URLs per kumpulan data

Filter konten dan pengaturan crawl

Pengaturan cakupan perayapan

Untuk melihat pengaturan ini, Anda harus terlebih dahulu mengatur basis pengetahuan dan kemudian memeriksa opsi pengaturan lanjutan.

Kedalaman merangkak
  • Rentang: 0-10 (default: 1)

  • 0 = crawl hanya ditentukan URLs

  • 1 = sertakan halaman tertaut satu tingkat dalam

  • Nilai yang lebih tinggi mengikuti tautan lebih dalam ke situs

Tautan maksimum per halaman
  • Default: 1000

  • Maksimal: 1.000

  • Mengontrol berapa banyak tautan yang harus diikuti dari setiap halaman

Tunggu waktu
  • Default: 1

  • Jumlah waktu perayap web akan menunggu setiap halaman setelah halaman mencapai status “siap halaman”. Ini berguna untuk halaman yang memiliki karakteristik pemuatan javascript dinamis di mana halaman memiliki blok konten yang dimuat setelah template utama dimuat.Tingkatkan waktu tunggu jika Anda memiliki konten yang kaya secara visual atau mengantisipasi waktu muat yang tinggi.

Kelola basis pengetahuan

Setelah menyiapkan integrasi Web Crawler, Anda dapat membuat dan mengelola basis pengetahuan dari konten situs web yang dirayapi.

Edit basis pengetahuan yang ada

Anda dapat memodifikasi basis pengetahuan Web Crawler yang ada:

  1. Di konsol Amazon Quick, pilih Basis pengetahuan.

  2. Pilih basis pengetahuan Web Crawler Anda dari daftar.

  3. Pilih ikon tiga titik di bawah Tindakan, lalu pilih Edit basis pengetahuan.

  4. Perbarui pengaturan konfigurasi sesuai kebutuhan dan pilih Simpan.

Buat basis pengetahuan tambahan

Anda dapat membuat beberapa basis pengetahuan dari integrasi Web Crawler yang sama:

  1. Di konsol Amazon Quick, pilih Integrasi, lalu pilih tab Data.

  2. Pilih integrasi Web Crawler yang ada dari daftar.

  3. Pilih ikon tiga titik di bawah Tindakan, lalu pilih Buat basis pengetahuan.

  4. Konfigurasikan pengaturan basis pengetahuan Anda dan pilih Buat.

Untuk informasi rinci tentang opsi konfigurasi basis pengetahuan, lihatPengaturan konfigurasi umum.

Lampiran dan perayapan file

Kontrol apakah sistem memproses file dan lampiran yang ditautkan dari halaman web:

  • Aktifkan perayapan lampiran file - Pilih opsi ini untuk merayapi dan mengindeks file dan lampiran yang ditemukan di halaman web, seperti, dokumen PDFs, dan file media.

Perilaku perayapan dan konfigurasi sinkronisasi

Integrasi Web Crawler Anda mengikuti praktik perayapan ini:

  • Model sinkronisasi inkremental: Sinkronisasi pertama melakukan perayapan penuh, sinkronisasi berikutnya hanya menangkap perubahan

  • Coba lagi otomatis: Logika coba lagi bawaan untuk permintaan yang gagal

  • Penanganan duplikat: Deteksi dan penanganan otomatis URLs

  • Identifikasi perayap: <UUID>Mengidentifikasi dirinya dengan string agen pengguna "aws-quick-on-behalf-of-" di header permintaan

Kepatuhan Robots.txt

Web Crawler menghormati protokol robots.txt dan menghormati agen pengguna dan arahan. allow/disallow Ini memungkinkan Anda untuk mengontrol bagaimana crawler mengakses situs Anda.

Cara kerja pemeriksaan robots.txt
  • Pemeriksaan tingkat host: Web Crawler membaca file robots.txt di tingkat host (misalnya, example.com/robots.txt)

  • Dukungan beberapa host: Untuk domain dengan beberapa host, Web Crawler menghormati aturan robot untuk setiap host secara terpisah

  • Perilaku mundur: Jika Web Crawler tidak dapat mengambil robots.txt karena pemblokiran, kesalahan penguraian, atau batas waktu, itu akan berperilaku seolah-olah robots.txt tidak ada dan akan merayapi situs

Bidang robots.txt yang didukung

Web Crawler mengenali bidang robots.txt ini (nama bidang tidak peka huruf besar/kecil, nilainya peka huruf besar/kecil):

user-agent

Mengidentifikasi crawler mana yang berlaku aturan

allow

Jalur URL yang mungkin dirayapi

disallow

Jalur URL yang mungkin tidak dirayapi

sitemap

URL lengkap dari sitemap

crawl-delay

Jumlah waktu tertentu (dalam detik) untuk menunggu di antara permintaan ke situs web Anda

Dukungan tag meta

Web Crawler mendukung tag meta robot tingkat halaman yang dapat Anda gunakan untuk mengontrol bagaimana data Anda digunakan. Anda dapat menentukan pengaturan tingkat halaman dengan menyertakan tag meta pada halaman HTML atau di header HTTP.

Tag meta yang didukung
noindex

Jangan mengindeks halaman. Jika Anda tidak menentukan aturan ini, halaman mungkin diindeks dan memenuhi syarat untuk ditampilkan dalam pengalaman

nofollow

Jangan ikuti tautan di halaman ini. Jika Anda tidak menentukan aturan ini, Web Crawler dapat menggunakan tautan di halaman untuk menemukan halaman yang ditautkan tersebut

Anda dapat menggabungkan beberapa nilai menggunakan koma (misalnya, “noindex, nofollow”).

catatan

Untuk mendeteksi meta tag, Web Crawler perlu mengakses halaman Anda, jadi jangan memblokir halaman Anda dengan robots.txt yang akan mencegahnya dirangkai kembali.

Pemecahan masalah

Gunakan bagian ini untuk menyelesaikan masalah umum dengan integrasi Web Crawler.

Kegagalan otentikasi

Gejala:

  • Pesan galat “Tidak dapat mengautentikasi”

  • 401/403 Tanggapan HTTP

  • Loop pengalihan halaman login

  • Kesalahan batas waktu sesi

Langkah resolusi:

  1. Verifikasi situs dapat dijangkau dari AWS wilayah yang disetel oleh instans Amazon Quick

  2. Verifikasi akurasi kredensialnya dan pastikan belum kedaluwarsa

  3. Periksa ketersediaan dan aksesibilitas titik akhir otentikasi

  4. Validasi XPath konfigurasi dengan mengujinya di alat pengembang browser

  5. Tinjau log jaringan browser untuk memahami alur otentikasi

  6. Pastikan URL halaman login benar dan dapat diakses

  7. Uji otentikasi secara manual menggunakan kredensyal yang sama

Masalah akses dan konektivitas

Gejala:

  • Batas waktu koneksi dan kesalahan jaringan

  • Kesalahan jaringan yang tidak dapat dijangkau

  • Kegagalan resolusi DNS

Langkah resolusi:

  1. Verifikasi konektivitas jaringan ke situs web target

  2. Validasi aksesibilitas situs:

    • Periksa resolusi DNS untuk domain target

    • Verifikasi SSL/TLS konfigurasi dan sertifikat

    • Uji akses dari jaringan yang berbeda jika memungkinkan

Masalah perayapan dan konten

Gejala:

  • Konten yang hilang atau tidak lengkap

  • Perayapan tidak lengkap atau penghentian dini

  • Kesalahan pembatas tingkat (429 tanggapan)

  • Konten tidak diindeks dengan benar

Langkah resolusi:

  1. Tinjau pembatasan robots.txt:

    • Periksa file robots.txt untuk pembatasan perayapan

    • Verifikasi crawler diizinkan untuk mengakses jalur target

    • Pastikan kepatuhan robots.txt tidak memblokir konten

  2. Periksa pembatasan dan pelambatan laju:

    • Pantau header respons untuk informasi batas tarif

    • Menerapkan penundaan crawl yang sesuai

  3. Verifikasi pola dan filter URL:

    • Uji pola regex untuk akurasi

    • Periksa pemformatan dan struktur URL

    • Validasi include/exclude logika pola

  4. Tinjau batasan konten:

    • Periksa tag meta noindex pada halaman

    • Verifikasi dukungan jenis konten

    • Pastikan ukuran konten berada dalam batas

  5. Perbarui Waktu tunggu ke nilai yang sesuai sehingga konten dimuat di halaman sebelum cralwer mencoba merayapi

Keterbatasan yang Sudah Diketahui

Integrasi Web Crawler memiliki batasan sebagai berikut:

  • Batas URL: Maksimal 10 URLs, peta situs tidak didukung

  • Kedalaman merangkak: Kedalaman crawl maksimum 10 level

  • Persyaratan keamanan: HTTPS diperlukan untuk konfigurasi proxy web