Integrazione con Web Crawler - Amazon Quick

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione con Web Crawler

Con l'integrazione di Web Crawler in Amazon Quick, puoi creare basi di conoscenza a partire dai contenuti dei siti Web eseguendo la scansione e l'indicizzazione delle pagine Web. Questa integrazione supporta funzionalità di inserimento dei dati con diverse opzioni di autenticazione in base al livello utente.

Cosa puoi fare

Gli utenti di Web Crawler possono porre domande sui contenuti archiviati su siti Web e pagine Web. Ad esempio, gli utenti possono richiedere informazioni sui siti di documentazione, sulle knowledge base o cercare informazioni specifiche su più pagine Web. L'integrazione consente agli utenti di accedere e comprendere rapidamente le informazioni dei contenuti Web, indipendentemente dalla posizione o dal tipo, fornendo al contempo dettagli contestuali come le date di pubblicazione, la cronologia delle modifiche e la proprietà delle pagine, il tutto contribuendo a una più efficiente scoperta delle informazioni e a un processo decisionale più informato.

Nota

L'integrazione con Web Crawler supporta solo l'inserimento di dati. Non fornisce funzionalità di azione per la gestione di siti Web o servizi Web.

Prima di iniziare

Prima di configurare l'integrazione con Web Crawler, assicurati di disporre di quanto segue:

  • Sito Web URLs da scansionare e indicizzare.

  • Abbonamento Amazon Quick Enterprise

  • Il sito Web che desideri sottoporre a scansione deve essere pubblico e non può essere protetto da un firewall o richiedere plug-in speciali del browser per la connessione.

Prepara l'accesso e l'autenticazione al sito web

Prima di configurare l'integrazione in Amazon Quick, prepara le credenziali di accesso al sito Web. L'integrazione con Web Crawler supporta diversi metodi di autenticazione in base al ruolo dell'utente:

Nessuna autenticazione

Disponibile per tutti gli utenti. Utilizzalo per la scansione di siti Web pubblici che non richiedono l'autenticazione.

Autenticazione Base

Autenticazione HTTP di base standard per siti Web protetti. L'autenticazione di base HTTP è un modo semplice per proteggere le risorse Web richiedendo un nome utente e una password. Quando visiti un sito protetto utilizzando l'autenticazione di base, il browser mostrerà una finestra di dialogo pop-up che richiede le tue credenziali.

Credenziali richieste:

  • URL della pagina di accesso: l'URL della pagina di accesso

  • Nome utente: nome utente di autenticazione di base

  • Password: password di autenticazione di base

Autenticazione modulo

Per siti Web che utilizzano pagine di accesso basate su moduli HTML.

Il modulo è configurato per essere specificato dall'utente. XPath XPath (XML Path Language) è un linguaggio di interrogazione utilizzato per navigare tra gli elementi e gli attributi di un documento HTML o XML. XPath Per identificare un elemento di una pagina Web, un utente può utilizzare gli strumenti di sviluppo del browser, a cui in genere si accede facendo clic con il pulsante destro del mouse sull'elemento desiderato e selezionando «Ispeziona» o premendo F12. Una volta evidenziato l'elemento negli strumenti di sviluppo, l'utente può fare clic con il pulsante destro del mouse sul codice HTML corrispondente, selezionare «Copia», quindi scegliere «Copia XPath» dal sottomenu. Questo genera un percorso univoco che identifica la posizione esatta dell'elemento nella struttura del documento. Il risultato XPath potrebbe essere simile a //input [@id ='username'] o //button [@type ='submit'], dove le doppie barre (//) indicano che il percorso può iniziare in qualsiasi punto del documento e le parentesi quadre contengono attributi che aiutano a identificare l'elemento specifico.

Informazioni richieste:

  • URL della pagina di accesso: URL del modulo di accesso (ad es.https://example.com/login)

  • Nome utente: nome utente di accesso

  • Password: password di accesso

  • Campo nome utente XPath: nel campo XPath di immissione del nome utente (ad esempio,//input[@id='username'])

  • Pulsante nome utente XPath (opzionale) - XPath al campo del pulsante nome utente (ad es.//input[@id='username_button'])

  • Campo password XPath: XPath al campo di immissione della password (ad esempio,//input[@id='password'])

  • Pulsante password XPath: XPath al pulsante password (ad esempio,//button[@type='password'])

Autenticazione SAML

Per i siti Web che utilizzano l'autenticazione Single Sign-on basata su SAML.

L'autenticazione SAML (Security Assertion Markup Language) è uno standard di identità federato che abilita il single sign-on (SSO) consentendo agli utenti di autenticarsi tramite un provider di identità centralizzato anziché inserire le credenziali direttamente in ciascuna applicazione. A differenza dell'autenticazione tradizionale tramite modulo, in cui gli utenti digitano nome utente e password nei campi della pagina di accesso dell'applicazione, SAML reindirizza gli utenti al provider di identità dell'organizzazione (come Microsoft Azure AD o Okta) per l'autenticazione, quindi restituisce un token sicuro all'applicazione per concedere l'accesso. Questo approccio offre un'esperienza utente senza interruzioni su più applicazioni, una gestione centralizzata degli utenti per gli amministratori IT e una maggiore sicurezza attraverso funzionalità come l'autenticazione a più fattori, mentre l'autenticazione dei moduli richiede una gestione separata delle credenziali per ogni singola applicazione.

Informazioni richieste:

  • URL della pagina di accesso: URL della pagina di accesso SAML

  • Nome utente: nome utente SAML

  • Password: password SAML

  • Campo nome utente XPath: XPath al campo di immissione del nome utente (ad esempio,//input[@id='username'])

  • Pulsante nome utente XPath (opzionale) - XPath al campo del pulsante nome utente (ad es.//input[@id='username_button'])

  • Campo password XPath: XPath al campo di immissione della password (ad esempio,//input[@id='password'])

  • Pulsante password XPath: XPath al pulsante password (ad esempio,//button[@type='password'])

XPath esempi di configurazione

Usa questi XPath esempi per configurare il modulo e l'autenticazione SAML:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configura l'integrazione con Web Crawler

Dopo aver preparato i requisiti di accesso al sito Web, crea l'integrazione Web Crawler in Amazon Quick.

  1. Nella console Amazon Quick, scegli Integrazioni.

  2. Scegli Web Crawler tra le opzioni di integrazione e fai clic sul pulsante Aggiungi (più il pulsante «+»).

  3. Scegli Accedi ai dati da Web Crawler. L'integrazione con Web Crawler supporta solo l'accesso ai dati: l'esecuzione delle azioni non è disponibile per la scansione sul Web.

  4. Configura i dettagli di integrazione e il metodo di autenticazione, quindi crea le knowledge base secondo necessità.

    1. Seleziona il tipo di autenticazione per l'integrazione con il web crawler.

    2. Inserisci i dettagli richiesti in base al metodo di autenticazione selezionato.

    3. Seleziona Crea e continua.

    4. Inserisci il nome e la descrizione della tua knowledge base.

    5. Aggiungi il contenuto URLs che desideri sottoporre a scansione.

    6. Seleziona Crea.

Dopo aver fatto clic su Crea, la sincronizzazione dei dati viene avviata automaticamente.

Configura la scansione

È possibile configurare i siti Web e le pagine da sottoporre a scansione e come filtrare il contenuto.

Configurazione URLs e fonti di contenuto

Configura i siti Web e le pagine da sottoporre a scansione:

Diretto URLs

Specificare URLs la persona da esplorare:

https://example.com/docs https://example.com/blog https://example.com/support

Limite: massimo 10 URLs per set di dati

Filtri di contenuto e impostazioni di scansione

Impostazioni dell'ambito di scansione

Per visualizzare queste impostazioni, è necessario prima configurare una knowledge base e quindi esaminare l'opzione delle impostazioni avanzate.

Profondità di esplorazione
  • Intervallo: 0-10 (impostazione predefinita: 1)

  • 0 = è specificata solo la scansione URLs

  • 1 = include le pagine collegate a un livello di profondità

  • I valori più alti seguono i link più profondi nel sito

Numero massimo di link per pagina
  • Impostazione predefinita: 1000

  • Massimo: 1.000

  • Controlla quanti link seguire da ogni pagina

Tempo di Wait (Attesa)
  • Impostazione predefinita: 1

  • Il tempo di attesa del crawler web per ogni pagina dopo che la pagina avrà raggiunto lo stato di «pagina pronta». Ciò è utile per le pagine con caratteristiche di caricamento dinamico di javascript in cui la pagina presenta blocchi di contenuto che vengono caricati dopo il caricamento del modello principale. Aumenta il tempo di attesa se hai contenuti visivamente ricchi o prevedi tempi di caricamento elevati.

Gestisci le basi di conoscenza

Dopo aver configurato l'integrazione con Web Crawler, puoi creare e gestire le knowledge base a partire dai contenuti del tuo sito web sottoposti a scansione.

Modifica le knowledge base esistenti

È possibile modificare le knowledge base esistenti di Web Crawler:

  1. Nella console Amazon Quick, scegli Knowledge base.

  2. Seleziona la tua knowledge base di Web Crawler dall'elenco.

  3. Scegli l'icona a tre punti in Azioni, quindi scegli Modifica knowledge base.

  4. Aggiorna le impostazioni di configurazione secondo necessità e scegli Salva.

Crea basi di conoscenza aggiuntive

Puoi creare più knowledge base dalla stessa integrazione con Web Crawler:

  1. Nella console Amazon Quick, scegli Integrazioni, quindi seleziona la scheda Dati.

  2. Scegli l'integrazione esistente con Web Crawler dall'elenco.

  3. Scegli l'icona a tre punti in Azioni, quindi scegli Crea knowledge base.

  4. Configura le impostazioni della knowledge base e scegli Crea.

Per informazioni dettagliate sulle opzioni di configurazione della knowledge base, consultaImpostazioni di configurazione comuni.

Scansione degli allegati e dei file

Controlla se il sistema elabora file e allegati collegati da pagine Web:

  • Abilita la scansione degli allegati: selezionate questa opzione per eseguire la scansione e indicizzare i file e gli allegati presenti nelle pagine Web PDFs, ad esempio documenti e file multimediali.

Comportamento di scansione e configurazione della sincronizzazione

L'integrazione con Web Crawler segue queste pratiche di scansione:

  • Modello di sincronizzazione incrementale: la prima sincronizzazione esegue la scansione completa, le sincronizzazioni successive acquisiscono solo le modifiche

  • Riprova automatica: logica di ripetizione integrata per le richieste non riuscite

  • Gestione dei duplicati: rilevamento e gestione automatici di URLs

  • Identificazione del crawler: <UUID>si identifica con la stringa user-agent "aws-quick-on-behalf-of-" nelle intestazioni della richiesta

Conformità a Robots.txt

Web Crawler rispetta il protocollo robots.txt e rispetta lo user-agent e le direttive. allow/disallow Ciò consente di controllare il modo in cui il crawler accede al sito.

Come funziona il controllo di robots.txt
  • Controllo a livello di host: Web Crawler legge i file robots.txt a livello di host (ad esempio, example.com/robots.txt)

  • Supporto per più host: per i domini con più host, Web Crawler rispetta le regole dei robot per ciascun host separatamente

  • Comportamento fallback: se Web Crawler non riesce a recuperare robots.txt a causa di errori di blocco, analisi o timeout, si comporterà come se robots.txt non esistesse e scansionerà il sito

Campi robots.txt supportati

Web Crawler riconosce questi campi robots.txt (i nomi dei campi non fanno distinzione tra maiuscole e minuscole, i valori fanno distinzione tra maiuscole e minuscole):

user-agent

Identifica a quale crawler si applicano le regole

allow

Un percorso URL che può essere sottoposto a scansione

disallow

Un percorso URL che non può essere sottoposto a scansione

sitemap

L'URL completo di una mappa del sito

crawl-delay

Periodo di attesa specificato (in secondi) tra le richieste al tuo sito web

Supporto per i meta tag

Web Crawler supporta i meta tag robots a livello di pagina che puoi usare per controllare come vengono utilizzati i tuoi dati. È possibile specificare le impostazioni a livello di pagina includendo un meta tag nelle pagine HTML o in un'intestazione HTTP.

Meta tag supportati
noindex

Non indicizzate la pagina. Se non specifichi questa regola, la pagina potrebbe essere indicizzata e idonea a comparire nelle esperienze

nofollow

Non seguire i link in questa pagina. Se non specifichi questa regola, Web Crawler può utilizzare i collegamenti presenti nella pagina per scoprire le pagine collegate

È possibile combinare più valori utilizzando una virgola (ad esempio, «noindex, nofollow»).

Nota

Per rilevare i meta tag, Web Crawler deve accedere alla tua pagina, quindi non bloccarla con robots.txt che ne impedirà la nuova scansione.

Risoluzione dei problemi

Utilizzate questa sezione per risolvere problemi comuni relativi all'integrazione con Web Crawler.

Errori di autenticazione

Caratteristiche:

  • Messaggi di errore «Impossibile autenticare»

  • Risposte HTTP 401/403

  • Cicli di reindirizzamento della pagina di accesso

  • Errori di timeout della sessione

Fasi di risoluzione:

  1. Verifica che il sito sia raggiungibile dalla AWS regione in cui è configurata l'istanza Amazon Quick

  2. Verifica l'accuratezza delle credenziali e assicurati che non siano scadute

  3. Verifica la disponibilità e l'accessibilità degli endpoint di autenticazione

  4. Convalida le XPath configurazioni testandole negli strumenti per sviluppatori di browser

  5. Esamina i log di rete del browser per comprendere il flusso di autenticazione

  6. Assicurati che l'URL della pagina di accesso sia corretto e accessibile

  7. Verifica l'autenticazione manualmente utilizzando le stesse credenziali

Problemi di accesso e connettività

Caratteristiche:

  • Timeout di connessione ed errori di rete

  • Errori di rete irraggiungibili

  • Errori di risoluzione DNS

Fasi di risoluzione:

  1. Verifica della connettività di rete ai siti Web di destinazione

  2. Convalida l'accessibilità del sito:

    • Verifica la risoluzione DNS per i domini di destinazione

    • Verifica la SSL/TLS configurazione e i certificati

    • Se possibile, verifica l'accesso da reti diverse

Problemi di scansione e contenuti

Caratteristiche:

  • Contenuto mancante o incompleto

  • Scansione incompleta o chiusura anticipata

  • Errori di limitazione della velocità (429 risposte)

  • Il contenuto non viene indicizzato correttamente

Fasi di risoluzione:

  1. Esamina le restrizioni di robots.txt:

    • Controlla il file robots.txt per le restrizioni di scansione

    • Verifica che il crawler sia autorizzato ad accedere ai percorsi di destinazione

    • Assicurati che la conformità a robots.txt non stia bloccando i contenuti

  2. Controlla la limitazione e la limitazione della velocità:

    • Monitora le intestazioni di risposta per informazioni sui limiti di velocità

    • Implementa ritardi di scansione appropriati

  3. Verifica modelli e filtri URL:

    • Verifica la precisione dei modelli regex

    • Controlla la formattazione e la struttura degli URL

    • Convalida la logica del pattern include/exclude

  4. Rivedi le restrizioni relative ai contenuti:

    • Verifica la presenza di meta tag noindex sulle pagine

    • Verifica il supporto dei tipi di contenuto

    • Assicurati che le dimensioni dei contenuti rientrino nei limiti

  5. Aggiorna il tempo di attesa su un valore appropriato in modo che il contenuto venga caricato sulla pagina prima che il crawler tenti di eseguire la scansione

Limiti noti

L'integrazione con Web Crawler presenta le seguenti limitazioni:

  • Limiti URL: massimo 10 URLs, mappa del sito non supportata

  • Profondità di scansione: profondità di scansione massima di 10 livelli

  • Requisiti di sicurezza: HTTPS richiesto per le configurazioni del proxy web