Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Integrazione con Web Crawler
Con l'integrazione di Web Crawler in Amazon Quick, puoi creare basi di conoscenza a partire dai contenuti dei siti Web eseguendo la scansione e l'indicizzazione delle pagine Web. Questa integrazione supporta funzionalità di inserimento dei dati con diverse opzioni di autenticazione in base al livello utente.
Cosa puoi fare
Gli utenti di Web Crawler possono porre domande sui contenuti archiviati su siti Web e pagine Web. Ad esempio, gli utenti possono richiedere informazioni sui siti di documentazione, sulle knowledge base o cercare informazioni specifiche su più pagine Web. L'integrazione consente agli utenti di accedere e comprendere rapidamente le informazioni dei contenuti Web, indipendentemente dalla posizione o dal tipo, fornendo al contempo dettagli contestuali come le date di pubblicazione, la cronologia delle modifiche e la proprietà delle pagine, il tutto contribuendo a una più efficiente scoperta delle informazioni e a un processo decisionale più informato.
Nota
L'integrazione con Web Crawler supporta solo l'inserimento di dati. Non fornisce funzionalità di azione per la gestione di siti Web o servizi Web.
Prima di iniziare
Prima di configurare l'integrazione con Web Crawler, assicurati di disporre di quanto segue:
-
Sito Web URLs da scansionare e indicizzare.
-
Abbonamento Amazon Quick Enterprise
-
Il sito Web che desideri sottoporre a scansione deve essere pubblico e non può essere protetto da un firewall o richiedere plug-in speciali del browser per la connessione.
Prepara l'accesso e l'autenticazione al sito web
Prima di configurare l'integrazione in Amazon Quick, prepara le credenziali di accesso al sito Web. L'integrazione con Web Crawler supporta diversi metodi di autenticazione in base al ruolo dell'utente:
- Nessuna autenticazione
-
Disponibile per tutti gli utenti. Utilizzalo per la scansione di siti Web pubblici che non richiedono l'autenticazione.
- Autenticazione Base
-
Autenticazione HTTP di base standard per siti Web protetti. L'autenticazione di base HTTP è un modo semplice per proteggere le risorse Web richiedendo un nome utente e una password. Quando visiti un sito protetto utilizzando l'autenticazione di base, il browser mostrerà una finestra di dialogo pop-up che richiede le tue credenziali.
Credenziali richieste:
-
URL della pagina di accesso: l'URL della pagina di accesso
Nome utente: nome utente di autenticazione di base
Password: password di autenticazione di base
-
- Autenticazione modulo
-
Per siti Web che utilizzano pagine di accesso basate su moduli HTML.
Il modulo è configurato per essere specificato dall'utente. XPath XPath (XML Path Language) è un linguaggio di interrogazione utilizzato per navigare tra gli elementi e gli attributi di un documento HTML o XML. XPath Per identificare un elemento di una pagina Web, un utente può utilizzare gli strumenti di sviluppo del browser, a cui in genere si accede facendo clic con il pulsante destro del mouse sull'elemento desiderato e selezionando «Ispeziona» o premendo F12. Una volta evidenziato l'elemento negli strumenti di sviluppo, l'utente può fare clic con il pulsante destro del mouse sul codice HTML corrispondente, selezionare «Copia», quindi scegliere «Copia XPath» dal sottomenu. Questo genera un percorso univoco che identifica la posizione esatta dell'elemento nella struttura del documento. Il risultato XPath potrebbe essere simile a //input [@id ='username'] o //button [@type ='submit'], dove le doppie barre (//) indicano che il percorso può iniziare in qualsiasi punto del documento e le parentesi quadre contengono attributi che aiutano a identificare l'elemento specifico.
Informazioni richieste:
URL della pagina di accesso: URL del modulo di accesso (ad es.
https://example.com/login)Nome utente: nome utente di accesso
Password: password di accesso
Campo nome utente XPath: nel campo XPath di immissione del nome utente (ad esempio,
//input[@id='username'])-
Pulsante nome utente XPath (opzionale) - XPath al campo del pulsante nome utente (ad es.
//input[@id='username_button']) Campo password XPath: XPath al campo di immissione della password (ad esempio,
//input[@id='password'])Pulsante password XPath: XPath al pulsante password (ad esempio,
//button[@type='password'])
- Autenticazione SAML
-
Per i siti Web che utilizzano l'autenticazione Single Sign-on basata su SAML.
L'autenticazione SAML (Security Assertion Markup Language) è uno standard di identità federato che abilita il single sign-on (SSO) consentendo agli utenti di autenticarsi tramite un provider di identità centralizzato anziché inserire le credenziali direttamente in ciascuna applicazione. A differenza dell'autenticazione tradizionale tramite modulo, in cui gli utenti digitano nome utente e password nei campi della pagina di accesso dell'applicazione, SAML reindirizza gli utenti al provider di identità dell'organizzazione (come Microsoft Azure AD o Okta) per l'autenticazione, quindi restituisce un token sicuro all'applicazione per concedere l'accesso. Questo approccio offre un'esperienza utente senza interruzioni su più applicazioni, una gestione centralizzata degli utenti per gli amministratori IT e una maggiore sicurezza attraverso funzionalità come l'autenticazione a più fattori, mentre l'autenticazione dei moduli richiede una gestione separata delle credenziali per ogni singola applicazione.
Informazioni richieste:
URL della pagina di accesso: URL della pagina di accesso SAML
Nome utente: nome utente SAML
Password: password SAML
-
Campo nome utente XPath: XPath al campo di immissione del nome utente (ad esempio,
//input[@id='username']) -
Pulsante nome utente XPath (opzionale) - XPath al campo del pulsante nome utente (ad es.
//input[@id='username_button']) -
Campo password XPath: XPath al campo di immissione della password (ad esempio,
//input[@id='password']) -
Pulsante password XPath: XPath al pulsante password (ad esempio,
//button[@type='password'])
XPath esempi di configurazione
Usa questi XPath esempi per configurare il modulo e l'autenticazione SAML:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configura l'integrazione con Web Crawler
Dopo aver preparato i requisiti di accesso al sito Web, crea l'integrazione Web Crawler in Amazon Quick.
-
Nella console Amazon Quick, scegli Integrazioni.
-
Scegli Web Crawler tra le opzioni di integrazione e fai clic sul pulsante Aggiungi (più il pulsante «+»).
-
Scegli Accedi ai dati da Web Crawler. L'integrazione con Web Crawler supporta solo l'accesso ai dati: l'esecuzione delle azioni non è disponibile per la scansione sul Web.
-
Configura i dettagli di integrazione e il metodo di autenticazione, quindi crea le knowledge base secondo necessità.
-
Seleziona il tipo di autenticazione per l'integrazione con il web crawler.
-
Inserisci i dettagli richiesti in base al metodo di autenticazione selezionato.
-
Seleziona Crea e continua.
-
Inserisci il nome e la descrizione della tua knowledge base.
-
Aggiungi il contenuto URLs che desideri sottoporre a scansione.
-
Seleziona Crea.
-
Dopo aver fatto clic su Crea, la sincronizzazione dei dati viene avviata automaticamente.
Configura la scansione
È possibile configurare i siti Web e le pagine da sottoporre a scansione e come filtrare il contenuto.
Configurazione URLs e fonti di contenuto
Configura i siti Web e le pagine da sottoporre a scansione:
Diretto URLs
Specificare URLs la persona da esplorare:
https://example.com/docs https://example.com/blog https://example.com/support
Limite: massimo 10 URLs per set di dati
Filtri di contenuto e impostazioni di scansione
Impostazioni dell'ambito di scansione
Per visualizzare queste impostazioni, è necessario prima configurare una knowledge base e quindi esaminare l'opzione delle impostazioni avanzate.
- Profondità di esplorazione
-
Intervallo: 0-10 (impostazione predefinita: 1)
0 = è specificata solo la scansione URLs
1 = include le pagine collegate a un livello di profondità
I valori più alti seguono i link più profondi nel sito
- Numero massimo di link per pagina
-
Impostazione predefinita: 1000
Massimo: 1.000
Controlla quanti link seguire da ogni pagina
- Tempo di Wait (Attesa)
-
Impostazione predefinita: 1
-
Il tempo di attesa del crawler web per ogni pagina dopo che la pagina avrà raggiunto lo stato di «pagina pronta». Ciò è utile per le pagine con caratteristiche di caricamento dinamico di javascript in cui la pagina presenta blocchi di contenuto che vengono caricati dopo il caricamento del modello principale. Aumenta il tempo di attesa se hai contenuti visivamente ricchi o prevedi tempi di caricamento elevati.
Gestisci le basi di conoscenza
Dopo aver configurato l'integrazione con Web Crawler, puoi creare e gestire le knowledge base a partire dai contenuti del tuo sito web sottoposti a scansione.
Modifica le knowledge base esistenti
È possibile modificare le knowledge base esistenti di Web Crawler:
-
Nella console Amazon Quick, scegli Knowledge base.
-
Seleziona la tua knowledge base di Web Crawler dall'elenco.
-
Scegli l'icona a tre punti in Azioni, quindi scegli Modifica knowledge base.
-
Aggiorna le impostazioni di configurazione secondo necessità e scegli Salva.
Crea basi di conoscenza aggiuntive
Puoi creare più knowledge base dalla stessa integrazione con Web Crawler:
-
Nella console Amazon Quick, scegli Integrazioni, quindi seleziona la scheda Dati.
-
Scegli l'integrazione esistente con Web Crawler dall'elenco.
-
Scegli l'icona a tre punti in Azioni, quindi scegli Crea knowledge base.
-
Configura le impostazioni della knowledge base e scegli Crea.
Per informazioni dettagliate sulle opzioni di configurazione della knowledge base, consultaImpostazioni di configurazione comuni.
Scansione degli allegati e dei file
Controlla se il sistema elabora file e allegati collegati da pagine Web:
-
Abilita la scansione degli allegati: selezionate questa opzione per eseguire la scansione e indicizzare i file e gli allegati presenti nelle pagine Web PDFs, ad esempio documenti e file multimediali.
Comportamento di scansione e configurazione della sincronizzazione
L'integrazione con Web Crawler segue queste pratiche di scansione:
Modello di sincronizzazione incrementale: la prima sincronizzazione esegue la scansione completa, le sincronizzazioni successive acquisiscono solo le modifiche
Riprova automatica: logica di ripetizione integrata per le richieste non riuscite
Gestione dei duplicati: rilevamento e gestione automatici di URLs
Identificazione del crawler: <UUID>si identifica con la stringa user-agent "aws-quick-on-behalf-of-" nelle intestazioni della richiesta
Conformità a Robots.txt
Web Crawler rispetta il protocollo robots.txt e rispetta lo user-agent e le direttive. allow/disallow Ciò consente di controllare il modo in cui il crawler accede al sito.
Come funziona il controllo di robots.txt
Controllo a livello di host: Web Crawler legge i file robots.txt a livello di host (ad esempio, example.com/robots.txt)
Supporto per più host: per i domini con più host, Web Crawler rispetta le regole dei robot per ciascun host separatamente
Comportamento fallback: se Web Crawler non riesce a recuperare robots.txt a causa di errori di blocco, analisi o timeout, si comporterà come se robots.txt non esistesse e scansionerà il sito
Campi robots.txt supportati
Web Crawler riconosce questi campi robots.txt (i nomi dei campi non fanno distinzione tra maiuscole e minuscole, i valori fanno distinzione tra maiuscole e minuscole):
user-agentIdentifica a quale crawler si applicano le regole
allowUn percorso URL che può essere sottoposto a scansione
disallowUn percorso URL che non può essere sottoposto a scansione
sitemapL'URL completo di una mappa del sito
crawl-delayPeriodo di attesa specificato (in secondi) tra le richieste al tuo sito web
Supporto per i meta tag
Web Crawler supporta i meta tag robots a livello di pagina che puoi usare per controllare come vengono utilizzati i tuoi dati. È possibile specificare le impostazioni a livello di pagina includendo un meta tag nelle pagine HTML o in un'intestazione HTTP.
Meta tag supportati
noindexNon indicizzate la pagina. Se non specifichi questa regola, la pagina potrebbe essere indicizzata e idonea a comparire nelle esperienze
nofollowNon seguire i link in questa pagina. Se non specifichi questa regola, Web Crawler può utilizzare i collegamenti presenti nella pagina per scoprire le pagine collegate
È possibile combinare più valori utilizzando una virgola (ad esempio, «noindex, nofollow»).
Nota
Per rilevare i meta tag, Web Crawler deve accedere alla tua pagina, quindi non bloccarla con robots.txt che ne impedirà la nuova scansione.
Risoluzione dei problemi
Utilizzate questa sezione per risolvere problemi comuni relativi all'integrazione con Web Crawler.
Errori di autenticazione
Caratteristiche:
Messaggi di errore «Impossibile autenticare»
Risposte HTTP 401/403
Cicli di reindirizzamento della pagina di accesso
Errori di timeout della sessione
Fasi di risoluzione:
Verifica che il sito sia raggiungibile dalla AWS regione in cui è configurata l'istanza Amazon Quick
Verifica l'accuratezza delle credenziali e assicurati che non siano scadute
Verifica la disponibilità e l'accessibilità degli endpoint di autenticazione
Convalida le XPath configurazioni testandole negli strumenti per sviluppatori di browser
Esamina i log di rete del browser per comprendere il flusso di autenticazione
Assicurati che l'URL della pagina di accesso sia corretto e accessibile
Verifica l'autenticazione manualmente utilizzando le stesse credenziali
Problemi di accesso e connettività
Caratteristiche:
Timeout di connessione ed errori di rete
Errori di rete irraggiungibili
Errori di risoluzione DNS
Fasi di risoluzione:
-
Verifica della connettività di rete ai siti Web di destinazione
-
Convalida l'accessibilità del sito:
Verifica la risoluzione DNS per i domini di destinazione
Verifica la SSL/TLS configurazione e i certificati
Se possibile, verifica l'accesso da reti diverse
Problemi di scansione e contenuti
Caratteristiche:
Contenuto mancante o incompleto
Scansione incompleta o chiusura anticipata
Errori di limitazione della velocità (429 risposte)
Il contenuto non viene indicizzato correttamente
Fasi di risoluzione:
-
Esamina le restrizioni di robots.txt:
Controlla il file robots.txt per le restrizioni di scansione
Verifica che il crawler sia autorizzato ad accedere ai percorsi di destinazione
Assicurati che la conformità a robots.txt non stia bloccando i contenuti
-
Controlla la limitazione e la limitazione della velocità:
Monitora le intestazioni di risposta per informazioni sui limiti di velocità
Implementa ritardi di scansione appropriati
-
Verifica modelli e filtri URL:
Verifica la precisione dei modelli regex
Controlla la formattazione e la struttura degli URL
Convalida la logica del pattern include/exclude
-
Rivedi le restrizioni relative ai contenuti:
Verifica la presenza di meta tag noindex sulle pagine
Verifica il supporto dei tipi di contenuto
Assicurati che le dimensioni dei contenuti rientrino nei limiti
-
Aggiorna il tempo di attesa su un valore appropriato in modo che il contenuto venga caricato sulla pagina prima che il crawler tenti di eseguire la scansione
Limiti noti
L'integrazione con Web Crawler presenta le seguenti limitazioni:
Limiti URL: massimo 10 URLs, mappa del sito non supportata
Profondità di scansione: profondità di scansione massima di 10 livelli
Requisiti di sicurezza: HTTPS richiesto per le configurazioni del proxy web