Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crawling di pagine web per la knowledge base
Il crawler web fornito da Amazon Bedrock si connette agli URL che hai selezionato per l’uso in Knowledge Base per Amazon Bedrock e ne esegue il crawling. Puoi eseguire il crawling delle pagine del sito web in base all’ambito o ai limiti impostati per gli URL selezionati. Puoi eseguire il crawling delle pagine dei siti web utilizzando la Console di gestione AWS per Amazon Bedrock
Nota
Il connettore dell’origine dati del crawler web è disponibile nella versione di anteprima ed è soggetto a modifiche.
Quando selezioni i siti web da sottoporre al crawling, devi rispettare la Policy di utilizzo accettabile di Amazon
Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309
Esistono limiti al numero di elementi di contenuto delle pagine web e ai MB per elemento di contenuto che possono essere sottoposti a crawling. Consulta Quote per le knowledge base.
Funzionalità supportate
Il crawler web si connette alle pagine HTML e le scansiona a partire dall’URL iniziale, attraversando tutti i link secondari all’interno dello stesso dominio e percorso primari. Se una delle pagine HTML fa riferimento a documenti supportati, il crawler web recupererà tali documenti, indipendentemente dal fatto che si trovino all’interno dello stesso dominio primario. Puoi modificare il comportamento del crawling modificando la configurazione della scansione. Consulta Configurazione della connessione.
Quanto segue è supportato per:
-
Seleziona più URL di origine da sottoporre a scansione e imposta l’ambito degli URL in modo che eseguano il crawling solo dell’host o includano anche i sottodomini.
-
Scansiona le pagine web statiche che fanno parte degli URL di origine.
-
Specifica il suffisso User Agent personalizzato per impostare le regole per il tuo crawler.
-
Includi o escludi determinati URL che corrispondono a un modello di filtro.
-
Rispetta le direttive robots.txt standard come “Allow” and “Disallow”.
-
Limita l’ambito degli URL al crawling e, facoltativamente, escludi gli URL che corrispondono a uno schema di filtro.
-
Limita la velocità di crawling degli URL e il numero massimo di pagine da sottoporre a crawling.
-
Visualizza lo stato degli URL sottoposti a crawling in Amazon CloudWatch.
Prerequisiti
Per utilizzare il crawler web, assicurati di:
-
Verifica di avere l’autorizzazione a eseguire la scansione degli URL di origine.
-
Verifica che il percorso di robots.txt corrispondente agli URL di origine non impedisca il crawling degli URL. Il crawler web aderisce agli standard di robots.txt:
disallowper impostazione predefinita se robots.txt non viene trovato per il sito web. Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309. Puoi anche specificare il suffisso di intestazione User Agent personalizzato per impostare le regole per il tuo crawler. Per ulteriori informazioni, consulta l’accesso all’URL del crawler web nelle istruzioni Configurazione della connessione di questa pagina. -
Abilita la distribuzione di CloudWatch Logs e segui gli esempi del crawler web per visualizzare lo stato del processo di importazione dei dati per l’acquisizione di contenuti web e se determinati URL non possono essere recuperati.
Nota
Quando selezioni i siti web da sottoporre al crawling, devi rispettare la Policy di utilizzo accettabile di Amazon
Configurazione della connessione
Per ulteriori informazioni sull’ambito di sincronizzazione per il crawling degli URL, i filtri di inclusione/esclusione, l’accesso agli URL, la sincronizzazione incrementale e su come funzionano, seleziona quanto segue:
Puoi limitare l’ambito degli URL da sottoporre a crawling in base alla relazione specifica tra l’URL di ogni pagina e gli URL iniziali. Per crawling più rapidi, puoi limitare gli URL a quelli con lo stesso host e lo stesso percorso URL iniziale dell’URL iniziale. Per crawling più ampi, puoi scegliere di eseguire il crawling degli URL con lo stesso host o all’interno di qualsiasi sottodominio dell’URL iniziale.
Puoi scegliere tra le opzioni riportate di seguito.
-
Impostazione predefinita: limita il crawling alle pagine web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/” verranno sottoposti a crawling solo questo percorso e le pagine web che si diramano da esso, come “https://aws.amazon.com/bedrock/agents/”. Ad esempio, gli URL di pari livello come “https://aws.amazon.com/ec2/” non vengono inclusi nel processo di crawling.
-
Solo host: limita il crawling alle pagine web che appartengono allo stesso host. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verranno sottoposte a crawling anche le pagine web con “https://aws.amazon.com”, come “https://aws.amazon.com/ec2”.
-
Sottodomini: include il crawling di qualsiasi pagina web con lo stesso dominio primario dell’URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verrà sottoposta a crawling qualsiasi pagina web che contenga “amazon.com” (sottodominio), come “https://www.amazon.com”.
Nota
Assicurati di non eseguire il crawling di pagine web potenzialmente eccessive. Non è consigliabile eseguire il crawling di siti web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. Il crawling di siti web di grandi dimensioni richiederà molto tempo.
I tipi di file supportati vengono sottoposti a crawling indipendentemente dall’ambito e se non esiste uno schema di esclusione per il tipo di file.
Il crawler web supporta siti web statici.
Puoi anche limitare la velocità di crawling degli URL per controllare la limitazione (della larghezza di banda della rete) della velocità di crawling. Imposti il numero massimo di URL sottoposti a crawling per host al minuto. Inoltre, puoi anche impostare il numero massimo (fino a 25.000) di pagine web totali da sottoporre a crawling. Tieni presente che se il numero totale di pagine web dagli URL di origine supera il massimo impostato, il processo di sincronizzazione/importazione dell’origine dati avrà esito negativo.
Puoi includere o escludere determinati URL in base al tuo ambito. I tipi di file supportati vengono sottoposti a crawling indipendentemente dall’ambito e se non esiste uno schema di esclusione per il tipo di file. Se specifichi un filtro di inclusione ed esclusione ed entrambi corrispondono a un URL, il filtro di esclusione ha la precedenza e il contenuto web non viene sottoposto a crawling.
Importante
Vengono rifiutati i filtri problematici basati su modelli di espressioni regolari che portano a backtracking e previsioni catastrofici.
“Esempio di pattern di filtro basato su espressione regolare per escludere gli URL con estensione “.pdf” o allegati PDF di pagine web”: ".*\.pdf$"
Puoi utilizzare il crawler web per eseguire il crawling delle pagine dei siti web per i quali hai l’autorizzazione a eseguire il crawling.
Quando selezioni i siti web da sottoporre al crawling, devi rispettare la Policy di utilizzo accettabile di Amazon
Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309
Puoi specificare determinati bot user agent per consentire (“Allow”) o negare (“Disallow”) al rispettivo user agent di eseguire il crawling dei tuoi URL di origine. Puoi modificare il file robots.txt del tuo sito web per controllare il modo in cui il crawler web esegue il crawling degli URL di origine. Il crawler cercherà prima le regole bedrockbot-UUID e poi le regole bedrockbot generiche nel file robots.txt.
Puoi anche aggiungere un suffisso User-Agent che può essere utilizzato per inserire il crawler nella lista consentita nei sistemi di protezione dai bot. Nota che non è necessario aggiungere questo suffisso al file robots.txt per assicurarsi che nessuno possa impersonare la stringa User Agent. Ad esempio, per consentire al crawler web di eseguire il crawling di tutto il contenuto del sito web e impedire il crawling per altri robot, utilizza la seguente direttiva:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Ogni volta che viene eseguito, il crawler web recupera il contenuto di tutti gli URL raggiungibili dagli URL di origine che corrispondono all’ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima sincronizzazione di tutti i contenuti, Amazon Bedrock aggiornerà la knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti non più presenti. Occasionalmente, il crawler potrebbe non essere in grado di determinare se un contenuto è stato rimosso dal sito web; in tal caso, opterà per la conservazione del contenuto precedente nella tua knowledge base.
Per sincronizzare l’origine dati con la knowledge base, utilizzare l’API StartIngestionJob o selezionare la knowledge base nella console, quindi scegliere Sincronizza nella sezione di panoramica dell’origine dati.
Importante
Tutti i dati sincronizzati dall’origine dati diventano disponibili per chiunque disponga delle autorizzazioni bedrock:Retrieve per recuperarli. Ciò può includere anche tutti i dati con autorizzazioni per l’origine dati controllate. Per ulteriori informazioni, consulta Autorizzazioni della knowledge base.