Funzionalità supportate Prerequisiti Configurazione della connessione

Crawling di pagine web per la knowledge base

Il crawler web fornito da Amazon Bedrock si connette agli URL che hai selezionato per l’uso in Knowledge Base per Amazon Bedrock e ne esegue il crawling. Puoi eseguire il crawling delle pagine del sito web in base all’ambito o ai limiti impostati per gli URL selezionati. Puoi eseguire il crawling delle pagine dei siti web utilizzando la Console di gestione AWS per Amazon Bedrock o l’API CreateDataSource (vedi SDK supportati da Amazon Bedrock e AWS CLI). Attualmente, solo l’archivio vettoriale Amazon OpenSearch serverless è disponibile per l’utilizzo con questa origine dati.

Nota

Il connettore dell’origine dati del crawler web è disponibile nella versione di anteprima ed è soggetto a modifiche.

Quando selezioni i siti web da sottoporre al crawling, devi rispettare la Policy di utilizzo accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che puoi utilizzare il crawler web solo per indicizzare pagine web di tua proprietà o di cui hai l’autorizzazione a eseguire il crawling e devi rispettare le configurazioni di robots.txt.

Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309

Esistono limiti al numero di elementi di contenuto delle pagine web e ai MB per elemento di contenuto che possono essere sottoposti a crawling. Consulta Quote per le knowledge base.

Funzionalità supportate

Il crawler web si connette alle pagine HTML e le scansiona a partire dall’URL iniziale, attraversando tutti i link secondari all’interno dello stesso dominio e percorso primari. Se una delle pagine HTML fa riferimento a documenti supportati, il crawler web recupererà tali documenti, indipendentemente dal fatto che si trovino all’interno dello stesso dominio primario. Puoi modificare il comportamento del crawling modificando la configurazione della scansione. Consulta Configurazione della connessione.

Quanto segue è supportato per:

Seleziona più URL di origine da sottoporre a scansione e imposta l’ambito degli URL in modo che eseguano il crawling solo dell’host o includano anche i sottodomini.
Scansiona le pagine web statiche che fanno parte degli URL di origine.
Specifica il suffisso User Agent personalizzato per impostare le regole per il tuo crawler.
Includi o escludi determinati URL che corrispondono a un modello di filtro.
Rispetta le direttive robots.txt standard come “Allow” and “Disallow”.
Limita l’ambito degli URL al crawling e, facoltativamente, escludi gli URL che corrispondono a uno schema di filtro.
Limita la velocità di crawling degli URL e il numero massimo di pagine da sottoporre a crawling.
Visualizza lo stato degli URL sottoposti a crawling in Amazon CloudWatch.

Prerequisiti

Per utilizzare il crawler web, assicurati di:

Verifica di avere l’autorizzazione a eseguire la scansione degli URL di origine.
Verifica che il percorso di robots.txt corrispondente agli URL di origine non impedisca il crawling degli URL. Il crawler web aderisce agli standard di robots.txt: disallow per impostazione predefinita se robots.txt non viene trovato per il sito web. Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309. Puoi anche specificare il suffisso di intestazione User Agent personalizzato per impostare le regole per il tuo crawler. Per ulteriori informazioni, consulta l’accesso all’URL del crawler web nelle istruzioni Configurazione della connessione di questa pagina.
Abilita la distribuzione di CloudWatch Logs e segui gli esempi del crawler web per visualizzare lo stato del processo di importazione dei dati per l’acquisizione di contenuti web e se determinati URL non possono essere recuperati.

Nota

Configurazione della connessione

Per ulteriori informazioni sull’ambito di sincronizzazione per il crawling degli URL, i filtri di inclusione/esclusione, l’accesso agli URL, la sincronizzazione incrementale e su come funzionano, seleziona quanto segue:

Puoi limitare l’ambito degli URL da sottoporre a crawling in base alla relazione specifica tra l’URL di ogni pagina e gli URL iniziali. Per crawling più rapidi, puoi limitare gli URL a quelli con lo stesso host e lo stesso percorso URL iniziale dell’URL iniziale. Per crawling più ampi, puoi scegliere di eseguire il crawling degli URL con lo stesso host o all’interno di qualsiasi sottodominio dell’URL iniziale.

Puoi scegliere tra le opzioni riportate di seguito.

Impostazione predefinita: limita il crawling alle pagine web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/” verranno sottoposti a crawling solo questo percorso e le pagine web che si diramano da esso, come “https://aws.amazon.com/bedrock/agents/”. Ad esempio, gli URL di pari livello come “https://aws.amazon.com/ec2/” non vengono inclusi nel processo di crawling.
Solo host: limita il crawling alle pagine web che appartengono allo stesso host. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verranno sottoposte a crawling anche le pagine web con “https://aws.amazon.com”, come “https://aws.amazon.com/ec2”.
Sottodomini: include il crawling di qualsiasi pagina web con lo stesso dominio primario dell’URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verrà sottoposta a crawling qualsiasi pagina web che contenga “amazon.com” (sottodominio), come “https://www.amazon.com”.

Nota

Assicurati di non eseguire il crawling di pagine web potenzialmente eccessive. Non è consigliabile eseguire il crawling di siti web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. Il crawling di siti web di grandi dimensioni richiederà molto tempo.

I tipi di file supportati vengono sottoposti a crawling indipendentemente dall’ambito e se non esiste uno schema di esclusione per il tipo di file.

Il crawler web supporta siti web statici.

Puoi anche limitare la velocità di crawling degli URL per controllare la limitazione (della larghezza di banda della rete) della velocità di crawling. Imposti il numero massimo di URL sottoposti a crawling per host al minuto. Inoltre, puoi anche impostare il numero massimo (fino a 25.000) di pagine web totali da sottoporre a crawling. Tieni presente che se il numero totale di pagine web dagli URL di origine supera il massimo impostato, il processo di sincronizzazione/importazione dell’origine dati avrà esito negativo.

Puoi includere o escludere determinati URL in base al tuo ambito. I tipi di file supportati vengono sottoposti a crawling indipendentemente dall’ambito e se non esiste uno schema di esclusione per il tipo di file. Se specifichi un filtro di inclusione ed esclusione ed entrambi corrispondono a un URL, il filtro di esclusione ha la precedenza e il contenuto web non viene sottoposto a crawling.

Importante

Vengono rifiutati i filtri problematici basati su modelli di espressioni regolari che portano a backtracking e previsioni catastrofici.

“Esempio di pattern di filtro basato su espressione regolare per escludere gli URL con estensione “.pdf” o allegati PDF di pagine web”: ".*\.pdf$"

Puoi utilizzare il crawler web per eseguire il crawling delle pagine dei siti web per i quali hai l’autorizzazione a eseguire il crawling.

Il crawler web rispetta robots.txt in conformità con lo standard RFC 9309

Puoi specificare determinati bot user agent per consentire (“Allow”) o negare (“Disallow”) al rispettivo user agent di eseguire il crawling dei tuoi URL di origine. Puoi modificare il file robots.txt del tuo sito web per controllare il modo in cui il crawler web esegue il crawling degli URL di origine. Il crawler cercherà prima le regole bedrockbot-UUID e poi le regole bedrockbot generiche nel file robots.txt.

Puoi anche aggiungere un suffisso User-Agent che può essere utilizzato per inserire il crawler nella lista consentita nei sistemi di protezione dai bot. Nota che non è necessario aggiungere questo suffisso al file robots.txt per assicurarsi che nessuno possa impersonare la stringa User Agent. Ad esempio, per consentire al crawler web di eseguire il crawling di tutto il contenuto del sito web e impedire il crawling per altri robot, utilizza la seguente direttiva:


User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Ogni volta che viene eseguito, il crawler web recupera il contenuto di tutti gli URL raggiungibili dagli URL di origine che corrispondono all’ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima sincronizzazione di tutti i contenuti, Amazon Bedrock aggiornerà la knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti non più presenti. Occasionalmente, il crawler potrebbe non essere in grado di determinare se un contenuto è stato rimosso dal sito web; in tal caso, opterà per la conservazione del contenuto precedente nella tua knowledge base.

Per sincronizzare l’origine dati con la knowledge base, utilizzare l’API StartIngestionJob o selezionare la knowledge base nella console, quindi scegliere Sincronizza nella sezione di panoramica dell’origine dati.

Importante

Tutti i dati sincronizzati dall’origine dati diventano disponibili per chiunque disponga delle autorizzazioni bedrock:Retrieve per recuperarli. Ciò può includere anche tutti i dati con autorizzazioni per l’origine dati controllate. Per ulteriori informazioni, consulta Autorizzazioni della knowledge base.

Console

Connettiti a un’origine dati a cui collegare il crawler web per la tua knowledge base.

Segui i passaggi indicati in Creazione di una knowledge base mediante connessione a un’origine dati in Knowledge Base per Amazon Bedrock e scegli Crawler web come origine dati.
Specifica un nome e una descrizione facoltativa per l’origine dati.
Fornisci gli URL di origine degli URL che desideri sottoporre a crawling. Puoi aggiungere fino a nove URL aggiuntivi selezionando Aggiungi URL di origine. Fornendo un URL di origine, confermi di avere l’autorizzazione a eseguire il crawling del relativo dominio.
Nella sezione Impostazioni avanzate, puoi configurare gli elementi seguenti (facoltativo):
- Chiave KMS per l’archiviazione di dati transitori. Puoi crittografare i dati transitori durante la conversione in embedding con la Chiave gestita da AWS predefinita o con la chiave KMS in uso. Per ulteriori informazioni, consulta Crittografia dell'archiviazione di dati transitoria durante l'importazione dei dati.
- Policy di eliminazione dei dati: è possibile eliminare gli embedding vettoriali per l’origine dati corrente presenti nell’archivio vettoriale per impostazione predefinita oppure scegliere di mantenere i dati dell’archivio vettoriale.
(Opzionale) Fornisci un suffisso user agent per bedrock-UUID-, che identifichi il crawler o il bot quando accede a un server web.
Configurate quanto segue nella sezione Ambito di sincronizzazione:
1. Seleziona un intervallo di domini del sito web per il crawling degli URL di origine:
  - Impostazione predefinita: limita il crawling alle pagine web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/” verranno sottoposti a crawling solo questo percorso e le pagine web che si diramano da esso, come “https://aws.amazon.com/bedrock/agents/”. Ad esempio, gli URL di pari livello come “https://aws.amazon.com/ec2/” non vengono inclusi nel processo di crawling.
  - Solo host: limita il crawling alle pagine web che appartengono allo stesso host. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verranno sottoposte a crawling anche le pagine web con “https://aws.amazon.com”, come “https://aws.amazon.com/ec2”.
  - Sottodomini: include il crawling di qualsiasi pagina web con lo stesso dominio primario dell’URL iniziale. Ad esempio, con un seed URL di “https://aws.amazon.com/bedrock/”, verrà sottoposta a crawling qualsiasi pagina web che contenga “amazon.com” (sottodominio), come “https://www.amazon.com”.
  Nota
  Assicurati di non eseguire il crawling di pagine web potenzialmente eccessive. Non è consigliabile eseguire il crawling di siti web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. Il crawling di siti web di grandi dimensioni richiederà molto tempo.
  I tipi di file supportati vengono sottoposti a crawling indipendentemente dall’ambito e se non esiste uno schema di esclusione per il tipo di file.
2. Immetti la Limitazione (della larghezza di banda della rete) massima della velocità di crawling. Importa URL compresi tra 1 e 300 URL per host al minuto. Una velocità di crawling più elevata aumenta il carico ma richiede meno tempo.
3. Inserisci un numero massimo di pagine per la sincronizzazione delle origini dati compreso tra 1 e 25.000. Limita il numero massimo di pagine web sottoposta a crawling dagli URL di origine. Se le pagine web superano questo numero, la sincronizzazione delle origini dati avrà esito negativo e non verrà importata alcuna pagina web.
4. Per i modelli Regex URL (opzionale) puoi aggiungere Includi modelli o Escludi modelli inserendo il modello di espressione regolare nella casella. Puoi aggiungere fino a 25 modelli di filtro di inclusione e 25 di esclusione selezionando Aggiungi nuovo modello. I modelli di inclusione ed esclusione vengono sottoposti a crawling in base all’ambito. In caso di conflitto, il modello di esclusione ha la precedenza.
(Facoltativo) Nella sezione Chunking e analisi dei contenuti, puoi personalizzare il modo in cui analizzare i dati ed eseguirne il chunking. Per ulteriori informazioni su queste personalizzazioni, consulta le risorse seguenti:
- Per ulteriori informazioni sulle opzioni di analisi, consulta Opzioni di analisi per l’origine dati.
- Per ulteriori informazioni sulle strategie di chunking, consulta Come funziona il chunking dei contenuti per le knowledge base.
  
  avvertimento
  Dopo la connessione all’origine dati, non è possibile modificare la strategia di chunking.
- Per ulteriori informazioni sulla personalizzazione del chunking dei dati e dell’elaborazione dei metadati con una funzione Lambda, consulta Utilizzo di una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati.
Continua a scegliere un modello di embedding e un archivio vettoriale. Per visualizzare le fasi rimanenti, torna a Creazione di una knowledge base mediante connessione a un’origine dati in Knowledge Base per Amazon Bedrock e continua dalla fase successiva alla connessione all’origine dati.

API

Per connettere una knowledge base a un’origine dati utilizzando il crawler web, invia una richiesta CreateDataSource con un endpoint in fase di compilazione di Agent per Amazon Bedrock, specifica WEB nel campo type di DataSourceConfiguration e includi il campo webConfiguration. Di seguito è riportato un esempio di configurazione di crawler web per Knowledge Base per Amazon Bedrock.


{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}

Per informazioni sulle personalizzazioni che è possibile applicare all’importazione includendo il campo vectorIngestionConfiguration opzionale, consulta Personalizzare l’importazione per un’origine dati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Salesforce

Personalizzato

Crawling di pagine web per la knowledge base

Nota

Argomenti

Funzionalità supportate

Prerequisiti

Nota

Configurazione della connessione

Nota

Importante

Importante

Connettiti a un’origine dati a cui collegare il crawler web per la tua knowledge base.

Nota

avvertimento