Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Come funziona il chunking dei contenuti per le knowledge base
Quando acquisisci i dati, Amazon Bedrock divide innanzitutto i documenti o i contenuti in blocchi gestibili per un recupero efficiente dei dati. I blocchi vengono quindi convertiti in embedding e scritti in un indice vettoriale (rappresentazione vettoriale dei dati), mantenendo al contempo una mappatura al documento originale. Gli embedding vettoriali consentono di confrontare quantitativamente i testi.
Argomenti
Chunking standard
Amazon Bedrock supporta i seguenti approcci standard al chunking:
Nota
Le strategie di suddivisione in blocchi di testo si applicano solo ai documenti di testo. Per i contenuti multimodali (audio, video, immagini), la suddivisione in blocchi avviene a livello del modello di incorporamento, non tramite queste strategie basate su testo.
-
Chunking a dimensione fissa: puoi configurare la dimensione del blocco desiderata specificando il numero di token per blocco e una percentuale di sovrapposizione, in modo da garantire la flessibilità necessaria per allinearti ai requisiti specifici. È possibile impostare il numero massimo di token che non deve essere superato per un blocco e la percentuale di sovrapposizione tra blocchi consecutivi.
Nota
Per i contenuti analizzati (ad esempio contenuti che utilizzano parser avanzati o convertiti da HTML), Amazon Bedrock Knowledge Bases può suddividere i contenuti in blocchi per ottimizzarli e ottenere i migliori risultati. Il chunker rispetta i limiti logici del documento (come pagine o sezioni) e non unisce i contenuti oltre questi limiti, anche quando l'aumento della dimensione massima del token consentirebbe altrimenti l'aggiunta di blocchi più grandi.
-
Chunking predefinito: suddivide i contenuti in blocchi di testo di circa 300 token. Il processo di chunking rispetta i limiti delle frasi, garantendo che le frasi complete vengano conservate all’interno di ogni blocco.
Puoi inoltre scegliere di non applicare il chunking per i tuoi documenti. Ogni documento viene trattato come un singolo blocco di testo. Potresti voler pre-elaborare i tuoi documenti suddividendoli in file distinti prima di scegliere Nessun chunking come approccio/strategia di chunking. Se scegli di non suddividere i documenti in blocchi, non puoi visualizzare il numero di pagina nella citazione o filtrare in base al campo/attributo - metadati. x-amz-bedrock-kb document-page-number
Chunking gerarchico
Il chunking gerarchico implica l’organizzazione delle informazioni in strutture annidate di blocchi principali e secondari. Quando si crea un’origine dati, è possibile definire la dimensione del blocco principale, la dimensione del blocco secondario e il numero di token che si sovrappongono tra ogni blocco. Durante il recupero, il sistema recupera inizialmente i blocchi secondari, ma li sostituisce con blocchi principali più ampi in modo da fornire al modello un contesto più completo.
Gli embedding di testo di piccole dimensioni sono più precisi, ma il recupero mira a un contesto completo. Un sistema di chunking gerarchico bilancia queste esigenze sostituendo, se appropriato, i blocchi secondari recuperati con i blocchi principali.
Nota
-
Poiché i blocchi secondari vengono sostituiti dai blocchi principali durante il recupero, il numero di risultati restituito potrebbe essere inferiore alla quantità richiesta.
-
La suddivisione in blocchi gerarchici non è consigliata quando si utilizza il bucket vettoriale S3 come archivio vettoriale. Quando si utilizza un numero elevato di token per il chunking (oltre 8000 token combinati), è possibile che si verifichino limitazioni nelle dimensioni dei metadati.
Per il chunking gerarchico, Knowledge Base per Amazon Bedrock supporta la specifica di due livelli o della seguente profondità per il chunking:
-
Principale: è stata impostata la dimensione massima dei token dei blocchi principali.
-
Secondario: è stata impostata la dimensione massima dei token dei blocchi secondari.
È inoltre possibile impostare i token di sovrapposizione tra blocchi. Si tratta del numero assoluto di token di sovrapposizione tra blocchi principali consecutivi e blocchi secondari consecutivi.
Chunking semantico
Il chunking semantico è una tecnica di elaborazione del linguaggio naturale che divide il testo in blocchi significativi per migliorare la comprensione e il recupero delle informazioni. Mira a migliorare la precisione del recupero concentrandosi sul contenuto semantico piuttosto che sulla semplice struttura sintattica. In questo modo, può facilitare con maggiore precisione l’estrazione e la manipolazione delle informazioni pertinenti.
Quando si configura il chunking semantico, è possibile specificare i seguenti iperparametri.
-
Numero massimo di token: il numero massimo di token che devono essere inclusi in un singolo blocco, rispettando i limiti delle frasi.
-
Dimensione del buffer: per una determinata frase, la dimensione del buffer definisce il numero di frasi circostanti da aggiungere per la creazione degli embedding. Ad esempio, una dimensione del buffer pari a 1 dà come risultato 3 frasi (frase corrente, precedente e successiva) da combinare e incorporare. Questo parametro può influenzare la quantità di testo esaminata insieme per determinare i limiti di ogni blocco, influendo sulla granularità e sulla coerenza dei blocchi risultanti. Una dimensione del buffer di dimensioni maggiori potrebbe acquisire più contesto, ma anche introdurre disturbi, mentre una dimensione del buffer più ridotta potrebbe non avere un contesto importante, ma garantisce un chunking più preciso.
-
Soglia percentile del punto di interruzione: la soglia percentile della frase per tracciare punti di interruzione tra le frasi. distance/dissimilarity Una soglia più alta richiede che le frasi siano più distinguibili per poter essere suddivise in blocchi diversi. Una soglia più alta si traduce in un minor numero di blocchi e in genere in una dimensione media dei blocchi maggiore.
Nota
L’utilizzo del chunking semantico comporta costi aggiuntivi dovuti all’utilizzo di un modello di fondazione. Il costo dipende dalla quantità di dati di cui disponi. Consulta Prezzi di Amazon Bedrock
per ulteriori informazioni sul costo dei modelli di fondazione.
Suddivisione multimodale dei contenuti
Per i contenuti multimodali (audio, video, immagini), il comportamento della suddivisione in blocchi è diverso da quello dei documenti di testo:
-
Incorporamenti multimodali Nova: il chunking avviene a livello del modello di incorporamento. È possibile configurare la durata dei blocchi audio e video da 1 a 30 secondi (impostazione predefinita: 5 secondi). Per i file video, si applica solo la durata del blocco video, anche se il video contiene audio. La durata del blocco audio si applica solo ai file audio autonomi.
-
Parser Bedrock Data Automation (BDA): il contenuto viene prima convertito in testo (trascrizioni e riepiloghi delle scene), quindi al testo convertito vengono applicate le strategie standard di suddivisione in blocchi del testo.
Nota
Quando si utilizzano gli incorporamenti multimodali Nova, le strategie di suddivisione in blocchi di testo configurate nella knowledge base influiscono solo sui documenti di testo nella fonte dati, non sui file audio, video o di immagine.