Chunking standard Chunking gerarchico Chunking semantico Suddivisione multimodale dei contenuti

Come funziona il chunking dei contenuti per le knowledge base

Quando acquisisci i dati, Amazon Bedrock divide innanzitutto i documenti o i contenuti in blocchi gestibili per un recupero efficiente dei dati. I blocchi vengono quindi convertiti in embedding e scritti in un indice vettoriale (rappresentazione vettoriale dei dati), mantenendo al contempo una mappatura al documento originale. Gli embedding vettoriali consentono di confrontare quantitativamente i testi.

Chunking standard

Amazon Bedrock supporta i seguenti approcci standard al chunking:

Nota

Le strategie di suddivisione in blocchi di testo si applicano solo ai documenti di testo. Per i contenuti multimodali (audio, video, immagini), la suddivisione in blocchi avviene a livello del modello di incorporamento, non tramite queste strategie basate su testo.

Fixed-size suddivisione in blocchi: è possibile configurare la dimensione desiderata dei blocchi specificando il numero di token per blocco e una percentuale di sovrapposizione, in modo da garantire la flessibilità necessaria per allinearsi ai requisiti specifici. È possibile impostare il numero massimo di token che non deve essere superato per un blocco e la percentuale di sovrapposizione tra blocchi consecutivi.

Nota
Per i contenuti analizzati (ad esempio contenuti che utilizzano parser avanzati o convertiti da HTML), Amazon Bedrock Knowledge Bases può suddividere i contenuti in blocchi per ottimizzarli e ottenere i migliori risultati. Il chunker rispetta i limiti logici del documento (come pagine o sezioni) e non unisce i contenuti oltre questi limiti, anche quando l'aumento della dimensione massima del token consentirebbe altrimenti l'aggiunta di blocchi più grandi.
Chunking predefinito: suddivide i contenuti in blocchi di testo di circa 300 token. Il processo di chunking rispetta i limiti delle frasi, garantendo che le frasi complete vengano conservate all’interno di ogni blocco.

Puoi inoltre scegliere di non applicare il chunking per i tuoi documenti. Ogni documento viene trattato come un singolo blocco di testo. Potresti voler preelaborare i tuoi documenti suddividendoli in file separati prima di scegliere nessun blocco come suddivisione in blocchi. approach/strategy Se scegli di non suddividere in blocchi i tuoi documenti, non puoi visualizzare il numero di pagina nella citazione o filtrare in base ai metadati x-amz-bedrock-kb-document-page-number. field/attribute

Chunking gerarchico

Il chunking gerarchico implica l’organizzazione delle informazioni in strutture annidate di blocchi principali e secondari. Quando si crea un’origine dati, è possibile definire la dimensione del blocco principale, la dimensione del blocco secondario e il numero di token che si sovrappongono tra ogni blocco. Durante il recupero, il sistema recupera inizialmente i blocchi secondari, ma li sostituisce con blocchi principali più ampi in modo da fornire al modello un contesto più completo.

Gli embedding di testo di piccole dimensioni sono più precisi, ma il recupero mira a un contesto completo. Un sistema di chunking gerarchico bilancia queste esigenze sostituendo, se appropriato, i blocchi secondari recuperati con i blocchi principali.

Nota

Poiché i blocchi secondari vengono sostituiti dai blocchi principali durante il recupero, il numero di risultati restituito potrebbe essere inferiore alla quantità richiesta.
La suddivisione in blocchi gerarchici non è consigliata quando si utilizza il bucket vettoriale S3 come archivio vettoriale. Quando si utilizza un numero elevato di token per il chunking (oltre 8000 token combinati), è possibile che si verifichino limitazioni nelle dimensioni dei metadati.

Per il chunking gerarchico, Knowledge Base per Amazon Bedrock supporta la specifica di due livelli o della seguente profondità per il chunking:

Principale: è stata impostata la dimensione massima dei token dei blocchi principali.
Secondario: è stata impostata la dimensione massima dei token dei blocchi secondari.

È inoltre possibile impostare i token di sovrapposizione tra blocchi. Si tratta del numero assoluto di token di sovrapposizione tra blocchi principali consecutivi e blocchi secondari consecutivi.

Chunking semantico

Il chunking semantico è una tecnica di elaborazione del linguaggio naturale che divide il testo in blocchi significativi per migliorare la comprensione e il recupero delle informazioni. Mira a migliorare la precisione del recupero concentrandosi sul contenuto semantico piuttosto che sulla semplice struttura sintattica. In questo modo, può aiutare l'estrazione e la manipolazione più precise delle informazioni pertinenti.

Quando si configura il chunking semantico, è possibile specificare i seguenti iperparametri.

Numero massimo di token: il numero massimo di token che devono essere inclusi in un singolo blocco, rispettando i limiti delle frasi.
Dimensione del buffer: per una determinata frase, la dimensione del buffer definisce il numero di frasi circostanti da aggiungere per la creazione degli embedding. Ad esempio, una dimensione del buffer pari a 1 dà come risultato 3 frasi (frase corrente, precedente e successiva) da combinare e incorporare. Questo parametro può influenzare la quantità di testo esaminata insieme per determinare i limiti di ogni blocco, influendo sulla granularità e sulla coerenza dei blocchi risultanti. Una dimensione del buffer di dimensioni maggiori potrebbe acquisire più contesto, ma anche introdurre disturbi, mentre una dimensione del buffer più ridotta potrebbe non avere un contesto importante, ma garantisce un chunking più preciso.
Soglia percentile del punto di interruzione: la soglia percentile della frase distance/dissimilarity per tracciare punti di interruzione tra le frasi. Una soglia più alta richiede che le frasi siano più distinguibili per essere suddivise in blocchi diversi. Una soglia più alta si traduce in un minor numero di blocchi e in genere in una dimensione media dei blocchi maggiore.

Nota
L’utilizzo del chunking semantico comporta costi aggiuntivi dovuti all’utilizzo di un modello di fondazione. Il costo dipende dalla quantità di dati di cui disponi. Consulta Prezzi di Amazon Bedrock per ulteriori informazioni sul costo dei modelli di fondazione.

Suddivisione multimodale dei contenuti

Per i contenuti multimodali (audio, video, immagini), il comportamento della suddivisione in blocchi è diverso da quello dei documenti di testo:

Incorporamenti multimodali Nova: il chunking avviene a livello del modello di incorporamento. È possibile configurare la durata dei blocchi audio e video da 1 a 30 secondi (impostazione predefinita: 5 secondi). Per i file video, si applica solo la durata del blocco video, anche se il video contiene audio. La durata del blocco audio si applica solo ai file audio autonomi.
Parser Bedrock Data Automation (BDA): il contenuto viene prima convertito in testo (trascrizioni e riepiloghi delle scene), quindi al testo convertito vengono applicate le strategie standard di suddivisione in blocchi del testo.

Nota

Quando si utilizzano gli incorporamenti multimodali Nova, le strategie di suddivisione in blocchi di testo configurate nella knowledge base influiscono solo sui documenti di testo nella fonte dati, non sui file audio, video o di immagine.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Personalizzazione di una knowledge base

Opzioni di analisi