Opzioni di analisi per l’origine dati

L’analisi si riferisce alla comprensione e all’estrazione di contenuti dai dati grezzi. Knowledge Base per Amazon Bedrock offre le seguenti opzioni per l’analisi dell’origine dati durante l’importazione:

Parser predefinito di Amazon Bedrock: analizza solo il testo nei file di testo, inclusi i file .txt, .md, .html, .doc/.docx, .xls/.xlsx e .pdf. Questo parser non comporta alcun costo di utilizzo.

Nota
Poiché il parser predefinito produce solo testo, se i documenti includono figure, grafici, tabelle o immagini, ti consigliamo di utilizzare Amazon Bedrock Data Automation o un modello di fondazione come parser al posto di quello predefinito. Amazon Bedrock Data Automation e i modelli di fondazione possono estrarre questi elementi dai documenti e restituirli come output.
Knowledge Base per Amazon Bedrock offre i seguenti parser per analizzare dati multimodali, tra cui figure, grafici e tabelle in file .pdf, oltre ai file di immagine .jpeg e .png. Questi parser possono anche estrarre queste figure, grafici, tabelle e immagini e archiviarli come file in una destinazione S3 specificata durante la creazione della knowledge base. Durante il recupero della knowledge base, questi file possono essere restituiti nella risposta o nell’attribuzione dell’origine.
- Amazon Bedrock Data Automation: un servizio completamente gestito che elabora in modo efficace i dati multimodali, senza la necessità di fornire ulteriori prompt. Il costo di questo parser dipende dal numero di pagine del documento o dal numero di immagini da elaborare. Per ulteriori informazioni su questo servizio, consulta Amazon Bedrock Data Automation.
- Modelli di base: elabora dati multimodali utilizzando un modello di fondazione. Questo parser offre la possibilità di personalizzare il prompt predefinito utilizzato per l’estrazione dei dati. Il costo di questo parser dipende dal numero di token di input e output elaborati dal modello di fondazione. Per un elenco di modelli che supportano l’analisi dei dati di Knowledge Base per Amazon Bedrock, consulta Regioni e modelli supportati per l’analisi.

Importante

Se scegli Amazon Bedrock Data Automation o modelli di fondazione come parser, il metodo scelto verrà utilizzato per analizzare tutti i file .pdf nell’origine dati, anche se i file .pdf contengono solo testo. Il parser predefinito non verrà utilizzato per analizzare questi file .pdf. L’account comporta costi per l’utilizzo di Amazon Bedrock Data Automation o del modello di fondazione per l’analisi di questi file.

Quando scegli la modalità di analisi dei dati, tieni presente quanto segue:

Che i dati siano puramente testuali o che contengano dati multimodali, come immagini, grafici e diagrammi, è necessario che la Knowledge Base sia in grado di eseguire query.
Se si desidera poter personalizzare il prompt usato per istruire il modello su come analizzare i dati.
Il costo del parser. Amazon Bedrock Data Automation utilizza prezzi per pagina, mentre i parser del modello di fondazione addebitano i costi in base ai token di input e output. Per maggiori informazioni, consulta Prezzi di Amazon Bedrock.
Il limite di dimensione totale del file. Quando si utilizzano modelli di base come parser, la dimensione totale del file in tutti i file non deve essere superiore a 100 GB.

Per informazioni su come configurare l’analisi della knowledge base, consulta la configurazione della connessione per l’origine dati in Connettere un’origine dati alla knowledge base.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Chunking dei contenuti

Utilizzo di una funzione Lambda per l’importazione dei dati

Opzioni di analisi per l’origine dati

Nota

Importante