Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizzare l’importazione per un’origine dati
È possibile personalizzare l'ingestione vettoriale quando si collega un'origine dati in Console di gestione AWS o modificando il valore del vectorIngestionConfiguration campo quando si invia una richiesta. CreateDataSource
Selezionare un argomento per scoprire come includere configurazioni per personalizzare l’importazione durante la connessione a un’origine dati:
Argomenti
Scegliere lo strumento da utilizzare per l’analisi
È possibile personalizzare il modo in cui vengono analizzati i documenti nei dati. Per ulteriori informazioni sulle opzioni per l’analisi dei dati in Knowledge Base per Amazon Bedrock, consulta Opzioni di analisi per l’origine dati.
avvertimento
Dopo la connessione all’origine dati, non è possibile modificare la strategia di analisi. Per utilizzare una strategia di analisi diversa, è possibile aggiungere una nuova origine dati.
Non è possibile aggiungere una posizione S3 per archiviare dati multimodali (tra cui immagini, figure, grafici e tabelle) dopo aver creato una knowledge base. Per includere i dati multimodali e utilizzare un parser che li supporti, è necessario creare una nuova knowledge base.
I passaggi necessari per la scelta di una strategia di analisi dipendono dal fatto che utilizzi l' Console di gestione AWS API Amazon Bedrock e dal metodo di analisi scelto. Se viene scelto un metodo di analisi che supporta i dati multimodali, è necessario specificare un URI S3 in cui archiviare i dati multimodali estratti dai documenti. Questi dati possono essere restituiti nella query della knowledge base.
-
In Console di gestione AWS, procedi come segue:
-
Selezionare la strategia di analisi quando ci si connette a un’origine dati durante la configurazione di una knowledge base o quando si aggiunge una nuova origine dati alla knowledge base esistente.
-
(Se si sceglie Amazon Bedrock Data Automation o un modello di fondazione come strategia di analisi) Specificare un URI S3 in cui archiviare i dati multimodali estratti dai documenti nella sezione Destinazione di archiviazione multimodale quando si seleziona un modello di embedding e si configura l’archivio vettoriale. In questa fase è inoltre possibile utilizzare una chiave gestita dal cliente per criptare i dati S3.
-
-
Nell’API Amazon Bedrock, procedere come segue:
-
(Se prevedi di utilizzare Amazon Bedrock Data Automation o un modello base come strategia di analisi) VectorKnowledgeBaseConfigurationIncludi una CreateKnowledgeBaserichiesta. SupplementalDataStorageLocation
-
ParsingConfigurationIncludi un nel
parsingConfigurationcampo della VectorIngestionConfigurationCreateDataSourcerichiesta.Nota
Se si omette questa configurazione, Knowledge Base per Amazon Bedrock utilizza il parser predefinito di Amazon Bedrock.
-
Per ulteriori dettagli su come specificare una strategia di analisi nell’API, espandere la sezione corrispondente alla strategia di analisi che si desidera utilizzare:
Per utilizzare il parser predefinito, non includere un campo parsingConfiguration nella VectorIngestionConfiguration.
Per utilizzare il parser Amazon Bedrock Data Automation, specifica BEDROCK_DATA_AUTOMATION nel parsingStrategy campo di ParsingConfiguration e includi un BedrockDataAutomationConfigurationnel bedrockDataAutomationConfiguration campo, come nel seguente formato:
{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }
Per utilizzare un modello di base come parser, specifica il BEDROCK_FOUNDATION_MODEL nel parsingStrategy campo di ParsingConfiguration e includi un BedrockFoundationModelConfigurationnel bedrockFoundationModelConfiguration campo, come nel seguente formato:
{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }
Scegliere una strategia di chunking
È possibile personalizzare il modo in cui i documenti contenuti nei dati vengono suddivisi in blocchi per l’archiviazione e il recupero. Per ulteriori informazioni sulle opzioni per il chunking dei dati in Knowledge Base per Amazon Bedrock, consulta Come funziona il chunking dei contenuti per le knowledge base.
avvertimento
Dopo la connessione all’origine dati, non è possibile modificare la strategia di chunking.
Nella Console di gestione AWS scegli la strategia di suddivisione in blocchi quando ti connetti a una fonte di dati. Con l'API Amazon Bedrock, includi un ChunkingConfigurationnel chunkingConfiguration campo di VectorIngestionConfiguration.
Nota
Se si omette questa configurazione, Amazon Bedrock divide i contenuti in blocchi di circa 300 token, preservando i limiti delle frasi.
Espandere la sezione corrispondente alla strategia di analisi desiderata:
Per trattare ogni documento dell’origine dati come un singolo blocco di origine, specificare NONE nel campo chunkingStrategy della ChunkingConfiguration, come nel seguente formato:
{ "chunkingStrategy": "NONE" }
Per dividere ogni documento della tua fonte di dati in blocchi di circa le stesse dimensioni, specifica FIXED_SIZE nel chunkingStrategy campo di ChunkingConfiguration e includi un FixedSizeChunkingConfigurationnel fixedSizeChunkingConfiguration campo, come nel seguente formato:
{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
Per dividere ogni documento nell’origine dati in due livelli, in cui il secondo livello contiene blocchi più piccoli derivati dal primo livello, specificare HIERARCHICAL nel campo chunkingStrategy della ChunkingConfiguration e includere il campo hierarchicalChunkingConfiguration, come nel seguente formato:
{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }
Per dividere ogni documento nell’origine dati in blocchi che danno priorità al significato semantico rispetto alla struttura sintattica, specificare SEMANTIC nel campo chunkingStrategy della ChunkingConfiguration e includere il campo, come semanticChunkingConfiguration nel seguente formato:
{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }
Utilizzare una funzione Lambda durante l’importazione
È possibile post-elaborare il modo in cui i blocchi di origine dati vengono scritti nell’archivio vettoriale con una funzione Lambda nei seguenti modi:
-
Includere la logica di chunking per fornire una strategia di chunking personalizzata.
-
Includere la logica per specificare i metadati a livello di blocco.
Per ulteriori informazioni sulla creazione di una funzione Lambda; personalizzata per l’importazione, consultare Utilizzo di una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati. Nella Console di gestione AWS scegli la funzione Lambda quando ti connetti a un'origine dati. Con l'API Amazon Bedrock, includi un CustomTransformationConfigurationnel CustomTransformationConfiguration campo VectorIngestionConfiguratione specifichi l'ARN della Lambda, come nel seguente formato:
{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }
È inoltre necessario specificare la posizione S3 in cui archiviare l’output dopo aver applicato la funzione Lambda.
Dopo aver applicato una delle opzioni di chunking disponibili in da Amazon Bedrock, è possibile includere il campo chunkingConfiguration per applicare la funzione Lambda.