Dividere i documenti durante l’utilizzo dei progetti - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dividere i documenti durante l’utilizzo dei progetti

Amazon BedrockData Automation (BDA) supporta la suddivisione dei documenti durante l’utilizzo dell’API Amazon Bedrock. Se abilitata, la suddivisione consente a BDA di prendere un PDF contenente più documenti logici e dividerlo in documenti separati per l’elaborazione.

Una volta completata la suddivisione, ogni segmento del documento diviso viene elaborato in modo indipendente. Ciò significa che un documento di input può contenere diversi tipi di documenti. Ad esempio, se disponi di un PDF contenente 3 estratti conto bancari e un documento W2, la suddivisione tenterà di dividerlo in 4 documenti separati da elaborare singolarmente.

La suddivisione automatica BDA supporta file con un massimo di 3.000 pagine e singoli documenti fino a 20 pagine ciascuno.

L’opzione per dividere i documenti è disattivata per impostazione predefinita, ma può essere attivata durante l’utilizzo dell’API. Di seguito, è riportato un esempio di creazione di un progetto con la suddivisione abilitata. Le ellissi rappresentano i blueprint aggiuntivi forniti al progetto.

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

La parte che abilita il processo di suddivisione è la riga overrideConfiguration. Questa riga configura la suddivisione e consente di passare più documenti all’interno dello stesso file.

I documenti vengono suddivisi in base ai limiti semantici relativi.

La suddivisione dei documenti avviene indipendentemente dall’applicazione dei blueprint e i documenti suddivisi verranno abbinati al blueprint più vicino. Per ulteriori informazioni su come BDA fa corrispondere i blueprint, consulta Informazioni sulla corrispondenza dei blueprint.

Informazioni sulla corrispondenza dei blueprint

La corrispondenza dei blueprint si basa sui seguenti elementi:

  • Nome del blueprint

  • Descrizione del blueprint

  • Campi del blueprint

Durante l’elaborazione dei documenti, puoi fornire più blueprint con cui effettuare la corrispondenza. Ciò consente di elaborare diversi tipi di documenti con i blueprint appropriati. È possibile fornire più ID blueprint durante l’invocazione dell’API di automazione dei dati e BDA cercherà di far corrispondere ogni documento al blueprint più adatto. Ciò consente l’elaborazione di tipi di documenti misti in un singolo batch. Tale procedura risulta utile quando si prevede che i documenti siano di diversi tipi (ad esempio estratti conto bancari, fatture, passaporti).

Se ti occorrono blueprint separati perché i formati dei documenti sono molto diversi o richiedono prompt specializzati, la creazione di un blueprint per tipo di documento può aiutarti a trovare la corrispondenza. Per ulteriori informazioni sulla creazione di blueprint utili, consulta Best practice per la creazione di blueprint.

Best practice per la creazione di blueprint

Per sfruttare al massimo i blueprint, attieniti alle best practice seguenti:

  • Per facilitare la corrispondenza, occorre essere espliciti e dettagliati nei nomi e nelle descrizioni dei blueprint

  • La fornitura di più blueprint pertinenti consente a BDA di selezionare la soluzione migliore. Crea blueprint separati per formati di documenti significativamente diversi

  • Prendi in considerazione la creazione di blueprint specializzati per ogni fornitore/origine del documento, se hai bisogno della massima precisione

  • Non includere due blueprint dello stesso tipo in un progetto (ad esempio due blueprint W2). Le informazioni contenute nel documento stesso e nel blueprint vengono utilizzate per elaborare i documenti e l’inclusione di più blueprint dello stesso tipo in un progetto comporterà prestazioni peggiori.

Sfruttando la suddivisione dei documenti e la corrispondenza di più blueprint, BDA è in grado di gestire in modo più flessibile diversi set di documenti, applicando al contempo la logica di estrazione più appropriata a ciascuno.