Granularidad de la respuesta Configuración de salida Formato de texto Cuadros delimitadores y campos generativos JSON de metadatos de formato de archivos adicionales

Documentos de

La salida estándar de documentos le permite establecer la granularidad de la respuesta que le interesa, así como establecer el formato de salida y el formato de texto en la salida. A continuación, se muestran algunas de las salidas que puede activar.

nota

BDA puede procesar archivos DOCX. Para procesar archivos DOCX, se convierten en PDFs. Esto significa que la asignación de números de página no funcionará para los archivos DOCX. Si selecciona la opción JSON+ y la granularidad de la página, las imágenes convertidas PDFs se cargarán en el depósito de salida.

Granularidad de la respuesta

La granularidad de la respuesta determina qué tipo de respuesta desea recibir al extraer el texto del documento. Cada nivel de granularidad proporciona respuestas cada vez más separadas: la granularidad de página proporciona todo el texto extraído junto y la granularidad de palabra proporciona cada palabra como una respuesta independiente. Los niveles de granularidad disponibles son:

Granularidad de nivel de página: está habilitada de forma predeterminada. La granularidad de nivel de página proporciona cada página del documento en el formato de salida de texto que elija. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
Granularidad de nivel de elemento (diseño): está habilitada de forma predeterminada. Proporciona el texto del documento en el formato de salida que elija, separado en diferentes elementos. Estos elementos pueden ser figuras, tablas o párrafos. Se devuelven en un orden de lectura lógico en función de la estructura del documento. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
Granularidad de nivel de palabra: proporciona información sobre palabras individuales sin utilizar un análisis de contexto más amplio. Proporciona cada palabra y su ubicación en la página.

Configuración de salida

La configuración de salida determina la forma en que se estructurarán los resultados descargados. Esta configuración es exclusiva de la consola. Las opciones de configuración de salida son:

JSON: la estructura de salida predeterminada para el análisis de documentos. Proporciona un archivo de salida JSON con la información de los ajustes de configuración.
- API asíncrona: la salida de JSON para la InvokeDataAutomationAsyncAPI asíncrona es solo S3.
- InvokeDataAutomationAPI de sincronización: la salida de JSON se puede configurar en S3 o en línea mediante el aprovechamiento. outputconfiguration Si se selecciona S3, el JSON de salida solo va a S3 (no en línea). Si no se proporciona S3, la salida de la API de sincronización solo admite JSON en línea.
Archivos JSON+: solo están disponibles para la API asíncrona. InvokeDataAutomationAsync El uso de esta configuración genera una salida JSON y archivos que se corresponden con diferentes salidas. Por ejemplo, esta configuración proporciona un archivo de texto para la extracción general del texto, un archivo de marcado para el texto con marcado estructural y archivos CSV para cada tabla que se encuentre en el texto. Las figuras ubicadas dentro de un documento se guardarán, así como los recortes de figuras y las imágenes rectificadas. Además, si está procesando un archivo DOCX y tiene seleccionada esta opción, el PDF convertido del archivo DOCX estará en la carpeta de salida. Estas salidas se encuentran en standard_output/logical_doc_id/assets/ en la carpeta de salida.

nota

La API de sincronización no genera ningún archivo adicional aparte del JSON. El JSON de salida contiene solo el formato de texto que se seleccionó como parte del formato de texto de salida estándar. La API de sincronización no generará recortes de figuras ni imágenes rectificadas.
La API de sincronización no admite DocX.

Formato de texto

El formato de texto determina los diferentes tipos de textos que se proporcionarán mediante las diversas operaciones de extracción. Puede seleccionar cualquier número de las siguientes opciones para el formato de texto.

Texto sin formato: esta configuración proporciona una salida de solo texto sin incluir ningún elemento de formato o de marcado.
Texto con marcado: la configuración de salida predeterminada para la salida estándar. Proporciona texto con elementos de marcado integrados.
Texto con HTML: proporciona texto con elementos HTML integrados en la respuesta.
CSV: proporciona una salida estructurada en CSV para las tablas del documento. Esto solo dará una respuesta para las tablas y no para otros elementos del documento.

Cuadros delimitadores y campos generativos

Para los documentos, hay dos opciones de respuesta que cambian su salida en función de la granularidad seleccionada. Son los cuadros delimitadores y los campos generativos. Si selecciona los cuadros delimitadores, obtendrá un esquema visual del elemento o la palabra en la que haya hecho clic en el menú desplegable de respuesta de la consola. Esto le permite localizar con mayor facilidad determinados elementos de su respuesta. Los cuadros delimitadores se muestran en el JSON como las coordenadas de las cuatro esquinas del cuadro.

Al seleccionar los campos generativos, se genera un resumen del documento, tanto en versión de 10 palabras como de 250 palabras. A continuación, si selecciona elementos como una granularidad de respuesta, generará un título descriptivo de cada figura detectada en el documento. Las figuras incluyen elementos como tablas, gráficos e imágenes.

Async

Esta sección se centra en los diferentes objetos de respuesta que se reciben al ejecutar la operación de la API InvokeDataAutomationAsync en un archivo de documento. A continuación, desglosaremos cada sección del objeto de respuesta y, después, veremos una respuesta rellena completa para un documento de ejemplo. La primera sección que recibiremos es metadata.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

La primera sección anterior proporciona información general sobre los metadatos asociados al documento. Junto con la información de S3, en esta sección también se indica qué modalidad se seleccionó para la respuesta.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

La sección anterior proporciona información de granularidad de nivel de documento. Las secciones de descripción y resumen son los campos generados en función del documento. La sección de representación proporciona el contenido real del documento con varios estilos de formato. Por último, las estadísticas contienen información sobre el contenido real del documento, como cuántos elementos semánticos hay, cuántas figuras, palabras, líneas, etc.

Esta es la información de una entidad de tabla. En el caso de las solicitudes InvokeDataAutomationAsync (asíncronas), además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información csv e imágenes recortadas de la tabla en cubos de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enviarán al compartimento s3 del prefijo establecido en la solicitud. InvokeDataAutomationAsync Para la solicitud InvokeDataAutomation (de sincronización), no se admiten los archivos csv ni la imagen recortada de la tabla en los cubos S3.

Al procesar un PDF, la sección de estadísticas de la respuesta también incluirá hyperlinks_count, que indica cuántos hipervínculos hay en el documento.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Esta es la entidad que se utiliza para el texto de un documento y se indica mediante la línea TYPE de la respuesta. De nuevo, la representación muestra el texto en diferentes formatos. reading_order muestra cuándo un lector vería lógicamente el texto. Se trata de un orden semántico basado en las claves y valores asociados. Por ejemplo, asocia los títulos de los párrafos con sus respectivos párrafos en orden de lectura. page_indices indica en qué páginas se encuentra el texto. A continuación está la información de ubicación, con un cuadro delimitador de texto si se activó en la respuesta. Por último, tenemos el subtipo de entidad. Este subtipo proporciona información más detallada sobre el tipo de texto que se está detectando. Para ver una lista completa, consulte la Referencia de la API.


{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Esta es la información de una entidad de tabla. Además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información del CSV y las imágenes recortadas de la tabla en buckets de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enviarán al compartimento s3 del prefijo establecido en la solicitud. InvokeDataAutomation


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

Esta es la entidad que se utiliza para las figuras, por ejemplo, en los gráficos y tablas de documentos. Al igual que en las tablas, estas figuras se recortarán y las imágenes se enviarán al bucket de s3 establecido en el prefijo. Además, recibirá un sub_type y una respuesta con el título de la figura para el texto del título, y una indicación del tipo de figura que es.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

La última de las entidades que extraemos mediante la salida estándar son las páginas. Las páginas son iguales que las entidades de texto, pero además incluyen números de página, que indican el número detectado en cada una de ellas.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Estos dos últimos elementos son para partes de texto individuales. La granularidad de nivel de palabra devuelve una respuesta para cada palabra, mientras que el resultado predeterminado solo muestra líneas de texto.

Sync

Esta sección se centra en los diferentes objetos de respuesta que se reciben al ejecutar la operación de la API InvokeDataAutomation en un archivo de documento. A continuación, desglosaremos cada sección del objeto de respuesta y, después, veremos una respuesta rellena completa para un documento de ejemplo. La primera sección que recibiremos es metadata.



            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },

La primera sección anterior proporciona información general sobre los metadatos asociados al documento. Como la InvokeDataAutomation API sincrónica no admite actualmente la división de documentos, logical_subdocument_id siempre es igual a 1.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

Nota: A diferencia de la solicitud asíncrona, la InvokeDataAutomationAsync InvokeDataAutomation solicitud sincrónica no admite la devolución de información csv ni de imágenes recortadas de la tabla en depósitos de S3.



{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Esta es la entidad que se utiliza para el texto de un documento y se indica con la línea TYPE en la respuesta. Una vez más, la representación muestra el texto en diferentes formatos. reading_order muestra cuándo un lector vería el texto de forma lógica. Se trata de un orden semántico basado en las claves y valores asociados. Por ejemplo, asocia los títulos de los párrafos a sus párrafos respectivos en orden de lectura. page_indices indica en qué páginas se encuentra el texto. A continuación está la información de ubicación, con un cuadro delimitador de texto si se activó en la respuesta. Por último, tenemos el subtipo de entidad. Este subtipo proporciona información más detallada sobre el tipo de texto que se está detectando. Para ver una lista completa, consulte la Referencia de la API.



{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},

Esta es la información de una entidad de tabla. La información del CSV muestra los distintos encabezados, pies de página y títulos.


{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},

Esta es la entidad que se utiliza para las figuras, por ejemplo, en los gráficos y tablas de documentos. Recibirás una sub_type respuesta con un título figurativo para el texto del título y una indicación de qué tipo de figura se trata.


"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

JSON de metadatos de formato de archivos adicionales

Cuando recibas los archivos adicionales de la marca de formatos de archivo adicionales, recibirás un archivo JSON para las imágenes rectificadas que se extraigan. BDA rectifica las imágenes giradas utilizando una homografía para rotar la imagen en un ángulo de 90 grados. A continuación se muestra un ejemplo del JSON:



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

Las esquinas representan las esquinas detectadas de una imagen y se utilizan para formar una homografía del documento. Esta homografía se utiliza para rotar la imagen manteniendo sus otras propiedades.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Salida estándar en Automatización de Datos de Bedrock

Imágenes