Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Documentos de
La salida estándar de documentos le permite establecer la granularidad de la respuesta que le interesa, así como establecer el formato de salida y el formato de texto en la salida. A continuación, se muestran algunas de las salidas que puede activar.
nota
BDA puede procesar archivos DOCX. Para procesar los archivos DOCX, estos se convierten en archivos PDF. Esto significa que la asignación de números de página no funcionará para los archivos DOCX. Si selecciona la opción JSON+ y la granularidad de página, las imágenes de los archivos PDF convertidos se cargarán en el bucket de salida.
Granularidad de la respuesta
La granularidad de la respuesta determina el tipo de respuesta que desea recibir de la extracción del texto del documento. Cada nivel de granularidad proporciona respuestas cada vez más separadas: la granularidad de página proporciona todo el texto extraído junto y la granularidad de palabra proporciona cada palabra como una respuesta independiente. Los niveles de granularidad disponibles son:
-
Granularidad de nivel de página: está habilitada de forma predeterminada. La granularidad de nivel de página proporciona cada página del documento en el formato de salida de texto que elija. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
-
Granularidad de nivel de elemento (diseño): está habilitada de forma predeterminada. Proporciona el texto del documento en el formato de salida que elija, separado en diferentes elementos. Estos elementos pueden ser figuras, tablas o párrafos. Se devuelven en un orden de lectura lógico en función de la estructura del documento. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
-
Granularidad de nivel de palabra: proporciona información sobre palabras individuales sin utilizar un análisis de contexto más amplio. Proporciona cada palabra y su ubicación en la página.
Configuración de salida
La configuración de salida determina la forma en que se estructurarán los resultados descargados. Esta configuración es exclusiva de la consola. Las opciones de configuración de salida son:
-
JSON: la estructura de salida predeterminada para el análisis de documentos. Proporciona un archivo de salida JSON con la información de los ajustes de configuración.
-
Archivos JSON+: al usar esta configuración, se genera una salida JSON y archivos que se corresponden con diferentes salidas. Por ejemplo, esta configuración proporciona un archivo de texto para la extracción general del texto, un archivo de marcado para el texto con marcado estructural y archivos CSV para cada tabla que se encuentre en el texto. Las figuras ubicadas dentro de un documento se guardarán, así como los recortes de figuras y las imágenes rectificadas. Además, si está procesando un archivo DOCX y tiene seleccionada esta opción, el PDF convertido del archivo DOCX estará en la carpeta de salida. Estas salidas se encuentran en
standard_output/en la carpeta de salida.logical_doc_id/assets/
Formato de texto
El formato de texto determina los diferentes tipos de textos que se proporcionarán mediante las diversas operaciones de extracción. Puede seleccionar cualquier número de las siguientes opciones para el formato de texto.
-
Texto sin formato: esta configuración proporciona una salida de solo texto sin incluir ningún elemento de formato o de marcado.
-
Texto con marcado: la configuración de salida predeterminada para la salida estándar. Proporciona texto con elementos de marcado integrados.
-
Texto con HTML: proporciona texto con elementos HTML integrados en la respuesta.
-
CSV: proporciona una salida estructurada en CSV para las tablas del documento. Esto solo dará una respuesta para las tablas y no para otros elementos del documento.
Cuadros delimitadores y campos generativos
Para los documentos, hay dos opciones de respuesta que cambian su salida en función de la granularidad seleccionada. Son los cuadros delimitadores y los campos generativos. Si selecciona los cuadros delimitadores, obtendrá un esquema visual del elemento o la palabra en la que haya hecho clic en el menú desplegable de respuesta de la consola. Esto le permite localizar con mayor facilidad determinados elementos de su respuesta. Los cuadros delimitadores se muestran en el JSON como las coordenadas de las cuatro esquinas del cuadro.
Al seleccionar los campos generativos, se genera un resumen del documento, tanto en versión de 10 palabras como de 250 palabras. A continuación, si selecciona elementos como una granularidad de respuesta, generará un título descriptivo de cada figura detectada en el documento. Las figuras incluyen elementos como tablas, gráficos e imágenes.
Respuesta de documento de Automatización de Datos de Bedrock
Esta sección trata de los diferentes objetos de respuesta que se reciben al ejecutar la operación de API InvokeDataAutomation en un archivo de documento. A continuación, desglosaremos cada sección del objeto de respuesta y, después, veremos una respuesta rellena completa para un documento de ejemplo. La primera sección que recibiremos es metadata.
"metadata":{ "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX", "semantic_modality":"DOCUMENT", "s3_bucket":"bucket", "s3_prefix":"prefix" },
La primera sección anterior proporciona información general sobre los metadatos asociados al documento. Junto con la información de S3, en esta sección también se indica qué modalidad se seleccionó para la respuesta.
"document":{ "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "description":"document text", "summary":"summary text", "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 } },
La sección anterior proporciona información de granularidad de nivel de documento. Las secciones de descripción y resumen son los campos generados en función del documento. La sección de representación proporciona el contenido real del documento con varios estilos de formato. Por último, las estadísticas contienen información sobre el contenido real del documento, como cuántos elementos semánticos hay, cuántas figuras, palabras, líneas, etc.
Esta es la información de una entidad de tabla. Además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información del CSV y las imágenes recortadas de la tabla en buckets de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enrutarán al bucket de s3 del prefijo establecido en la solicitud InvokeDataAutomationAsync.
Al procesar un PDF, la sección de estadísticas de la respuesta también incluirá hyperlinks_count, que indica cuántos hipervínculos hay en el documento.
{ "id":"entity_id", "type":"TEXT", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "reading_order":2, "page_indices":[ 0 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0.0, "top":0.0, "width":0.05, "height":0.5 } } ], "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER" },
Esta es la entidad que se utiliza para el texto de un documento y se indica mediante la línea TYPE de la respuesta. De nuevo, la representación muestra el texto en diferentes formatos. reading_order muestra cuándo un lector vería lógicamente el texto. Se trata de un orden semántico basado en las claves y valores asociados. Por ejemplo, asocia los títulos de los párrafos con sus respectivos párrafos en orden de lectura. page_indices indica en qué páginas se encuentra el texto. A continuación está la información de ubicación, con un cuadro delimitador de texto si se activó en la respuesta. Por último, tenemos el subtipo de entidad. Este subtipo proporciona información más detallada sobre el tipo de texto que se está detectando. Para ver una lista completa, consulte la Referencia de la API.
{ "id":"entity_id", "type":"TABLE", "representation":{ "html":"table.../table", "markdown":"| header | ...", "text":"header \t header", "csv":"header, header, header\n..." }, "csv_s3_uri":"s3://", "headers":[ "date", "amount", "description", "total" ], "reading_order":3, "title":"Title of the table", "footers":[ "the footers of the table" ], "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "page_indices":[ 0, 1 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } }, { "page_index":1, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ] },
Esta es la información de una entidad de tabla. Además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información del CSV y las imágenes recortadas de la tabla en buckets de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enrutarán al bucket de s3 del prefijo establecido en la solicitud InvokeDataAutomation.
{ "id":"entity_id", "type":"FIGURE", "summary":"", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ], "sub_type":"CHART", "title":"figure title", "rai_flag":"APPROVED/REDACTED/REJECTED", "reading_order":1, "page_indices":[ 0 ] } ,
Esta es la entidad que se utiliza para las figuras, por ejemplo, en los gráficos y tablas de documentos. Al igual que en las tablas, estas figuras se recortarán y las imágenes se enviarán al bucket de s3 establecido en el prefijo. Además, recibirá un sub_type y una respuesta con el título de la figura para el texto del título, y una indicación del tipo de figura que es.
"pages":[ { "id":"page_id", "page_index":0, "detected_page_number":1, "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 }, "asset_metadata":{ "rectified_image":"s3://bucket/prefix.png", "rectified_image_width_pixels":1700, "rectified_image_height_pixels":2200 } } ],
La última de las entidades que extraemos mediante la salida estándar son las páginas. Las páginas son iguales que las entidades de texto, pero además incluyen números de página, que indican el número detectado en cada una de ellas.
"text_lines":[ { "id":"line_id", "text":"line text", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ],
"text_words":[ { "id":"word_id", "text":"word text", "line_id":"line_id", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ]
Estos dos últimos elementos son para partes de texto individuales. La granularidad de nivel de palabra devuelve una respuesta para cada palabra, mientras que el resultado predeterminado solo muestra líneas de texto.
JSON de metadatos de formato de archivos adicionales
Cuando reciba los archivos adicionales de la marca de formatos de archivo adicionales, obtendrá un archivo JSON para las imágenes rectificadas que se extraigan. BDA rectifica las imágenes giradas utilizando una homografía para rotar la imagen en un ángulo de 90 grados. A continuación se muestra un ejemplo del JSON:
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Las esquinas representan las esquinas detectadas de una imagen y se utilizan para formar una homografía del documento. Esta homografía se utiliza para rotar la imagen manteniendo sus otras propiedades.