Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Documentos de
La salida estándar de documentos le permite establecer la granularidad de la respuesta que le interesa, así como establecer el formato de salida y el formato de texto en la salida. A continuación, se muestran algunas de las salidas que puede activar.
nota
BDA puede procesar archivos DOCX. Para procesar archivos DOCX, se convierten en PDFs. Esto significa que la asignación de números de página no funcionará para los archivos DOCX. Si selecciona la opción JSON+ y la granularidad de la página, las imágenes convertidas PDFs se cargarán en el depósito de salida.
Granularidad de la respuesta
La granularidad de la respuesta determina qué tipo de respuesta desea recibir al extraer el texto del documento. Cada nivel de granularidad proporciona respuestas cada vez más separadas: la granularidad de página proporciona todo el texto extraído junto y la granularidad de palabra proporciona cada palabra como una respuesta independiente. Los niveles de granularidad disponibles son:
-
Granularidad de nivel de página: está habilitada de forma predeterminada. La granularidad de nivel de página proporciona cada página del documento en el formato de salida de texto que elija. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
-
Granularidad de nivel de elemento (diseño): está habilitada de forma predeterminada. Proporciona el texto del documento en el formato de salida que elija, separado en diferentes elementos. Estos elementos pueden ser figuras, tablas o párrafos. Se devuelven en un orden de lectura lógico en función de la estructura del documento. Si está procesando un PDF, al habilitar este nivel de granularidad, se detectarán y devolverán los hipervínculos incrustados.
-
Granularidad de nivel de palabra: proporciona información sobre palabras individuales sin utilizar un análisis de contexto más amplio. Proporciona cada palabra y su ubicación en la página.
Configuración de salida
La configuración de salida determina la forma en que se estructurarán los resultados descargados. Esta configuración es exclusiva de la consola. Las opciones de configuración de salida son:
-
JSON: la estructura de salida predeterminada para el análisis de documentos. Proporciona un archivo de salida JSON con la información de los ajustes de configuración.
-
API asíncrona: la salida de JSON para la InvokeDataAutomationAsyncAPI asíncrona es solo S3.
-
InvokeDataAutomationAPI de sincronización: la salida de JSON se puede configurar en S3 o en línea mediante el aprovechamiento.
outputconfigurationSi se selecciona S3, el JSON de salida solo va a S3 (no en línea). Si no se proporciona S3, la salida de la API de sincronización solo admite JSON en línea.
-
-
Archivos JSON+: solo están disponibles para la API asíncrona. InvokeDataAutomationAsync El uso de esta configuración genera una salida JSON y archivos que se corresponden con diferentes salidas. Por ejemplo, esta configuración proporciona un archivo de texto para la extracción general del texto, un archivo de marcado para el texto con marcado estructural y archivos CSV para cada tabla que se encuentre en el texto. Las figuras ubicadas dentro de un documento se guardarán, así como los recortes de figuras y las imágenes rectificadas. Además, si está procesando un archivo DOCX y tiene seleccionada esta opción, el PDF convertido del archivo DOCX estará en la carpeta de salida. Estas salidas se encuentran en
standard_output/en la carpeta de salida.logical_doc_id/assets/
nota
-
La API de sincronización no genera ningún archivo adicional aparte del JSON. El JSON de salida contiene solo el formato de texto que se seleccionó como parte del formato de texto de salida estándar. La API de sincronización no generará recortes de figuras ni imágenes rectificadas.
-
La API de sincronización no admite DocX.
Formato de texto
El formato de texto determina los diferentes tipos de textos que se proporcionarán mediante las diversas operaciones de extracción. Puede seleccionar cualquier número de las siguientes opciones para el formato de texto.
-
Texto sin formato: esta configuración proporciona una salida de solo texto sin incluir ningún elemento de formato o de marcado.
-
Texto con marcado: la configuración de salida predeterminada para la salida estándar. Proporciona texto con elementos de marcado integrados.
-
Texto con HTML: proporciona texto con elementos HTML integrados en la respuesta.
-
CSV: proporciona una salida estructurada en CSV para las tablas del documento. Esto solo dará una respuesta para las tablas y no para otros elementos del documento.
Cuadros delimitadores y campos generativos
Para los documentos, hay dos opciones de respuesta que cambian su salida en función de la granularidad seleccionada. Son los cuadros delimitadores y los campos generativos. Si selecciona los cuadros delimitadores, obtendrá un esquema visual del elemento o la palabra en la que haya hecho clic en el menú desplegable de respuesta de la consola. Esto le permite localizar con mayor facilidad determinados elementos de su respuesta. Los cuadros delimitadores se muestran en el JSON como las coordenadas de las cuatro esquinas del cuadro.
Al seleccionar los campos generativos, se genera un resumen del documento, tanto en versión de 10 palabras como de 250 palabras. A continuación, si selecciona elementos como una granularidad de respuesta, generará un título descriptivo de cada figura detectada en el documento. Las figuras incluyen elementos como tablas, gráficos e imágenes.
JSON de metadatos de formato de archivos adicionales
Cuando recibas los archivos adicionales de la marca de formatos de archivo adicionales, recibirás un archivo JSON para las imágenes rectificadas que se extraigan. BDA rectifica las imágenes giradas utilizando una homografía para rotar la imagen en un ángulo de 90 grados. A continuación se muestra un ejemplo del JSON:
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Las esquinas representan las esquinas detectadas de una imagen y se utilizan para formar una homografía del documento. Esta homografía se utiliza para rotar la imagen manteniendo sus otras propiedades.