Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Documents
La sortie standard pour les documents vous permet de définir la granularité de la réponse qui vous intéresse ainsi que d’établir le format de sortie et le format du texte dans la sortie. Voici certaines des sorties que vous pouvez activer :
Note
BDA peut traiter les fichiers DOCX. Pour traiter les fichiers DOCX, ils sont convertis en fichiers PDF. Autrement dit, le mappage des numéros de page ne fonctionne pas pour les fichiers DOCX. Les images des fichiers PDF convertis sont chargées dans votre compartiment de sortie si l’option JSON+ et la granularité des pages sont sélectionnées.
Granularité des réponses
La granularité des réponses détermine le type de réponse que vous souhaitez recevoir lors de l’extraction du texte du document. Chaque niveau de granularité vous donne de plus en plus de réponses séparées, la page fournissant tout le texte extrait ensemble et le mot fournissant chaque mot sous forme de réponse distincte. Voici les niveaux de granularité disponibles :
-
Granularité au niveau de la page : ce niveau de granularité est activé par défaut. La granularité au niveau de la page fournit à chaque page du document le format de sortie de texte de votre choix. Si vous traitez un fichier PDF, l’activation de ce niveau de granularité permet de détecter et renvoyer les liens hypertexte intégrés.
-
Granularité au niveau de l’élément (disposition) : ce niveau de granularité est activé par défaut. Fournit le texte du document dans le format de sortie de votre choix, séparé en différents éléments. Ces éléments peuvent être des figures, des tableaux ou des paragraphes. Ils sont renvoyés dans un ordre de lecture logique basé sur la structure du document. Si vous traitez un fichier PDF, l’activation de ce niveau de granularité permet de détecter et renvoyer les liens hypertexte intégrés.
-
Granularité au niveau du mot : fournit des informations sur des mots individuels sans recourir à une analyse contextuelle plus large. Indique chaque mot et son emplacement sur la page.
Paramètres de sortie
Les paramètres de sortie déterminent la manière dont les résultats téléchargés sont structurés. Ce paramètre est exclusif à la console. Voici les options pour les paramètres de sortie :
-
JSON : structure de sortie par défaut pour l’analyse des documents. Fournit un fichier de sortie JSON contenant les informations de vos paramètres de configuration.
-
JSON+files : l’utilisation de ce paramètre génère une sortie JSON et des fichiers correspondant à différentes sorties. Par exemple, ce paramètre vous fournit un fichier texte pour l’extraction globale du texte, un fichier Markdown pour le texte avec balisage structurel et des fichiers CSV pour chaque tableau présent dans le texte. Les figures situées dans un document sont enregistrées ainsi que les figures recadrées et les images rectifiées. De plus, si vous traitez un fichier DOCX et que cette option est sélectionnée, le PDF converti de votre fichier DOCX se trouve dans le dossier de sortie. Ces sorties se trouvent sous
standard_output/dans votre dossier de sortie.logical_doc_id/assets/
Format du texte
Le format du texte détermine les différents types de textes fournis au moyen de diverses opérations d’extraction. Vous pouvez sélectionner l’une des options suivantes pour le format de votre texte.
-
Texte brut : ce paramètre fournit une sortie textuelle uniquement sans qu’aucun élément de formatage ni autre élément de balisage ne soit noté.
-
Texte avec balisage : paramètre de sortie par défaut pour la sortie standard. Fournit du texte avec des éléments de balisage intégrés.
-
Texte avec HTML : fournit du texte avec des éléments HTML intégrés dans la réponse.
-
CSV : fournit une sortie structurée au format CSV pour les tableaux du document. Cela ne donne une réponse que pour les tableaux, et non pour les autres éléments du document.
Cadres de délimitation et champs génératifs
Pour les documents, deux options de réponse modifient leur sortie en fonction de la granularité sélectionnée. Il s’agit de Cadres de délimitation et Champs génératifs. La sélection de l’option Cadres de délimitation fournit un aperçu visuel de l’élément ou du mot sur lequel vous cliquez dans la liste déroulante des réponses de la console. Ainsi, vous pouvez retrouver plus facilement des éléments spécifiques de votre réponse. Les cadres de délimitation sont renvoyés dans votre code JSON sous forme de coordonnées des quatre coins du cadre.
Lorsque vous sélectionnez l’option Champs génératifs, un résumé du document est généré, à la fois dans une version de 10 mots et dans une autre de 250 mots. Ensuite, si vous sélectionnez des éléments sous forme de granularité de réponse, vous générez une légende descriptive de chaque figure détectée dans le document. Les chiffres incluent des éléments tels que des tableaux, des graphiques et des images.
Réponse de document de l’automatisation des données Bedrock
Cette section porte sur les différents objets de réponse que vous recevez lors de l’exécution de l’opération d’API InvokeDataAutomation sur un fichier de document. Ci-dessous, nous allons décomposer chaque section de l’objet de réponse, puis voir une réponse complète et renseignée pour un exemple de document. La première section que nous recevrons est metadata.
"metadata":{ "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX", "semantic_modality":"DOCUMENT", "s3_bucket":"bucket", "s3_prefix":"prefix" },
La première section ci-dessus fournit une vue d’ensemble des métadonnées associées au document. Outre les informations S3, cette section vous indique également la modalité sélectionnée pour votre réponse.
"document":{ "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "description":"document text", "summary":"summary text", "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 } },
La section ci-dessus fournit des informations sur la granularité au niveau du document. Les sections de description et de résumé sont les champs générés en fonction du document. La section de représentation fournit le contenu réel du document avec divers styles de mise en forme. Enfin, les statistiques contiennent des informations sur le contenu réel du document, comme le nombre d’éléments sémantiques, de figures, de mots, de lignes, etc.
Il s’agit des informations relatives à une entité de table. Outre les informations d’emplacement, les différents formats du texte, des tableaux et de l’ordre de lecture, elles renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images sont acheminées vers le compartiment s3 du préfixe défini dans la demande InvokeDataAutomationAsync.
Lorsque vous traitez un PDF, la section des statistiques de la réponse contient également le paramètre hyperlinks_count, qui vous indique le nombre de liens hypertexte dans votre document.
{ "id":"entity_id", "type":"TEXT", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "reading_order":2, "page_indices":[ 0 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0.0, "top":0.0, "width":0.05, "height":0.5 } } ], "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER" },
Il s’agit de l’entité utilisée pour le texte d’un document, indiquée par la ligne TYPE dans la réponse. Encore une fois, la représentation montre le texte dans différents formats. reading_order indique à quel moment un lecteur verrait logiquement le texte. Il s’agit d’un ordre sémantique basé sur les clés et valeurs associées. Par exemple, il associe les titres des paragraphes à leur paragraphe respectif dans l’ordre de lecture. page_indices vous indique sur quelles pages se trouve le texte. Viennent ensuite les informations d’emplacement, avec un cadre de délimitation de texte fourni s’il a été activé en réponse. Enfin, nous avons le sous-type d’entité. Ce sous-type fournit des informations plus détaillées sur le type de texte détecté. Pour obtenir la liste complète des sous-types, consultez la Référence des API.
{ "id":"entity_id", "type":"TABLE", "representation":{ "html":"table.../table", "markdown":"| header | ...", "text":"header \t header", "csv":"header, header, header\n..." }, "csv_s3_uri":"s3://", "headers":[ "date", "amount", "description", "total" ], "reading_order":3, "title":"Title of the table", "footers":[ "the footers of the table" ], "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "page_indices":[ 0, 1 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } }, { "page_index":1, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ] },
Il s’agit des informations relatives à une entité de table. Outre les informations d’emplacement, les différents formats du texte, des tableaux et de l’ordre de lecture, elles renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images sont acheminées vers le compartiment s3 du préfixe défini dans la demande InvokeDataAutomation.
{ "id":"entity_id", "type":"FIGURE", "summary":"", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ], "sub_type":"CHART", "title":"figure title", "rai_flag":"APPROVED/REDACTED/REJECTED", "reading_order":1, "page_indices":[ 0 ] } ,
Il s’agit de l’entité utilisée pour les figures telles que les graphiques et les tableaux de documents. Comme dans les tableaux, ces figures sont recadrées et les images envoyées au compartiment s3 défini dans votre préfixe. De plus, vous recevez un sub_type et une réponse de titre de figure pour le texte du titre et une indication du type de figure dont il s’agit.
"pages":[ { "id":"page_id", "page_index":0, "detected_page_number":1, "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 }, "asset_metadata":{ "rectified_image":"s3://bucket/prefix.png", "rectified_image_width_pixels":1700, "rectified_image_height_pixels":2200 } } ],
La dernière des entités que nous extrayons au moyen de la sortie standard est Pages. Les pages sont identiques aux entités Texte, mais elles contiennent également des numéros de page, pour lesquels le numéro de page détecté se trouve sur la page.
"text_lines":[ { "id":"line_id", "text":"line text", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ],
"text_words":[ { "id":"word_id", "text":"word text", "line_id":"line_id", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ]
Ces deux derniers éléments concernent des parties de texte individuelles. La granularité au niveau du mot renvoie une réponse pour chaque mot, tandis que la sortie par défaut indique uniquement des lignes de texte.
Code JSON de métadonnées de format de fichier supplémentaires
Lorsque vous recevez vos fichiers supplémentaires à partir de l’indicateur de formats de fichiers supplémentaires, vous obtenez un fichier JSON pour toutes les images rectifiées extraites. BDA rectifie les images pivotées en faisant pivoter l’image à un angle de 90 degrés à l’aide d’une homographie. Voici un exemple du code JSON :
"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }
Les coins représentent les coins détectés d’une image, permettant de former une homographie du document. Cette homographie permet de faire pivoter l’image tout en conservant ses autres propriétés.