Granularité des réponses Paramètres de sortie Format du texte Cadres de délimitation et champs génératifs Code JSON de métadonnées de format de fichier supplémentaires

Documents

La sortie standard pour les documents vous permet de définir la granularité de la réponse qui vous intéresse ainsi que d’établir le format de sortie et le format du texte dans la sortie. Voici certaines des sorties que vous pouvez activer :

Note

BDA peut traiter les fichiers DOCX. Pour traiter les fichiers DOCX, ils sont convertis en. PDFs Autrement dit, le mappage des numéros de page ne fonctionne pas pour les fichiers DOCX. Les images des fichiers convertis PDFs seront téléchargées dans votre compartiment de sortie si l'option JSON+ et la granularité de la page sont sélectionnées.

Granularité des réponses

La granularité des réponses détermine le type de réponse que vous souhaitez recevoir lors de l'extraction du texte du document. Chaque niveau de granularité vous donne de plus en plus de réponses séparées, la page fournissant tout le texte extrait ensemble et le mot fournissant chaque mot sous forme de réponse distincte. Voici les niveaux de granularité disponibles :

Granularité au niveau de la page : ce niveau de granularité est activé par défaut. La granularité au niveau de la page fournit à chaque page du document le format de sortie de texte de votre choix. Si vous traitez un fichier PDF, l’activation de ce niveau de granularité permet de détecter et renvoyer les liens hypertexte intégrés.
Granularité au niveau de l’élément (disposition) : ce niveau de granularité est activé par défaut. Fournit le texte du document dans le format de sortie de votre choix, séparé en différents éléments. Ces éléments peuvent être des figures, des tableaux ou des paragraphes. Ils sont renvoyés dans un ordre de lecture logique basé sur la structure du document. Si vous traitez un fichier PDF, l’activation de ce niveau de granularité permet de détecter et renvoyer les liens hypertexte intégrés.
Granularité au niveau du mot : fournit des informations sur des mots individuels sans recourir à une analyse contextuelle plus large. Indique chaque mot et son emplacement sur la page.

Paramètres de sortie

Les paramètres de sortie déterminent la manière dont les résultats téléchargés sont structurés. Ce paramètre est exclusif à la console. Voici les options pour les paramètres de sortie :

JSON : structure de sortie par défaut pour l’analyse des documents. Fournit un fichier de sortie JSON contenant les informations de vos paramètres de configuration.
- InvokeDataAutomationAsyncAPI asynchrone : la sortie JSON pour l'API asynchrone est S3 uniquement.
- InvokeDataAutomationAPI de synchronisation : la sortie JSON peut être définie sur S3 ou en ligne en tirant parti outputconfiguration de. Si S3 est sélectionné, le JSON de sortie est transmis à S3 uniquement (pas en ligne). Si S3 n'est pas fourni, la sortie de l'API Sync prend uniquement en charge le JSON en ligne.
JSON+Files — Disponible uniquement pour l'API asynchrone. InvokeDataAutomationAsync L'utilisation de ce paramètre génère à la fois une sortie JSON et des fichiers correspondant à différentes sorties. Par exemple, ce paramètre vous fournit un fichier texte pour l’extraction globale du texte, un fichier Markdown pour le texte avec balisage structurel et des fichiers CSV pour chaque tableau présent dans le texte. Les figures situées dans un document sont enregistrées ainsi que les figures recadrées et les images rectifiées. De plus, si vous traitez un fichier DOCX et que cette option est sélectionnée, le PDF converti de votre fichier DOCX se trouve dans le dossier de sortie. Ces sorties se trouvent dans standard_output/logical_doc_id/assets/ dans votre dossier de sortie.

Note

L'API de synchronisation ne génère aucun fichier supplémentaire au-delà du JSON. Le JSON de sortie contient uniquement le format de texte sélectionné dans le cadre du format de texte de sortie standard. L'API de synchronisation ne produira pas de recadrage de figures ni d'images rectifiées.
DocX n'est pas pris en charge par l'API Sync.

Format du texte

Le format du texte détermine les différents types de textes fournis au moyen de diverses opérations d’extraction. Vous pouvez sélectionner l’une des options suivantes pour le format de votre texte.

Texte brut : ce paramètre fournit une sortie textuelle uniquement sans qu’aucun élément de formatage ni autre élément de balisage ne soit noté.
Texte avec balisage : paramètre de sortie par défaut pour la sortie standard. Fournit du texte avec des éléments de balisage intégrés.
Texte avec HTML : fournit du texte avec des éléments HTML intégrés dans la réponse.
CSV : fournit une sortie structurée au format CSV pour les tableaux du document. Cela ne donne une réponse que pour les tableaux, et non pour les autres éléments du document.

Cadres de délimitation et champs génératifs

Pour les documents, deux options de réponse modifient leur sortie en fonction de la granularité sélectionnée. Il s’agit de Cadres de délimitation et Champs génératifs. La sélection de l’option Cadres de délimitation fournit un aperçu visuel de l’élément ou du mot sur lequel vous cliquez dans la liste déroulante des réponses de la console. Ainsi, vous pouvez retrouver plus facilement des éléments spécifiques de votre réponse. Les cadres de délimitation sont renvoyés dans votre code JSON sous forme de coordonnées des quatre coins du cadre.

Lorsque vous sélectionnez l’option Champs génératifs, un résumé du document est généré, à la fois dans une version de 10 mots et dans une autre de 250 mots. Ensuite, si vous sélectionnez des éléments sous forme de granularité de réponse, vous générez une légende descriptive de chaque figure détectée dans le document. Les chiffres incluent des éléments tels que des tableaux, des graphiques et des images.

Async

Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomationAsync sur un fichier de document. Ci-dessous, nous allons décomposer chaque section de l’objet de réponse, puis voir une réponse complète et renseignée pour un exemple de document. La première section que nous recevrons est metadata.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

La première section ci-dessus fournit une vue d’ensemble des métadonnées associées au document. Outre les informations S3, cette section vous indique également la modalité sélectionnée pour votre réponse.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

La section ci-dessus fournit des informations sur la granularité au niveau du document. Les sections de description et de résumé sont les champs générés en fonction du document. La section de représentation fournit le contenu réel du document avec divers styles de mise en forme. Enfin, les statistiques contiennent des informations sur le contenu réel du document, comme le nombre d’éléments sémantiques, de figures, de mots, de lignes, etc.

Il s’agit des informations relatives à une entité de table. Pour les demandes InvokeDataAutomationAsync (asynchrones), outre les informations de localisation, les différents formats du texte, des tableaux et de l'ordre de lecture, ils renvoient spécifiquement des informations csv et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images seront acheminées vers le compartiment s3 du préfixe défini dans la InvokeDataAutomationAsync demande. Pour les demandes InvokeDataAutomation (de synchronisation), le format csv et l'image recadrée de la table dans les compartiments S3 ne sont pas pris en charge.

Lorsque vous traitez un PDF, la section des statistiques de la réponse contient également le paramètre hyperlinks_count, qui vous indique le nombre de liens hypertexte dans votre document.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Il s’agit de l’entité utilisée pour le texte d’un document, indiquée par la ligne TYPE dans la réponse. Encore une fois, la représentation montre le texte dans différents formats. reading_order indique à quel moment un lecteur verrait logiquement le texte. Il s’agit d’un ordre sémantique basé sur les clés et valeurs associées. Par exemple, il associe les titres des paragraphes à leur paragraphe respectif dans l’ordre de lecture. page_indices vous indique sur quelles pages se trouve le texte. Viennent ensuite les informations d’emplacement, avec un cadre de délimitation de texte fourni s’il a été activé en réponse. Enfin, nous avons le sous-type d’entité. Ce sous-type fournit des informations plus détaillées sur le type de texte détecté. Pour obtenir la liste complète des sous-types, consultez la Référence des API.


{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Il s’agit des informations relatives à une entité de table. Outre les informations d’emplacement, les différents formats du texte, des tableaux et de l’ordre de lecture, elles renvoient spécifiquement des informations CSV et des images recadrées du tableau dans des compartiments S3. Les informations CSV indiquent les différents en-têtes, pieds de page et titres. Les images seront acheminées vers le compartiment s3 du préfixe défini dans la InvokeDataAutomation demande.


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

Il s’agit de l’entité utilisée pour les figures telles que les graphiques et les tableaux de documents. Comme dans les tableaux, ces figures sont recadrées et les images envoyées au compartiment s3 défini dans votre préfixe. De plus, vous recevez un sub_type et une réponse de titre de figure pour le texte du titre et une indication du type de figure dont il s’agit.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

La dernière des entités que nous extrayons au moyen de la sortie standard est Pages. Les pages sont identiques aux entités Texte, mais elles contiennent également des numéros de page, pour lesquels le numéro de page détecté se trouve sur la page.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Ces deux derniers éléments concernent des parties de texte individuelles. La granularité au niveau du mot renvoie une réponse pour chaque mot, tandis que la sortie par défaut indique uniquement des lignes de texte.

Sync

Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomation sur un fichier de document. Ci-dessous, nous allons décomposer chaque section de l’objet de réponse, puis voir une réponse complète et renseignée pour un exemple de document. La première section que nous recevrons est metadata.



            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },

La première section ci-dessus fournit une vue d’ensemble des métadonnées associées au document. Étant donné que l' InvokeDataAutomation API synchrone ne prend actuellement pas en charge le fractionnement de documents, logical_subdocument_id est toujours égal à 1.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

Remarque : Contrairement à la demande asynchrone, la InvokeDataAutomationAsync demande synchrone InvokeDataAutomation ne prend pas en charge le renvoi d'informations CSV et d'image recadrée de la table dans les compartiments S3.



{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

Il s'agit de l'entité utilisée pour le texte d'un document, indiquée par la ligne TYPE dans la réponse. Encore une fois, la représentation montre le texte dans différents formats. reading_order indique à quel moment un lecteur verrait logiquement le texte. Il s’agit d’un ordre sémantique basé sur les clés et valeurs associées. Par exemple, il associe les titres des paragraphes à leur paragraphe respectif dans l'ordre de lecture. page_indices vous indique sur quelles pages se trouve le texte. Viennent ensuite les informations d’emplacement, avec un cadre de délimitation de texte fourni s’il a été activé en réponse. Enfin, nous avons le sous-type d’entité. Ce sous-type fournit des informations plus détaillées sur le type de texte détecté. Pour obtenir la liste complète des sous-types, consultez la Référence des API.



{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},

Il s’agit des informations relatives à une entité de table. Les informations CSV indiquent les différents en-têtes, pieds de page et titres.


{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},

Il s’agit de l’entité utilisée pour les figures telles que les graphiques et les tableaux de documents. Vous recevrez une réponse sub_type et un titre de figure pour le texte du titre et une indication du type de figure dont il s'agit.


"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

Code JSON de métadonnées de format de fichier supplémentaires

Lorsque vous recevez vos fichiers supplémentaires à l'aide de l'indicateur de formats de fichiers supplémentaires, vous obtenez un fichier JSON pour toutes les images rectifiées extraites. BDA rectifie les images pivotées en faisant pivoter l’image à un angle de 90 degrés à l’aide d’une homographie. Voici un exemple du code JSON :



        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }

Les coins représentent les coins détectés d’une image, permettant de former une homographie du document. Cette homographie permet de faire pivoter l’image tout en conservant ses autres propriétés.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Sortie standard dans l’automatisation des données Bedrock

Images