

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Entrées pour une analyse personnalisée en temps réel
<a name="idp-inputs-sync"></a>

Real-time l'analyse à l'aide de modèles personnalisés prend un seul document en entrée. Les rubriques suivantes décrivent les types de documents d'entrée que vous pouvez utiliser.

**Topics**
+ [Documents en texte brut](#idp-inputs-sync-text)
+ [Semi-structured  Documents](#idp-inputs-sync-semi)
+ [Fichiers image et fichiers PDF numérisés](#idp-inputs-sync-ocr)
+ [Sortie Amazon Textract](#idp-inputs-sync-textract)
+ [Tailles de document maximales pour une analyse en temps réel](#idp-inputs-sync-sizes)
+ [Erreurs dans les documents semi-structurés](#idp-inputs-sync-err)

## Documents en texte brut
<a name="idp-inputs-sync-text"></a>

Fournissez le document d'entrée sous forme de UTF-8-formatted texte. 

## Semi-structured  Documents
<a name="idp-inputs-sync-semi"></a>

Semi-structured les documents incluent les documents PDF natifs et les documents Word. 

Par défaut, l'analyse personnalisée en temps réel utilise l'analyseur Amazon Comprehend pour extraire le texte des fichiers Word et des fichiers PDF numériques. Pour les fichiers PDF, vous pouvez annuler cette valeur par défaut et utiliser Amazon Textract pour extraire le texte. Consultez [Configuration des options d'extraction de texte](idp-set-textract-options.md).

## Fichiers image et fichiers PDF numérisés
<a name="idp-inputs-sync-ocr"></a>

Les types d'image pris en charge sont les suivants : JPEG, PNG et TIFF.

Par défaut, la reconnaissance d'entité personnalisée utilise l'opération d'`DetectDocumentText`API Amazon Textract pour extraire le texte des fichiers image et des fichiers PDF numérisés. Vous pouvez remplacer cette valeur par défaut pour utiliser l'opération `AnalyzeDocument` API à la place. Consultez [Configuration des options d'extraction de texte](idp-set-textract-options.md).

## Sortie Amazon Textract
<a name="idp-inputs-sync-textract"></a>

Vous pouvez fournir la sortie JSON de l'`DetectDocumentText`API ou `AnalyzeDocument` de l'API Amazon Textract en tant qu'entrée pour les opérations d'API en temps réel pour une classification personnalisée et une reconnaissance d'entité personnalisée. Amazon Comprehend prend en charge ce type d'entrée pour les opérations d'API en temps réel, mais pas pour la console.

## Tailles de document maximales pour une analyse en temps réel
<a name="idp-inputs-sync-sizes"></a>

Pour tous les types de documents d'entrée, le maximum du fichier d'entrée est d'une page, avec un maximum de 10 000 caractères.

Le tableau suivant indique les tailles de fichier maximales pour les documents d'entrée. 


| Type de fichier | Taille maximale (API) | Taille maximale (console) | 
| --- | --- | --- | 
| UTF-8 documents texte | 10 Ko | 10 Ko | 
| Documents au format PDF | 10 Mo | 5 Mo | 
| Documents Word | 10 Mo | 1 Mo | 
| Fichiers image | 10 Mo | 5 Mo | 
| Textract les fichiers de sortie | 1 Mo | n/a | 

## Erreurs dans les documents semi-structurés
<a name="idp-inputs-sync-err"></a>

 L'opération [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API peut rencontrer des erreurs au niveau du document ou au niveau de la page lors de l'extraction du texte d'un document semi-structuré ou d'un fichier image.

### Page-level erreurs
<a name="idp-inputs-sync-page-err"></a>

 Si l'opération [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API rencontre des erreurs lors du traitement d'une page dans le document d'entrée, la réponse de l'API inclut une entrée dans la [liste des erreurs](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html) pour chaque erreur.

L'entrée `ErrorCode` de la liste d'erreurs contient l'une des valeurs suivantes :
+ TEXTRACT\_BAD\_PAGE — Amazon Textract ne peut pas lire la page. Pour plus d'informations sur les limites de pages dans Amazon Textract, consultez la section [Quotas de pages dans Amazon Textract.](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html)
+ TEXTRACT\_PROVISIONED\_THROUGHPUT\_EXCEDED — Le nombre de demandes a dépassé votre limite de débit. Pour plus d'informations sur les quotas de débit dans Amazon Textract, [consultez la section Quotas par défaut dans Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html).
+ PAGE\_CHARACTERS\_EXCEDED — Trop de caractères de texte sur la page (10 000 caractères maximum).
+ PAGE\_SIZE\_EXCEDED — La taille de page maximale est de 10 Mo.
+ INTERNAL\_SERVER\_ERROR — La demande a rencontré un problème de service. Réessayez la demande d'API.

### Document-level erreurs
<a name="idp-inputs-sync-doc-err"></a>

Si l'opération [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API détecte une erreur au niveau du document dans votre document d'entrée, l'API renvoie une réponse d'`InvalidRequestException`erreur. 

Dans la réponse d'erreur, le **Reason** champ contient la valeur`INVALID_DOCUMENT`. 

Le **Detail** champ contient l'une des valeurs suivantes :
+ DOCUMENT\_SIZE\_EXCEDED — La taille du document est trop grande. Vérifiez la taille de votre fichier et soumettez à nouveau la demande.
+ UNSUPPORTED\_DOC\_TYPE — Le type de document n'est pas pris en charge. Vérifiez le type de fichier et soumettez à nouveau la demande.
+ PAGE\_LIMIT\_EXCEDED — Le document contient trop de pages. Vérifiez le nombre de pages de votre fichier et soumettez à nouveau la demande.
+ TEXTRACT\_ACCESS\_DENIED\_EXCEPTION — Accès refusé à Amazon Textract. Vérifiez que votre compte est autorisé à utiliser les opérations Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)et [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)API, puis soumettez à nouveau la demande.