Schéma complet de demande et de réponse pour les vectorisations - Amazon Nova

Schéma complet de demande et de réponse pour les vectorisations

Schéma synchrone complet

{ "schemaVersion": "nova-multimodal-embed-v1", "taskType": "SINGLE_EMBEDDING", "singleEmbeddingParams": { "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING", "embeddingDimension": 256 | 384 | 1024 | 3072, "text": { "truncationMode": "START" | "END" | "NONE", "value": string, "source": SourceObject, }, "image": { "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE", "format": "png" | "jpeg" | "gif" | "webp", "source": SourceObject }, "audio": { "format": "mp3" | "wav" | "ogg", "source": SourceObject }, "video": { "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp", "source": SourceObject, "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE" } } }

La liste suivante comprend tous les paramètres de la demande :

  • schemaVersion (facultatif) – Version du schéma pour la demande de modèle de vectorisation multimodale

    • Type : chaîne

    • Valeurs autorisées : « nova-multimodal-embed-v1 »

    • Valeur par défaut : « nova-multimodal-embed-v1 »

  • taskType (obligatoire) : spécifie le type d’opération de vectorisation à effectuer sur le contenu d’entrée. single_embedding fait référence à la génération d’une vectorisation par entrée de modèle. segmented_embedding fait référence à la segmentation préalable de l’entrée du modèle selon les spécifications de l’utilisateur, puis à la génération d’une vectorisation unique par segment.

    • Type : chaîne

    • Valeurs autorisées : doit être « SINGLE_EMBEDDING » pour les appels synchrones.

  • singleEmbeddingParams (obligatoire)

    • embeddingPurpose (obligatoire) : Nova Multimodal Embeddings vous permet d’optimiser vos vectorisations en fonction de l’application prévue. Parmi les exemples, citons MM-RAG, la gestion des ressources numériques pour la recherche d’images et de vidéos, la comparaison de similarité pour le contenu multimodal ou la classification de documents pour le traitement intelligent des documents. embeddingPurpose vous permet de spécifier le cas d’utilisation de la vectorisation. Sélectionnez la valeur appropriée en fonction du cas d’utilisation ci-dessous.

      • Recherche et extraction : les cas d’utilisation de la vectorisation, tels que RAG et la recherche, comportent deux étapes principales : premièrement, la création d’un index en générant des vectorisations pour le contenu, et deuxièmement, l’extraction du contenu le plus pertinent à partir de l’index pendant la recherche. Veuillez utiliser les valeurs suivantes lorsque vous travaillez avec des cas d’utilisation de recherche et d’extraction :

        • Indexation :

          • « GENERIC_INDEX » : crée des vectorisations optimisées pour être utilisées comme index dans un magasin de données vectorielles. Cette valeur doit être utilisée quelle que soit la modalité que vous indexez.

        • Recherche/extraction : optimisez vos vectorisations en fonction du type de contenu que vous extrayez :

          • « TEXT_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations de texte.

          • « IMAGE_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations créées avec le niveau de détail « STANDARD_IMAGE ».

          • « VIDEO_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des représentations vidéo ou des vectorisations créées avec le mode de vectorisation « AUDIO_VIDEO_COMBINED ».

          • « DOCUMENT_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations d’images de documents créées avec le niveau de détail « DOCUMENT_IMAGE ».

          • « AUDIO_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations audio.

          • « GENERIC_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant des vectorisations de modalités mixtes.

        • Exemple : dans une application de recherche d’images où les utilisateurs extraient des images à l’aide de requêtes textuelles, utilisez embeddingPurpose = generic_index lors de la création d’un index de vectorisation basé sur les images et utilisez embeddingPurpose = image_retrieval lors de la création d’une vectorisation de la requête utilisée pour extraire les images.

      • « CLASSIFICATION » : crée des vectorisations optimisées pour effectuer une classification.

      • « CLUSTERING » : crée des vectorisations optimisées pour le clustering.

    • embeddingDimension (facultatif) : taille du vecteur à générer.

      • Type : int

      • Valeurs autorisées : 256 | 384 | 1024 | 3072

      • Par défaut : 3072

    • text (facultatif) : représente le contenu textuel. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • truncationMode (obligatoire) : spécifie quelle partie du texte sera tronquée dans les cas où la version tokenisée du texte dépasse le maximum pris en charge par le modèle.

        • Type : chaîne

        • Valeurs autorisées :

          • « START » : omet les caractères du début du texte si nécessaire.

          • « END » : omet les caractères de la fin du texte si nécessaire.

          • « NONE » : échoue si la longueur du texte dépasse la limite maximale de tokens du modèle.

      • value (facultatif ; la valeur ou la source doit être fournie) : valeur du texte pour lequel la vectorisation doit être créée.

        • Type : chaîne

        • Longueur maximale : 8 192 caractères

      • source (facultatif ; la valeur ou la source doit être fournie) : référence à un fichier texte stocké dans S3. Veuillez noter que l’option bytes de SourceObject ne s’applique pas aux entrées de texte. Pour transmettre du texte en ligne dans le cadre de la demande, veuillez utiliser le paramètre value à la place.

        • Type : SourceObject (voir la section « Objets courants »)

    • image (facultatif) : représente le contenu de l’image. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • detailLevel (facultatif) : détermine la résolution à laquelle l’image sera traitée avec « STANDARD_IMAGE » pour une résolution d’image inférieure et « DOCUMENT_IMAGE » pour une résolution d’image supérieure afin de mieux interpréter le texte.

        • Type : chaîne

        • Valeurs autorisées : « STANDARD_IMAGE » | « DOCUMENT_IMAGE »

        • Valeur par défaut : « STANDARD_IMAGE »

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « png » | « jpeg » | « gif » | « webp »

      • source (obligatoire) : une source de contenu image.

        • Type : SourceObject (voir la section « Objets courants »)

    • audio (facultatif) : représente le contenu audio. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « mp3 » | « wav » | « ogg »

      • source (obligatoire) : une source de contenu audio.

        • Type : SourceObject (voir la section « Objets courants »)

        • Durée audio maximale : 30 secondes

    • video (facultatif) : représente le contenu vidéo. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « mp4 » | « mov » | « mkv » | « webm » | « flv » | « mpeg » | « mpg » | « wmv » | « 3gp »

      • source (obligatoire) : une source de contenu vidéo.

        • Type : SourceObject (voir la section « Objets courants »)

        • Durée maximale de la vidéo : 30 secondes

      • embeddingMode (obligatoire)

        • Type : chaîne

        • Valeurs : « AUDIO_VIDEO_COMBINED » | « AUDIO_VIDEO_SEPARATE »

          • « AUDIO_VIDEO_COMBINED » : produit une seule vectorisation combinant le contenu audio et visuel.

          • « AUDIO_VIDEO_SEPARATE » : produit deux vectorisations, une pour le contenu audio et une pour le contenu visuel.

Corps de la réponse InvokeModel

Lorsque InvokeModel renvoie un résultat positif, le corps de la réponse aura la structure suivante :

{ "embeddings": [ { "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED", "embedding": number[], "truncatedCharLength": int // Only included if text input was truncated } ] }

La liste suivante comprend tous les paramètres de la réponse :

  • embeddings (obligatoire) : pour la plupart des demandes, ce tableau contiendra une seule vectorisation. Pour les demandes vidéo où le mode embeddingMode « AUDIO_VIDEO_SEPARATE » a été sélectionné, ce tableau contiendra deux vectorisations : une pour le contenu vidéo et une pour le contenu audio.

    • Type : tableau de vectorisations avec les propriétés suivantes

      • embeddingType (obligatoire) : indique le type de vectorisation qui a été créé.

        • Type : chaîne

        • Valeurs autorisées : « TEXT » | « IMAGE » | « VIDEO » | « AUDIO » | « AUDIO_VIDEO_COMBINED »

      • embedding (obligatoire) : le vecteur de vectorisation.

        • Type : number[]

      • truncatedCharLength (facultatif) : s’applique uniquement aux demandes de vectorisation de texte. Renvoyé si la version tokenisée du texte d’entrée a dépassé les limites du modèle. La valeur indique le caractère après lequel le texte a été tronqué avant la génération de la vectorisation.

        • Type : int

Schéma asynchrone complet

Vous pouvez générer des vectorisations de manière asynchrone à l’aide des fonctions StartAsyncInvoke, GetAsyncInvoke et ListAsyncInvokes de l’API d’exécution Amazon Bedrock. L’API asynchrone doit être utilisée si vous voulez utiliser Nova Embeddings pour segmenter du contenu long, tel que de longs passages de texte ou des vidéos et des fichiers audio de plus de 30 secondes.

Lorsque vous appelez StartAsyncInvoke, vous devez fournir les paramètres modelId, outputDataConfig et modelInput.

response = bedrock_runtime.start_async_invoke( modelId="amazon.nova-2-multimodal-embeddings-v1:0", outputDataConfig=Data Config, modelInput=Model Input )

outputDataConfig spécifie le compartiment S3 dans lequel vous souhaitez enregistrer la sortie générée. Elle présente la structure suivante :

{ "s3OutputDataConfig": { "s3Uri": "s3://your-s3-bucket" } }

Le paramètre s3Uri est l’URI S3 du compartiment de destination. Pour connaître les paramètres facultatifs supplémentaires, consultez la documentation StartAsyncInvoke.

La structure suivante est utilisée pour le paramètre modelInput.

{ "schemaVersion": "nova-multimodal-embed-v1", "taskType": "SEGMENTED_EMBEDDING", "segmentedEmbeddingParams": { "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING", "embeddingDimension": 256 | 384 | 1024 | 3072, "text": { "truncationMode": "START" | "END" | "NONE", "value": string, "source": { "s3Location": { "uri": "s3://Your S3 Object" } }, "segmentationConfig": { "maxLengthChars": int } }, "image": { "format": "png" | "jpeg" | "gif" | "webp", "source": SourceObject, "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE" }, "audio": { "format": "mp3" | "wav" | "ogg", "source": SourceObject, "segmentationConfig": { "durationSeconds": int } }, "video": { "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp", "source": SourceObject, "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE", "segmentationConfig": { "durationSeconds": int } } } }

La liste suivante comprend tous les paramètres de la demande :

  • schemaVersion (facultatif) – Version du schéma pour la demande de modèle de vectorisation multimodale

    • Type : chaîne

    • Valeurs autorisées : « nova-multimodal-embed-v1 »

    • Valeur par défaut : « nova-multimodal-embed-v1 »

  • taskType (obligatoire) : spécifie le type d’opération de vectorisation à effectuer sur le contenu d’entrée. single_embedding fait référence à la génération d’une vectorisation par entrée de modèle. segmented_embedding fait référence à la segmentation préalable de l’entrée du modèle selon les spécifications de l’utilisateur, puis à la génération d’une vectorisation unique par segment.

    • Type : chaîne

    • Valeurs autorisées : doit être « SEGMENTED_REPRESENTATION_VECTORIALE_CONTINUE » pour les appels asynchrones.

  • segmentedEmbeddingParams (obligatoire)

    • embeddingPurpose (obligatoire) : Nova Multimodal Embeddings vous permet d’optimiser vos vectorisations en fonction de l’application prévue. Parmi les exemples, citons MM-RAG, la gestion des ressources numériques pour la recherche d’images et de vidéos, la comparaison de similarité pour le contenu multimodal ou la classification de documents pour le traitement intelligent des documents. embeddingPurpose vous permet de spécifier le cas d’utilisation de la vectorisation. Sélectionnez la valeur appropriée en fonction du cas d’utilisation ci-dessous.

      • Recherche et extraction : les cas d’utilisation de la vectorisation, tels que RAG et la recherche, comportent deux étapes principales : premièrement, la création d’un index en générant des vectorisations pour le contenu, et deuxièmement, l’extraction du contenu le plus pertinent à partir de l’index pendant la recherche. Veuillez utiliser les valeurs suivantes lorsque vous travaillez avec des cas d’utilisation de recherche et d’extraction :

        • Indexation :

          • « GENERIC_INDEX » : crée des vectorisations optimisées pour être utilisées comme index dans un magasin de données vectorielles. Cette valeur doit être utilisée quelle que soit la modalité que vous indexez.

        • Recherche/extraction : optimisez vos vectorisations en fonction du type de contenu que vous extrayez :

          • « TEXT_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations de texte.

          • « IMAGE_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations créées avec le niveau de détail « STANDARD_IMAGE ».

          • « VIDEO_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des représentations vidéo ou des vectorisations créées avec le mode de vectorisation « AUDIO_VIDEO_COMBINED ».

          • « DOCUMENT_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations d’images de documents créées avec le niveau de détail « DOCUMENT_IMAGE ».

          • « AUDIO_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant uniquement des vectorisations audio.

          • « GENERIC_RETRIEVAL » : crée des vectorisations optimisées pour la recherche dans un référentiel contenant des vectorisations de modalités mixtes.

        • Exemple : dans une application de recherche d’images où les utilisateurs extraient des images à l’aide de requêtes textuelles, utilisez embeddingPurpose = generic_index lors de la création d’un index de vectorisation basé sur les images et utilisez embeddingPurpose = image_retrieval lors de la création d’une vectorisation de la requête utilisée pour extraire les images.

      • « CLASSIFICATION » : crée des vectorisations optimisées pour effectuer une classification.

      • « CLUSTERING » : crée des vectorisations optimisées pour le clustering.

    • embeddingDimension (facultatif) : taille du vecteur à générer.

      • Type : int

      • Valeurs autorisées : 256 | 384 | 1024 | 3072

      • Par défaut : 3072

    • text (facultatif) : représente le contenu textuel. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • truncationMode (obligatoire) : spécifie quelle partie du texte sera tronquée dans les cas où la version tokenisée du texte dépasse le maximum pris en charge par le modèle.

        • Type : chaîne

        • Valeurs autorisées :

          • « START » : omet les caractères du début du texte si nécessaire.

          • « END » : omet les caractères de la fin du texte si nécessaire.

          • « NONE » : échoue si la longueur du texte dépasse la limite maximale de tokens du modèle.

      • value (facultatif ; la valeur ou la source doit être fournie) : valeur du texte pour lequel la vectorisation doit être créée.

        • Type : chaîne

        • Longueur maximale : 8 192 caractères

      • source (facultatif ; la valeur ou la source doit être fournie) : référence à un fichier texte stocké dans S3. Veuillez noter que l’option bytes de SourceObject ne s’applique pas aux entrées de texte. Pour transmettre du texte en ligne dans le cadre de la demande, veuillez utiliser le paramètre value à la place.

      • segmentationConfig (obligatoire) : contrôle la manière dont le contenu textuel doit être segmenté en plusieurs vectorisations.

        • maxLengthChars (facultatif) : longueur maximale autorisée pour chaque segment. Le modèle tentera de segmenter uniquement aux limites des mots.

          • Type : int

          • Plage valide : 800 à 50 000

          • Par défaut : 32 000

    • image (facultatif) : représente le contenu de l’image. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « png » | « jpeg » | « gif » | « webp »

      • source (obligatoire) : une source de contenu image.

        • Type : SourceObject (voir la section « Objets courants »)

      • detailLevel (facultatif) : détermine la résolution à laquelle l’image sera traitée avec « STANDARD_IMAGE » pour une résolution d’image inférieure et « DOCUMENT_IMAGE » pour une résolution d’image supérieure afin de mieux interpréter le texte.

        • Type : chaîne

        • Valeurs autorisées : « STANDARD_IMAGE » | « DOCUMENT_IMAGE »

        • Valeur par défaut : « STANDARD_IMAGE »

    • audio (facultatif) : représente le contenu audio. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « mp3 » | « wav » | « ogg »

      • source (obligatoire) : une source de contenu audio.

        • Type : SourceObject (voir la section « Objets courants »)

      • segmentationConfig (obligatoire) : contrôle la manière dont le contenu audio doit être segmenté en plusieurs vectorisations.

        • durationSeconds (facultatif) : durée maximale de l’audio (en secondes) à utiliser pour chaque segment.

          • Type : int

          • Plage valide : 1 à 30

          • Par défaut: 5

    • video (facultatif) : représente le contenu vidéo. Un seul élément parmi texte, image, vidéo ou audio doit être présent.

      • format (obligatoire)

        • Type : chaîne

        • Valeurs autorisées : « mp4 » | « mov » | « mkv » | « webm » | « flv » | « mpeg » | « mpg » | « wmv » | « 3gp »

      • source (obligatoire) : une source de contenu vidéo.

        • Type : SourceObject (voir la section « Objets courants »)

      • embeddingMode (obligatoire)

        • Type : chaîne

        • Valeurs : « AUDIO_VIDEO_COMBINED » | « AUDIO_VIDEO_SEPARATE »

          • « AUDIO_VIDEO_COMBINED » : produit une seule vectorisation pour chaque segment combinant le contenu audio et visuel.

          • « AUDIO_VIDEO_SEPARATE » : produit deux vectorisations pour chaque segment, une pour le contenu audio et une pour le contenu vidéo.

      • segmentationConfig (obligatoire) : contrôle la manière dont le contenu vidéo doit être segmenté en plusieurs vectorisations.

        • durationSeconds (facultatif) : durée maximale de la vidéo (en secondes) à utiliser pour chaque segment.

          • Type : int

          • Plage valide : 1 à 30

          • Par défaut: 5

Réponse de StartAsyncInvoke

La réponse à un appel à StartAsyncInvoke aura la structure ci-dessous. Le paramètre invocationArn peut être utilisé pour interroger l’état de la tâche asynchrone à l’aide de la fonction GetAsyncInvoke.

{ "invocationArn": "arn:aws:bedrock:us-east-1:xxxxxxxxxxxx:async-invoke/lvmxrnjf5mo3", }

Sortie asynchrone

Une fois la génération des vectorisations asynchrones terminée, les artefacts de sortie sont écrits dans le compartiment S3 que vous avez spécifié comme destination de sortie. Les fichiers auront la structure suivante :

amzn-s3-demo-bucket/ job-id/ segmented-embedding-result.json embedding-audio.jsonl embedding-image.json embedding-text.jsonl embedding-video.jsonl manifest.json

Le segmented-embedding-result.json contiendra le résultat global de la tâche et une référence aux fichiers jsonl correspondants qui contiennent les vectorisations réelles par modalité. Vous trouverez ci-dessous un exemple tronqué d’un fichier :

{ "sourceFileUri": string, "embeddingDimension": 256 | 384 | 1024 | 3072, "embeddingResults": [ { "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED", "status": "SUCCESS" | "FAILURE" | "PARTIAL_SUCCESS", "failureReason": string, // Granular error codes "message": string, // Human-readbale failure message "outputFileUri": string // S3 URI to a "embedding-modality.jsonl" file } ... ] }

Le embedding-modality.json sera constitué de fichiers jsonl contenant la sortie de vectorisation pour chaque modalité. Chaque ligne du fichier jsonl respectera le schéma suivant :

{ "embedding": number[], // The generated embedding vector "segmentMetadata": { "segmentIndex": number, "segmentStartCharPosition": number, // Included for text only "segmentEndCharPosition": number, // Included for text only "truncatedCharLength": number, // Included only when text gets truncated "segmentStartSeconds": number, // Included for audio/video only "segmentEndSeconds": number // Included for audio/video only }, "status": "SUCCESS" | "FAILURE", "failureReason": string, // Granular error codes "message": string // Human-readable failure message }

La liste suivante comprend tous les paramètres de la réponse. Pour les caractères textuels ou les durées audio/vidéo, toutes les heures de début et de fin sont basées sur zéro. De plus, toutes les positions de fin de texte ou les valeurs de durée audio/vidéo sont inclusives.

  • embedding (obligatoire) : le vecteur de vectorisation.

    • Type : nombre

  • segmentMetadata : les métadonnées du segment.

    • segmentIndex : l’index du segment dans le tableau fourni dans la demande.

    • segmentStartCharPosition : pour le texte uniquement. Position de début (incluse) du caractère du contenu intégré dans le segment.

    • segmentEndCharPosition : pour le texte uniquement. Position de fin (exclue) du caractère du contenu intégré dans le segment.

    • truncatedCharLength (facultatif) : renvoyé si la version tokenisée du texte d’entrée a dépassé les limites du modèle. La valeur indique le caractère après lequel le texte a été tronqué avant la génération de la vectorisation.

      • Type : entier

    • segmentStartSeconds : pour l’audio/vidéo uniquement. Position de début de l’heure du contenu intégré dans le segment.

    • segmentEndSeconds : pour l’audio/vidéo uniquement. Position temporelle de fin du contenu intégré dans le segment.

  • status : statut du segment.

  • failureReason : raisons détaillées de l’échec du segment.

    • RAI_VIOLATION_INPUT_TEXT_DEFLECTION : le texte d’entrée enfreint la politique RAI.

    • RAI_VIOLATION_INPUT_IMAGE_DEFLECTION : l’image d’entrée enfreint la politique RAI.

    • INVALID_CONTENT : entrée non valide.

    • RATE_LIMIT_EXCEEDED : la demande de vectorisation est limitée en raison de l’indisponibilité du service.

    • INTERNAL_SERVER_EXCEPTION : une erreur s’est produite.

  • message : message d’échec associé.

Limitations de fichiers pour Nova Embeddings

Les opérations synchrones peuvent accepter à la fois les entrées S3 et les segments en ligne. Les opérations asynchrones ne peuvent accepter que les entrées S3.

Lorsque vous générez des vectorisations de manière asynchrone, vous devez vous assurer que votre fichier est divisé en un nombre approprié de segments. Pour les vectorisations de texte, vous ne pouvez pas avoir plus de 1 900 segments. Pour les vectorisations audio et vidéo, vous ne pouvez pas avoir plus de 1 434 segments.

Limites de taille des entrées synchrones

Type de fichier

Limite de taille

(En ligne) Tous les types de fichiers

25 Mo

(S3) Texte

1 Mo ; 50 000 caractères

(S3) Image

50 Mo

(S3) Vidéo

30 secondes ; 100 Mo

(S3) Audio

30 secondes ; 100 Mo

Note

La restriction de 25 Mo pour les fichiers en ligne s’applique après la vectorisation en Base64. Cela entraîne une augmentation de la taille du fichier d’environ 33 %

Limites de taille des entrées asynchrones

Type de fichier

Limite de taille

(S3) Texte

634 Mo

(S3) Image

50 Mo

(S3) Vidéo

2 Go ; 2 heures

(S3) Audio

1 Go ; 2 heures

Types de fichiers d’entrée

Modalité

Types de fichiers

Formats d'image

PNG, JPEG, WEBP, GIF

Formats audio

MP3, WAV, OGG

Formats vidéo

MP4, MOV, MKV, WEBM, FLV, MPEG, MPG, WMV, 3GP