Présentation des modèles du générateur d’images Amazon Titan G1 - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Présentation des modèles du générateur d’images Amazon Titan G1

Le générateur d’images Amazon Titan G1 est un modèle de génération d’images. Il est disponible en deux versions : v1 et v2.

Le générateur d’images Amazon Titan v1 permet aux utilisateurs de générer et de modifier des images de manière polyvalente. Les utilisateurs peuvent créer des images qui correspondent à leurs descriptions textuelles en saisissant simplement des invites en langage naturel. En outre, ils peuvent charger et modifier des images existantes, notamment en appliquant des invites textuelles sans avoir besoin de masque, ou en modifiant des parties spécifiques d’une image à l’aide d’un masque d’image. Le modèle prend également en charge l’outpainting, qui repousse les limites d’une image, et l’inpainting, qui comble les zones manquantes. Il offre la possibilité de générer des variations d’une image en fonction d’une invite de texte facultative, ainsi que des options de personnalisation instantanée qui permettent aux utilisateurs de transférer des styles à l’aide d’images de référence, ou de combiner des styles provenant de plusieurs références, le tout sans nécessiter de peaufinage.

Le générateur d’image Amazon Titan v2 prend en charge toutes les fonctionnalités existantes de la version 1 et ajoute plusieurs nouvelles fonctionnalités. Il permet aux utilisateurs d’exploiter les images de référence pour guider la génération d’images, où l’image de sortie s’aligne sur la mise en page et la composition de l’image de référence tout en suivant les invites textuelles. Il inclut également une fonctionnalité de suppression automatique de l’arrière-plan, qui permet de supprimer les arrière-plans des images contenant plusieurs objets sans aucune intervention de l’utilisateur. Le modèle permet de contrôler avec précision la palette de couleurs des images générées. Les utilisateurs peuvent ainsi préserver l’identité visuelle d’une marque sans avoir à effectuer de peaufinages supplémentaires. De plus, la fonctionnalité de cohérence du sujet permet aux utilisateurs d’optimiser le modèle avec des images de référence afin de préserver le sujet choisi (animal de compagnie, chaussure ou sac à main, par exemple) dans les images générées. Cette suite complète de fonctionnalités permet aux utilisateurs de libérer leur potentiel créatif et de donner vie à leurs visions imaginatives.

Pour plus d’informations sur les directives d’ingénierie de requête des modèles du générateur d’images Amazon Titan G1, consultez Amazon Titan Image Generator Prompt Engineering Best Practices.

Pour continuer à soutenir les bonnes pratiques en matière d’utilisation responsable de l’IA, les modèles de fondation (FM) Titan sont conçus pour détecter et supprimer les contenus préjudiciables dans les données, rejeter les contenus inappropriés dans les entrées utilisateur et filtrer les sorties des modèles comportant des contenus inappropriés (tels que les discours de haine, le langage grossier et la violence). Le FM du générateur d’images Titan ajoute un filigrane invisible et des métadonnées C2PA à toutes les images générées.

Vous pouvez utiliser la fonctionnalité de détection des filigranes de la console Amazon Bedrock ou appeler l’API de détection des filigranes Amazon Bedrock (version préliminaire) pour vérifier si une image contient un filigrane provenant du générateur d’images Titan. Vous pouvez également utiliser des sites tels que Content Credentials Verify pour vérifier si une image a été générée par le générateur d’images Titan.

Présentation du générateur d’images Amazon Titan v1

  • ID du modèle : amazon.titan-image-generator-v1

  • Nombre maximal de caractères en entrée : 512 caractères

  • Taille maximale de l’image d’entrée : 5 Mo (seules certaines résolutions spécifiques sont prises en charge)

  • Taille maximale de l’image en utilisant l’in/outpainting : 1 408 x 1 408 px

  • Taille maximale de l’image en utilisant la variation d’image : 4 096 x 4 096 px

  • Langues : anglais

  • Type de sortie : image

  • Types d’images pris en charge : JPEG, JPG, PNG

  • Types d’inférence : débit provisionné, à la demande

  • Cas d’utilisation pris en charge : génération d’images, retouche d’images, variations d’images

Présentation du générateur d’images Amazon Titan v2

  • ID du modèle : amazon.titan-image-generator-v2:0

  • Nombre maximal de caractères en entrée : 512 caractères

  • Taille maximale de l’image d’entrée : 5 Mo (seules certaines résolutions spécifiques sont prises en charge)

  • Taille maximale de l’image en utilisant l’in/outpainting, la suppression de l’arrière-plan, la conditionnement de l’image, la palette de couleurs : 1 408 x 1 408 px

  • Taille maximale de l’image en utilisant la variation d’image : 4 096 x 4 096 px

  • Langues : anglais

  • Type de sortie : image

  • Types d’images pris en charge : JPEG, JPG, PNG

  • Types d’inférence : débit provisionné, à la demande

  • Cas d’utilisation pris en charge : génération d’images, retouche d’images, variations d’images, suppression de l’arrière-plan, contenu guidé par la couleur

Fonctionnalités

  • Génération texte vers image (T2I) : entrez une invite de texte et générez une nouvelle image en sortie. L’image générée capture les concepts décrits par l’invite de texte.

  • Affinement d’un modèle T2I : importez plusieurs images pour capturer votre propre style et vos personnalisations, puis affinez le modèle T2I de base. Le modèle peaufiné génère des images qui respectent le style et les personnalisations d’un utilisateur spécifique.

  • Options de retouche d’image : incluent l’inpainting, l’outpainting, la génération de variations et la retouche automatique sans masque d’image.

  • Inpainting : utilise une image et un masque de segmentation comme données d’entrée (provenant de l’utilisateur ou estimées par le modèle) et reconstruit la région dans le masque. Utilisez l’inpainting pour supprimer les éléments masqués et les remplacer par des pixels d’arrière-plan.

  • Outpainting : utilise une image et un masque de segmentation comme données d’entrée (provenant de l’utilisateur ou estimées par le modèle) et génère de nouveaux pixels qui étendent la région en toute transparence. Utilisez un outpainting précis pour préserver les pixels de l’image masquée lorsque vous étendez l’image jusqu’aux limites. Utilisez l’outpainting par défaut pour étendre les pixels de l’image masquée jusqu’aux limites de l’image en fonction des paramètres de segmentation.

  • Variation d’image : utilise une à cinq images et une invite facultative comme données d’entrée. Cette fonctionnalité génère une nouvelle image qui préserve le contenu de l’image d’entrée, mais en modifie le style et l’arrière-plan.

  • Conditionnement d’image (v2 uniquement) : utilise une image de référence en entrée pour guider la génération d’images. Le modèle génère une image de sortie qui s’aligne sur la mise en page et la composition de l’image de référence, tout en suivant les invites textuelles.

  • Cohérence du sujet (v2 uniquement) : la cohérence du sujet permet aux utilisateurs d’optimiser le modèle avec des images de référence afin de préserver le sujet choisi (animal de compagnie, chaussure ou sac à main, par exemple) dans les images générées.

  • Contenu guidé par la couleur (v2 uniquement) : vous pouvez fournir une liste de codes couleur hexadécimaux avec une invite. Une plage de 1 à 10 codes hexadécimaux peut être fournie. L’image renvoyée par le Titan Image Generator G1 V2 incorporera la palette de couleurs fournie par l’utilisateur.

  • Suppression de l’arrière-plan (v2 uniquement) : identifie automatiquement plusieurs objets dans l’image d’entrée et supprime l’arrière-plan. L’image de sortie possède un arrière-plan transparent.

  • Provenance du contenu : utilisez des sites tels que Content Credentials Verify pour vérifier si une image a été générée par le générateur d’images Titan. Cela devrait indiquer que l’image a été générée, sauf si les métadonnées ont été supprimées.

Note

Si vous utilisez un modèle peaufiné, vous ne pouvez pas utiliser les fonctionnalité d’inpainting, d’outpainting ou de palette de couleurs de l’API ou du modèle.

Paramètres

Pour en savoir plus sur les paramètres d’inférence des modèles du générateur d’images Amazon Titan G1, consultez Paramètres d’inférence des modèles du générateur d’images Amazon Titan G1.

Affinement

Pour plus d’informations sur le peaufinage des modèles du générateur d’images Amazon Titan G1, consultez les pages suivantes.

Peaufinage et tarification des modèles du générateur d’images Amazon Titan G1

Le modèle utilise l’exemple de formule suivant pour calculer le prix total par tâche :

Prix total = Étapes * Taille du batch * Prix par image vue

Valeurs minimales (auto) :

  • Nombre minimal d’étapes (auto) : 500

  • Taille de lot minimale : 8

  • Taux d’apprentissage par défaut : 0,00001

  • Prix par image vue : 0,005

Peaufinage des paramètres des hyperparamètres

Étapes : nombre de fois que le modèle est exposé à chaque lot. Aucun nombre d’étapes n’est défini par défaut. Vous devez sélectionner un nombre compris entre 10 et 40 000 ou une valeur de chaîne « Auto ».

Réglages des étapes – Auto : Amazon Bedrock détermine une valeur raisonnable en fonction des informations d’entraînement. Sélectionnez cette option pour donner la priorité aux performances du modèle par rapport aux coûts d’entraînement. Le nombre d’étapes est déterminé automatiquement. Ce nombre sera généralement compris entre 1 000 et 8 000 en fonction de votre jeu de données. Le coût des tâches est influencé par le nombre d’étapes utilisées pour exposer le modèle aux données. Consultez la section des exemples des informations de tarification pour comprendre comment le coût des tâches est calculé. (Consultez le tableau d’exemple ci-dessus pour voir comment le nombre d’étapes est lié au nombre d’images lorsque Auto est sélectionné.)

Paramètres des étapes – Personnalisé : vous pouvez indiquer le nombre d’étapes pendant lesquelles Bedrock doit exposer votre modèle personnalisé aux données d’entraînement. La valeur doit être comprise entre 10 et 40 000. Vous pouvez réduire le coût par image produite par le modèle en utilisant une valeur de nombre d’étapes inférieure.

Taille de lot : nombre d’exemples traités avant la mise à jour des paramètres du modèle. Cette valeur est comprise entre 8 et 192 et est un multiple de 8.

Taux d’apprentissage : taux auquel les paramètres du modèle sont mis à jour après chaque lot de données d’entraînement. Il s’agit d’une valeur flottante comprise entre 0 et 1. Le taux d’apprentissage est défini sur 0,00001 par défaut.

Pour plus d’informations sur la procédure de peaufinage, consultez Soumission d’une tâche de personnalisation du modèle.

Sortie

Les modèles du générateur d’images Amazon Titan G1 utilisent la taille et la qualité de l’image de sortie pour déterminer le prix d’une image. Le générateur d’images Amazon Titan G1 propose deux segments de tarification basés sur la taille : un pour les images de 512 x 512 et un autre pour les images de 1 024 x 1 024. Le prix dépend de la taille de l’image (hauteur x largeur), inférieure ou égale à 512 x 512 ou supérieure à 512 x 512.

Pour plus d’informations sur la tarification Amazon Bedrock, consultez Tarification d’Amazon Bedrock.

Détection de filigranes

Note

La détection des filigranes pour la console et l’API Amazon Bedrock est disponible dans la version préliminaire publique et permet de détecter uniquement les filigranes générés par le générateur d’images Titan G1. Cette fonctionnalité n’est actuellement pas disponible dans les régions us-west-2 et us-east-1. La détection de filigrane est une détection très précise du filigrane généré par le générateur d’images Titan G1. Les images modifiées par rapport à l’image d’origine peuvent produire des résultats moins précis.

Ce modèle ajoute un filigrane invisible à toutes les images générées afin de réduire la propagation de la désinformation, de contribuer à la protection des droits d’auteur et de suivre l’utilisation du contenu. La détection de filigrane est disponible pour vous aider à confirmer si une image a été générée par le générateur d’images Titan G1, qui vérifie l’existence de ce filigrane.

Note

L’API de détection des filigranes est actuellement disponible en version préliminaire et susceptible d’être modifiée. Nous vous recommandons de créer un nouvel environnement virtuel pour utiliser le kit SDK. Les API de détection de filigranes n’étant pas disponibles dans les derniers kits SDK, nous vous recommandons de désinstaller la dernière version du SDK de l’environnement virtuel avant d’installer la version avec les API de détection de filigranes.

Vous pouvez télécharger votre image pour détecter si un filigrane provenant du générateur d’images Titan G1 est présent sur l’image. Utilisez la console pour détecter un filigrane provenant de ce modèle en suivant les étapes ci-dessous.

Pour détecter un filigrane avec le générateur d’images Titan G1 :
  1. Ouvrez la console Amazon Bedrock.

  2. Sélectionnez Vue d’ensemble dans le volet de navigation Amazon Bedrock. Cliquez sur l’onglet Créer et tester.

  3. Dans la section Garde-fou, accédez à Détection de filigranes et choisissez Afficher la détection des filigranes.

  4. Sélectionnez Charger une image et recherchez un fichier au format JPG ou PNG. La taille de fichier maximale autorisée est 5 Mo.

  5. Une fois l’image chargée, une miniature s’affiche avec le nom, la taille du fichier et la date de dernière modification. Cliquez sur X pour supprimer ou remplacer l’image dans la section Charger.

  6. Sélectionnez Analyser pour commencer l’analyse de détection des filigranes.

  7. L’image est prévisualisée sous Résultats et indique avec la mention Filigrane détecté sous l’image et une bannière sur l’image si un filigrane est détecté. Si aucun filigrane n’est détecté, le texte sous l’image indique Filigrane NON détecté.

  8. Pour charger l’image suivante, cliquez sur X dans la miniature de l’image dans la section Charger, puis choisissez une nouvelle image à analyser.

Directives d’ingénierie de requête

Invite de masque : cet algorithme classe les pixels en concepts. L’utilisateur peut fournir une invite de texte qui sera utilisée pour classer les zones de l’image à masquer, en fonction de l’interprétation de l’invite de masque. L’option d’invite permet d’interpréter des invites plus complexes et de coder le masque dans l’algorithme de segmentation.

Masque d’image : vous pouvez également utiliser un masque d’image pour définir les valeurs du masque. Le masque d’image peut être combiné à une saisie d’invite de masque afin d’améliorer la précision. Le fichier de masque d’image doit être conforme aux paramètres suivants :

  • Les valeurs de l’image de masque doivent être 0 (noir) ou 255 (blanc). La zone du masque d’image ayant la valeur 0 sera regénérée avec l’image provenant de l’invite utilisateur et/ou de l’image d’entrée.

  • Le champ maskImage doit être une chaîne d’image codée en base64.

  • L’image de masque doit avoir les mêmes dimensions que l’image d’entrée (même hauteur et même largeur).

  • Seuls des fichiers PNG ou JPG peuvent être utilisés pour l’image d’entrée et l’image de masque.

  • L’image de masque ne doit utiliser que des valeurs de pixels en noir et blanc.

  • L’image de masque ne peut utiliser que les canaux RVB (le canal alpha n’est pas pris en charge).

Pour plus d’informations sur l’ingénierie de requête du générateur d’images Amazon Titan G1, consultez Amazon Titan Image Generator Prompt Engineering Best Practices.

Pour les directives générales d’ingénierie de requête, consultez Directives d’ingénierie de requête.