Caractéristiques Parameters Fine-tuning Output Détection de filigranes Directives d’ingénierie de requête

Générateur d'images Amazon Titan, modèle G1

Amazon Titan Image Generator G1 est un modèle de génération d'images qui permet aux utilisateurs de générer et de modifier des images de manière polyvalente. Les utilisateurs peuvent créer des images qui correspondent à leurs descriptions textuelles en saisissant simplement des invites en langage naturel. En outre, ils peuvent charger et modifier des images existantes, notamment en appliquant des invites textuelles sans avoir besoin de masque, ou en modifiant des parties spécifiques d’une image à l’aide d’un masque d’image. Le modèle prend également en charge l’outpainting, qui repousse les limites d’une image, et l’inpainting, qui comble les zones manquantes. Il offre la possibilité de générer des variations d’une image en fonction d’une invite de texte facultative, ainsi que des options de personnalisation instantanée qui permettent aux utilisateurs de transférer des styles à l’aide d’images de référence, ou de combiner des styles provenant de plusieurs références, le tout sans nécessiter de peaufinage.

Amazon Titan Image Generator G1 v2 ajoute plusieurs fonctionnalités avancées. Il permet aux utilisateurs d'utiliser des images de référence pour guider la génération d'images, où l'image de sortie s'aligne sur la mise en page et la composition de l'image de référence tout en suivant les instructions textuelles. Il inclut également une fonctionnalité de suppression automatique de l’arrière-plan, qui permet de supprimer les arrière-plans des images contenant plusieurs objets sans aucune intervention de l’utilisateur. Le modèle permet de contrôler avec précision la palette de couleurs des images générées. Les utilisateurs peuvent ainsi préserver l’identité visuelle d’une marque sans avoir à effectuer de peaufinages supplémentaires. De plus, la fonctionnalité de cohérence du sujet permet aux utilisateurs d’optimiser le modèle avec des images de référence afin de préserver le sujet choisi (animal de compagnie, chaussure ou sac à main, par exemple) dans les images générées. Cette suite complète de fonctionnalités permet aux utilisateurs de libérer leur potentiel créatif et de donner vie à leurs visions imaginatives.

Pour plus d'informations sur les directives d'ingénierie du modèle Amazon Titan Image Generator G1, consultez les meilleures pratiques d'ingénierie rapide d'Amazon Titan Image Generator.

Pour continuer à soutenir les bonnes pratiques en matière d’utilisation responsable de l’IA, les modèles de fondation (FM) Titan sont conçus pour détecter et supprimer les contenus préjudiciables dans les données, rejeter les contenus inappropriés dans les entrées utilisateur et filtrer les sorties des modèles comportant des contenus inappropriés (tels que les discours de haine, le langage grossier et la violence). Le FM du générateur d’images Titan ajoute un filigrane invisible et des métadonnées C2PA à toutes les images générées.

Vous pouvez utiliser la fonctionnalité de détection des filigranes de la console Amazon Bedrock ou appeler l’API de détection des filigranes Amazon Bedrock (version préliminaire) pour vérifier si une image contient un filigrane provenant du générateur d’images Titan. Vous pouvez également utiliser des sites tels que Content Credentials Verify pour vérifier si une image a été générée par le générateur d’images Titan.

Présentation du générateur d’images Amazon Titan v2

ID du modèle : amazon.titan-image-generator-v2:0
Nombre maximal de caractères en entrée : 512 caractères
Taille maximale de l'image d'entrée : 5 Mo (seules certaines résolutions spécifiques sont prises en charge)
Taille maximale de l'image utilisée in/outpainting, suppression de l'arrière-plan, conditionnement de l'image, palette de couleurs — 1 408 x 1 408 px
Taille maximale de l'image en utilisant la variation d'image — 1 408 x 1 408 px (l'image d'entrée est redimensionnée pour s'adapter à cette limite)
Langues : anglais
Type de sortie : image
Types d’images pris en charge : JPEG, JPG, PNG
Types d'inférence — On-Demand Débit provisionné
Cas d’utilisation pris en charge : génération d’images, retouche d’images, variations d’images, suppression de l’arrière-plan, contenu guidé par la couleur

Caractéristiques

Text-to-image Génération (T2I) — Entrez une invite de texte et générez une nouvelle image en sortie. L’image générée capture les concepts décrits par l’invite de texte.
Affinement d’un modèle T2I : importez plusieurs images pour capturer votre propre style et vos personnalisations, puis affinez le modèle T2I de base. Le modèle peaufiné génère des images qui respectent le style et les personnalisations d’un utilisateur spécifique.
Options de retouche d’image : incluent l’inpainting, l’outpainting, la génération de variations et la retouche automatique sans masque d’image.
Inpainting : utilise une image et un masque de segmentation comme données d’entrée (provenant de l’utilisateur ou estimées par le modèle) et reconstruit la région dans le masque. Utilisez l’inpainting pour supprimer les éléments masqués et les remplacer par des pixels d’arrière-plan.
Outpainting : utilise une image et un masque de segmentation comme données d’entrée (provenant de l’utilisateur ou estimées par le modèle) et génère de nouveaux pixels qui étendent la région en toute transparence. Utilisez un outpainting précis pour préserver les pixels de l’image masquée lorsque vous étendez l’image jusqu’aux limites. Utilisez l’outpainting par défaut pour étendre les pixels de l’image masquée jusqu’aux limites de l’image en fonction des paramètres de segmentation.
Variation d’image : utilise une à cinq images et une invite facultative comme données d’entrée. Cette fonctionnalité génère une nouvelle image qui préserve le contenu de l’image d’entrée, mais en modifie le style et l’arrière-plan.
Conditionnement d’image (v2 uniquement) : utilise une image de référence en entrée pour guider la génération d’images. Le modèle génère une image de sortie qui s’aligne sur la mise en page et la composition de l’image de référence, tout en suivant les invites textuelles.
Cohérence du sujet (v2 uniquement) : la cohérence du sujet permet aux utilisateurs d’optimiser le modèle avec des images de référence afin de préserver le sujet choisi (animal de compagnie, chaussure ou sac à main, par exemple) dans les images générées.
Contenu guidé par la couleur (v2 uniquement) : vous pouvez fournir une liste de codes couleur hexadécimaux avec une invite. Une plage de 1 à 10 codes hexadécimaux peut être fournie. L’image renvoyée par le Titan Image Generator G1 V2 incorporera la palette de couleurs fournie par l’utilisateur.
Suppression de l’arrière-plan (v2 uniquement) : identifie automatiquement plusieurs objets dans l’image d’entrée et supprime l’arrière-plan. L’image de sortie possède un arrière-plan transparent.
Provenance du contenu : utilisez des sites tels que Content Credentials Verify pour vérifier si une image a été générée par le générateur d’images Titan. Cela devrait indiquer que l’image a été générée, sauf si les métadonnées ont été supprimées.

Note

Si vous utilisez un modèle peaufiné, vous ne pouvez pas utiliser les fonctionnalité d’inpainting, d’outpainting ou de palette de couleurs de l’API ou du modèle.

Parameters

Pour plus d'informations sur les paramètres d'inférence du modèle Amazon Titan Image Generator G1, consultez la section Paramètres d'inférence du modèle Amazon Titan Image Generator G1.

Fine-tuning

Pour plus d'informations sur le réglage précis du modèle Amazon Titan Image Generator G1, consultez les pages suivantes.

Réglage et tarification du modèle Amazon Titan Image Generator G1

Le modèle utilise l’exemple de formule suivant pour calculer le prix total par tâche :

Prix total = Étapes * Taille du batch * Prix par image vue

Valeurs minimales (auto) :

Nombre minimal d’étapes (auto) : 500
Taille de lot minimale : 8
Taux d’apprentissage par défaut : 0,00001
Prix par image vue : 0,005

Fine-tuning paramètres d'hyperparamètres

Étapes : nombre de fois que le modèle est exposé à chaque lot. Aucun nombre d’étapes n’est défini par défaut. Vous devez sélectionner un nombre compris entre 10 et 40 000 ou une valeur de chaîne « Auto ».

Réglages des étapes – Auto : Amazon Bedrock détermine une valeur raisonnable en fonction des informations d’entraînement. Sélectionnez cette option pour donner la priorité aux performances du modèle par rapport aux coûts d’entraînement. Le nombre d’étapes est déterminé automatiquement. Ce nombre sera généralement compris entre 1 000 et 8 000 en fonction de votre jeu de données. Le coût des tâches est influencé par le nombre d’étapes utilisées pour exposer le modèle aux données. Consultez la section des exemples des informations de tarification pour comprendre comment le coût des tâches est calculé. (Consultez le tableau d’exemple ci-dessus pour voir comment le nombre d’étapes est lié au nombre d’images lorsque Auto est sélectionné.)

Paramètres des étapes – Personnalisé : vous pouvez indiquer le nombre d’étapes pendant lesquelles Bedrock doit exposer votre modèle personnalisé aux données d’entraînement. La valeur doit être comprise entre 10 et 40 000. Vous pouvez réduire le coût par image produite par le modèle en utilisant une valeur de nombre d’étapes inférieure.

Taille de lot : nombre d’exemples traités avant la mise à jour des paramètres du modèle. Cette valeur est comprise entre 8 et 192 et est un multiple de 8.

Taux d’apprentissage : taux auquel les paramètres du modèle sont mis à jour après chaque lot de données d’entraînement. Il s’agit d’une valeur flottante comprise entre 0 et 1. Le taux d’apprentissage est défini sur 0,00001 par défaut.

Pour plus d’informations sur la procédure de peaufinage, consultez Soumission d’une tâche de personnalisation du modèle.

Output

Le modèle Amazon Titan Image Generator G1 utilise la taille et la qualité de l'image de sortie pour déterminer le prix d'une image. Le modèle comporte deux segments de prix basés sur la taille : un pour 512 x 512 images et un autre pour 1 024 x 1024 images. Le prix dépend de la taille de l’image (hauteur x largeur), inférieure ou égale à 512 x 512 ou supérieure à 512 x 512.

Pour plus d’informations sur la tarification Amazon Bedrock, consultez Tarification d’Amazon Bedrock.

Détection de filigranes

Note

La détection des filigranes pour la console et l'API Amazon Bedrock est disponible dans la version préliminaire publique et détectera les filigranes générés par Titan Image Generator G1 et Canvas. Amazon Nova Cette fonctionnalité n’est actuellement pas disponible dans les régions us-west-2 et us-east-1. La détection de filigranes est une détection très précise du filigrane généré par ces modèles. Les images modifiées par rapport à l’image d’origine peuvent produire des résultats moins précis.

Ces modèles ajoutent un filigrane invisible à toutes les images générées afin de réduire la diffusion de fausses informations, de contribuer à la protection des droits d'auteur et de suivre l'utilisation du contenu. La détection des filigranes est disponible pour vous aider à confirmer si une image a été générée par Titan Image Generator G1 ou Amazon Nova Canvas, qui vérifie l'existence de ce filigrane.

Note

L’API de détection des filigranes est actuellement disponible en version préliminaire et susceptible d’être modifiée. Nous vous recommandons de créer un nouvel environnement virtuel pour utiliser le kit SDK. Les API de détection de filigranes n’étant pas disponibles dans les derniers kits SDK, nous vous recommandons de désinstaller la dernière version du SDK de l’environnement virtuel avant d’installer la version avec les API de détection de filigranes.

Vous pouvez télécharger votre image pour détecter si un filigrane provenant de Titan Image Generator G1 ou de Amazon Nova Canvas est présent sur l'image. Utilisez la console pour détecter un filigrane en suivant les étapes ci-dessous.

Pour détecter un filigrane :

Ouvrez la console Amazon Bedrock.
Sélectionnez Vue d’ensemble dans le volet de navigation Amazon Bedrock. Cliquez sur l’onglet Créer et tester.
Dans la section Garde-fou, accédez à Détection de filigranes et choisissez Afficher la détection des filigranes.
Sélectionnez Charger une image et recherchez un fichier au format JPG ou PNG. La taille de fichier maximale autorisée est de 18 Mo.
Une fois l’image chargée, une miniature s’affiche avec le nom, la taille du fichier et la date de dernière modification. Cliquez sur X pour supprimer ou remplacer l’image dans la section Charger.
Sélectionnez Analyser pour commencer l’analyse de détection des filigranes.
L’image est prévisualisée sous Résultats et indique avec la mention Filigrane détecté sous l’image et une bannière sur l’image si un filigrane est détecté. Si aucun filigrane n’est détecté, le texte sous l’image indique Filigrane NON détecté.
Pour charger l’image suivante, cliquez sur X dans la miniature de l’image dans la section Charger, puis choisissez une nouvelle image à analyser.

Directives d’ingénierie de requête

Invite de masque : cet algorithme classe les pixels en concepts. L’utilisateur peut fournir une invite de texte qui sera utilisée pour classer les zones de l’image à masquer, en fonction de l’interprétation de l’invite de masque. L’option d’invite permet d’interpréter des invites plus complexes et de coder le masque dans l’algorithme de segmentation.

Masque d’image : vous pouvez également utiliser un masque d’image pour définir les valeurs du masque. Le masque d’image peut être combiné à une saisie d’invite de masque afin d’améliorer la précision. Le fichier de masque d’image doit être conforme aux paramètres suivants :

Les valeurs de l’image de masque doivent être 0 (noir) ou 255 (blanc). La zone du masque d'image avec la valeur 0 sera régénérée avec l'image provenant de l'image and/or saisie par l'utilisateur.
Le champ maskImage doit être une chaîne d’image codée en base64.
L’image de masque doit avoir les mêmes dimensions que l’image d’entrée (même hauteur et même largeur).
Seuls des fichiers PNG ou JPG peuvent être utilisés pour l’image d’entrée et l’image de masque.
L’image de masque ne doit utiliser que des valeurs de pixels en noir et blanc.
L’image de masque ne peut utiliser que les canaux RVB (le canal alpha n’est pas pris en charge).

Pour plus d’informations sur l’ingénierie de requête du générateur d’images Amazon Titan G1, consultez Amazon Titan Image Generator Prompt Engineering Best Practices.

Pour les directives générales d’ingénierie de requête, consultez Directives d’ingénierie de requête.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Intégrations multimodales G1

Pages héritées