Funzionalità Parameters Fine-tuning Output Rilevamento della filigrana Linee guida sulla progettazione dei prompt

Modello Amazon Titan Image Generator G1

Amazon Titan Image Generator G1 è un modello di generazione di immagini che consente agli utenti di generare e modificare immagini in modi versatili. Gli utenti possono creare immagini che corrispondono alle descrizioni testuali semplicemente inserendo prompt in linguaggio naturale. Inoltre, possono caricare e modificare immagini esistenti, compresa l’applicazione di prompt basati su testo senza la necessità di una maschera o la modifica di parti specifiche di un’immagine utilizzando un’immagine maschera. Il modello supporta anche l’outpainting, che espande i limiti di un’immagine, e l’inpainting, che riempie le zone mancanti. Offre la possibilità di generare varianti di un’immagine sulla base di un prompt di testo opzionale, oltre a opzioni di personalizzazione istantanea che consentono agli utenti di trasferire stili utilizzando immagini di riferimento o di combinare stili da più riferimenti, il tutto senza richiedere alcun fine-tuning.

Amazon Titan Image Generator G1 v2 aggiunge diverse funzionalità avanzate. Consente agli utenti di utilizzare immagini di riferimento per guidare la generazione di immagini, in cui l'immagine di output si allinea al layout e alla composizione dell'immagine di riferimento pur seguendo le istruzioni testuali. Include inoltre una funzionalità di rimozione automatica dello sfondo, in grado di eliminare gli sfondi da immagini contenenti più oggetti senza alcun input da parte dell’utente. Il modello offre un controllo preciso sulla tavolozza dei colori delle immagini generate, consentendo agli utenti di preservare l’identità visiva del marchio senza la necessità di fine-tuning aggiuntivo. Inoltre, la funzionalità di coerenza del soggetto consente agli utenti di eseguire il fine-tuning del modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsa) nelle immagini generate. Questa suite completa di funzionalità consente agli utenti di liberare il proprio potenziale creativo e dare vita a idee fantasiose.

Per ulteriori informazioni sulle linee guida di progettazione dei prompt del modello Amazon Titan Image Generator G1, consulta Amazon Titan Image Generator Prompt Engineering Best Practices.

Per continuare a promuovere le best practice nell’uso responsabile dell’IA, i modelli di fondazione (FM) Titan sono stati sviluppati per individuare ed eliminare contenuti dannosi nei dati, respingere contenuti inappropriati negli input degli utenti e filtrare gli output dei modelli che includono contenuti inappropriati (ad esempio, incitamento all’odio, oscenità e violenza). Il modello di fondazione del Generatore di immagini Amazon Titan aggiunge una filigrana invisibile e metadati C2PA a tutte le immagini generate.

Puoi utilizzare la funzionalità di rilevamento della filigrana nella console Amazon Bedrock o effettuare la chiamata dell’API di rilevamento della filigrana di Amazon Bedrock (anteprima) per verificare se un’immagine contiene una filigrana del Generatore di immagini Amazon Titan. Puoi anche utilizzare siti come Content Credentials Verify per verificare se un’immagine è stata generata dal Generatore di immagini Amazon Titan.

Panoramica del Generatore di immagini Amazon Titan v2

ID modello: amazon.titan-image-generator-v2:0
Numero massimo di caratteri di input: 512 caratteri
Dimensione massima dell'immagine di input: 5 MB (sono supportate solo alcune risoluzioni specifiche)
Dimensione massima dell'immagine utilizzata in/outpainting, rimozione dello sfondo, condizionamento dell'immagine, tavolozza dei colori: 1.408 x 1.408 px
Dimensione massima dell'immagine utilizzando la variazione dell'immagine: 1.408 x 1.408 px (l'immagine di input viene ridimensionata per rientrare in questo limite)
Lingue: inglese
Tipo di output: immagine
Tipi di immagini supportati: JPEG, JPG, PNG
Tipi di inferenza: Provisioned Throughput On-Demand
Casi d’uso supportati: generazione di immagini, modifica delle immagini, variazioni delle immagini, rimozione dello sfondo, contenuto guidato dai colori

Funzionalità

Text-to-image Generazione (T2I): immette un prompt di testo e genera una nuova immagine come output. L'immagine generata acquisisce i concetti descritti dal prompt di testo.
Ottimizzazione di un modello T2I: importa diverse immagini per immortalare il tuo stile e la tua personalizzazione, quindi ottimizza il modello T2I principale. Il modello ottimizzato con fine-tuning genera immagini che seguono lo stile e la personalizzazione di un utente specifico.
Opzioni di modifica delle immagini: includono inpainting, outpainting, generazione di variazioni e modifica automatica senza maschera di immagine.
Inpainting: utilizza un’immagine e una maschera di segmentazione come input (fornite dall’utente o da una stima del modello) e ricostruisce la Regione all’interno della maschera. Utilizza l'inpainting per rimuovere gli elementi con maschera e sostituirli con pixel di sfondo.
Outpainting: utilizza un'immagine e una maschera di segmentazione come input (forniti dall'utente o da una stima del modello) e genera nuovi pixel che estendono senza interruzioni la Regione. Utilizza l'outpainting preciso per preservare i pixel dell'immagine con maschera quando estendi l'immagine fino ai confini. Utilizza l’outpainting predefinito per estendere i pixel dell’immagine con maschera fino ai confini dell’immagine in base alle impostazioni di segmentazione.
Variazione dell’immagine: utilizza da 1 a 5 immagini e un prompt opzionale come input. Genera una nuova immagine che conserva il contenuto delle immagini di input, ma ne modifica lo stile e lo sfondo.
Condizionamento delle immagini: (solo V2) utilizza un’immagine di riferimento per guidare la generazione. Il modello genera un’immagine di output in linea con il layout e la composizione dell’immagine di riferimento pur seguendo il prompt di testo.
Coerenza del soggetto: (solo V2) la coerenza del soggetto si ottiene eseguendo il fine-tuning del modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsa) nelle immagini generate.
Contenuto guidato dai colori: (solo V2) puoi fornire un elenco di codici colore esadecimali insieme a un prompt. Puoi fornire un intervallo da 1 a 10 codici esadecimali. L’immagine restituita da Titan Image Generator G1 V2 conterrà la palette di colori fornita dall’utente.
Rimozione dello sfondo: (solo V2) identifica automaticamente più oggetti nell’immagine di input e rimuove lo sfondo. L’immagine di output ha uno sfondo trasparente.
Provenienza dei contenuti: utilizza siti come Content Credentials Verify per verificare se un’immagine è stata generata dal Generatore di immagini Amazon Titan. La verifica indica che l’immagine è stata generata, a meno che i metadati non siano stati rimossi.

Nota

Se utilizzi un modello ottimizzato con fine-tuning, non puoi utilizzare le funzionalità di inpainting, outpainting o palette di colori dell’API o del modello.

Parameters

Per informazioni sui parametri di inferenza del modello Amazon Titan Image Generator G1, consulta Parametri di inferenza del modello Amazon Titan Image Generator G1.

Fine-tuning

Per ulteriori informazioni sulla messa a punto del modello Amazon Titan Image Generator G1, consulta le pagine seguenti.

Ottimizzazione e prezzi del modello Amazon Titan Image Generator G1

Il modello utilizza la seguente formula di esempio per calcolare il prezzo totale per processo:

Prezzo totale = Fasi * Dimensione del batch * Prezzo per immagine vista

Valori minimi (auto):

Fasi minime (auto): 500
Dimensione minima batch: 8
Tasso di apprendimento predefinito: 0,00001
Prezzo per immagine vista: 0,005

Fine-tuning impostazioni iperparametriche

Fasi: numero di volte in cui il modello viene esposto a ciascun batch. Non è impostato un conteggio delle fasi predefinito. È necessario selezionare un numero compreso tra 10 e 40.000 o un valore String pari a “Auto”.

Impostazioni fasi - Automatica: Amazon Bedrock determina un valore ragionevole in base alle informazioni di formazione. Seleziona questa opzione per dare priorità alle prestazioni del modello rispetto ai costi di formazione. Il numero di fasi viene determinato automaticamente. Questo numero sarà generalmente compreso tra 1.000 e 8.000 in base al tuo set di dati. I costi del processo sono influenzati dal numero di fasi utilizzate per esporre il modello ai dati. Consulta la sezione degli esempi di prezzi nei dettagli sui prezzi per capire come viene calcolato il costo del processo. (Vedi la tabella di esempio sopra per capire come il conteggio delle fasi è correlato al numero di immagini quando è selezionata l’opzione Auto.)

Impostazioni delle fasi - Personalizzate: puoi inserire il numero di fasi in cui desideri che Bedrock esponga il tuo modello personalizzato ai dati di addestramento. Il valore deve essere compreso tra 10 e 40.000. Puoi ridurre il costo per immagine prodotta dal modello utilizzando un valore di conteggio delle fasi inferiore.

Dimensione batch: il numero di campioni elaborati prima dell’aggiornamento dei parametri del modello. Questo valore è compreso tra 8 e 192 ed è un multiplo di 8.

Velocità di apprendimento: la velocità con cui i parametri del modello vengono aggiornati dopo ogni batch di dati di addestramento. Si tratta di un valore float compreso tra 0 e 1. La velocità di apprendimento è impostata in modo predefinito su 0,00001.

Per ulteriori informazioni sulla procedura di fine-tuning, consulta Invio di un processo di personalizzazione del modello.

Output

Il modello Amazon Titan Image Generator G1 utilizza la dimensione e la qualità dell'immagine in uscita per determinare il prezzo di un'immagine. Il modello prevede due segmenti di prezzo in base alle dimensioni: uno per 512*512 immagini e un altro per 1024*1024 immagini. I prezzi si basano sulla dimensione dell’immagine (altezza*larghezza), inferiore o uguale a 512*512 o superiore a 512*512.

Per ulteriori informazioni sui prezzi di Amazon Bedrock, consulta Prezzi di Amazon Bedrock.

Rilevamento della filigrana

Nota

Il rilevamento delle filigrane per la console e l'API Amazon Bedrock è disponibile in una versione di anteprima pubblica e rileverà le filigrane generate da Titan Image Generator G1 e Canvas. Amazon Nova Questa funzionalità non è al momento disponibile nelle Regioni us-west-2 e us-east-1. Il rilevamento delle filigrane è un rilevamento estremamente accurato della filigrana generata da questi modelli. Le immagini modificate rispetto all’immagine originale possono produrre risultati meno accurati.

Questi modelli aggiungono una filigrana invisibile a tutte le immagini generate per ridurre la diffusione di disinformazione, contribuire alla protezione del copyright e tenere traccia dell'utilizzo dei contenuti. Il rilevamento della filigrana è disponibile per aiutarti a confermare se un'immagine è stata generata da Titan Image Generator G1 o Amazon Nova Canvas, che verifica l'esistenza di questa filigrana.

Nota

L’API di rilevamento della filigrana è disponibile nella versione di anteprima ed è soggetta a modifiche. Consigliamo di creare un nuovo ambiente virtuale per utilizzare l’SDK. Poiché le API di rilevamento della filigrana non sono disponibili negli SDK più recenti, consigliamo di disinstallare l’ultima versione dell’SDK dall’ambiente virtuale prima di installare la versione con le API di rilevamento della filigrana.

Puoi caricare l'immagine per rilevare se sull'immagine è presente una filigrana di Titan Image Generator G1 o Amazon Nova Canvas. Usa la console per rilevare una filigrana seguendo i seguenti passaggi.

Per rilevare una filigrana:

Apri la console Amazon Bedrock da console Amazon Bedrock.
Seleziona Panoramica dal riquadro di navigazione di Amazon Bedrock. Scegli la scheda Crea e testa.
Nella sezione Misure di salvaguardia, vai a Rilevamento della filigrana e scegli Visualizza il rilevamento della filigrana.
Seleziona Carica immagine e individua un file in formato JPG o PNG. La dimensione massima consentita del file è 18 MB.
Una volta caricata l’immagine, ne viene mostrata una miniatura con il nome, la dimensione del file e l’ultima data di modifica. Seleziona X per eliminare o sostituire l’immagine dalla sezione Carica.
Seleziona Analizza per iniziare l’analisi del rilevamento della filigrana.
L’immagine viene visualizzata in anteprima nella sezione Risultati e indica se viene rilevata una filigrana con Filigrana rilevata sotto l’immagine e un banner sull’immagine. Se non viene rilevata alcuna filigrana, il testo sotto l’immagine riporterà la dicitura Filigrana NON rilevata.
Per caricare l’immagine successiva, seleziona X nella miniatura dell’immagine nella sezione Carica e scegli una nuova immagine da analizzare.

Linee guida sulla progettazione dei prompt

Prompt maschera: questo algoritmo classifica i pixel in concetti. L'utente può fornire una richiesta di testo che verrà utilizzata per classificare le aree dell'immagine a cui applicare la maschera, in base all'interpretazione del prompt di maschera. L'opzione prompt può interpretare prompt più complessi e codificare la maschera nell'algoritmo di segmentazione.

Maschera di immagine: puoi anche utilizzare una maschera di immagine per impostare i valori della maschera. La maschera di immagine può essere combinata con l'input del prompt della maschera per migliorare la precisione. Il file maschera immagine deve rispettare i seguenti parametri:

I valori dell'immagine della maschera devono essere 0 (nero) o 255 (bianco) per l'immagine della maschera. L'area della maschera dell'immagine con il valore 0 verrà rigenerata con l'immagine dell'immagine di and/or input del prompt dell'utente.
Il campo maskImage deve essere una stringa di immagine con codifica base64.
L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input (stessa altezza e larghezza).
È possibile utilizzare solo file PNG o JPG per l'immagine di input e l'immagine della maschera.
L'immagine della maschera deve utilizzare solo valori di pixel in bianco e nero.
L’immagine della maschera può utilizzare solo i canali RGB (il canale alfa non è supportato).

Per ulteriori informazioni sulle linee guida di progettazione dei prompt del Generatore di immagini Amazon Titan G1, consulta Best practice di progettazione dei prompt dei modelli del Generatore di immagini Amazon Titan G1.

Per le linee guida generali sulla progettazione dei prompt, consulta Linee guida sulla progettazione dei prompt.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Incorporamenti multimodali G1

Pagine precedenti