Panoramica dei modelli del Generatore di immagini Amazon Titan G1 - Amazon Bedrock

Panoramica dei modelli del Generatore di immagini Amazon Titan G1

Il Generatore di immagini Amazon Titan G1 è un modello di generazione di immagini. È disponibile in due versioni: v1 e v2.

Il Generatore di immagini Amazon Titan v1 consente agli utenti di generare e modificare immagini in modi versatili. Gli utenti possono creare immagini che corrispondono alle descrizioni testuali semplicemente inserendo prompt in linguaggio naturale. Inoltre, possono caricare e modificare immagini esistenti, compresa l’applicazione di prompt basati su testo senza la necessità di una maschera o la modifica di parti specifiche di un’immagine utilizzando un’immagine maschera. Il modello supporta anche l’outpainting, che espande i limiti di un’immagine, e l’inpainting, che riempie le zone mancanti. Offre la possibilità di generare varianti di un’immagine sulla base di un prompt di testo opzionale, oltre a opzioni di personalizzazione istantanea che consentono agli utenti di trasferire stili utilizzando immagini di riferimento o di combinare stili da più riferimenti, il tutto senza richiedere alcun fine-tuning.

Il Generatore di immagini Titan v2 supporta tutte le funzionalità esistenti di Generatore di immagini Titan v1 e ne aggiunge molte di nuove. Consente agli utenti di utilizzare immagini di riferimento per guidare la generazione di immagini, in cui l’immagine di output è in linea con il layout e la composizione dell’immagine di riferimento pur seguendo il prompt di testo. Include inoltre una funzionalità di rimozione automatica dello sfondo, in grado di eliminare gli sfondi da immagini contenenti più oggetti senza alcun input da parte dell’utente. Il modello offre un controllo preciso sulla tavolozza dei colori delle immagini generate, consentendo agli utenti di preservare l’identità visiva del marchio senza la necessità di fine-tuning aggiuntivo. Inoltre, la funzionalità di coerenza del soggetto consente agli utenti di eseguire il fine-tuning del modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsa) nelle immagini generate. Questa suite completa di funzionalità consente agli utenti di liberare il proprio potenziale creativo e dare vita a idee fantasiose.

Per ulteriori informazioni sulle linee guida di progettazione dei prompt dei modelli del Generatore di immagini Amazon Titan G1, consulta Best practice di progettazione dei prompt dei modelli del Generatore di immagini Amazon Titan.

Per continuare a promuovere le best practice nell’uso responsabile dell’IA, i modelli di fondazione (FM) Titan sono stati sviluppati per individuare ed eliminare contenuti dannosi nei dati, respingere contenuti inappropriati negli input degli utenti e filtrare gli output dei modelli che includono contenuti inappropriati (ad esempio, incitamento all’odio, oscenità e violenza). Il modello di fondazione del Generatore di immagini Amazon Titan aggiunge una filigrana invisibile e metadati C2PA a tutte le immagini generate.

Puoi utilizzare la funzionalità di rilevamento della filigrana nella console Amazon Bedrock o effettuare la chiamata dell’API di rilevamento della filigrana di Amazon Bedrock (anteprima) per verificare se un’immagine contiene una filigrana del Generatore di immagini Amazon Titan. Puoi anche utilizzare siti come Content Credentials Verify per verificare se un’immagine è stata generata dal Generatore di immagini Amazon Titan.

Panoramica del Generatore di immagini Amazon Titan v1

  • ID modelloamazon.titan-image-generator-v1

  • Numero massimo di caratteri di input: 512 caratteri

  • Dimensione massima dell’immagine di input: 5 MB (sono supportate solo alcune risoluzioni specifiche)

  • Dimensione massima dell’immagine con in/outpainting: 1.408 x 1.408 px

  • Dimensione massima dell’immagine utilizzando la variazione dell’immagine: 4.096 x 4.096 px

  • Lingue: inglese

  • Tipo di output: immagine

  • Tipi di immagini supportati: JPEG, JPG, PNG

  • Tipi di inferenza: on demand, velocità di trasmissione effettiva allocata

  • Casi d'uso supportati: generazione di immagini, modifica delle immagini, variazioni delle immagini

Panoramica del Generatore di immagini Amazon Titan v2

  • ID modelloamazon.titan-image-generator-v2:0

  • Numero massimo di caratteri di input: 512 caratteri

  • Dimensione massima dell’immagine di input: 5 MB (sono supportate solo alcune risoluzioni specifiche)

  • Dimensione massima dell’immagine con in/outpainting, rimozione dello sfondo, condizionamento dell’immagine, palette di colori: 1.408 x 1.408 px

  • Dimensione massima dell’immagine utilizzando la variazione dell’immagine: 4.096 x 4.096 px

  • Lingue: inglese

  • Tipo di output: immagine

  • Tipi di immagini supportati: JPEG, JPG, PNG

  • Tipi di inferenza: on demand, velocità di trasmissione effettiva allocata

  • Casi d’uso supportati: generazione di immagini, modifica delle immagini, variazioni delle immagini, rimozione dello sfondo, contenuto guidato dai colori

Funzionalità

  • Generazione da testo a immagine (T2I): immette un prompt di testo e genera una nuova immagine come output. L'immagine generata acquisisce i concetti descritti dal prompt di testo.

  • Ottimizzazione di un modello T2I: importa diverse immagini per immortalare il tuo stile e la tua personalizzazione, quindi ottimizza il modello T2I principale. Il modello ottimizzato con fine-tuning genera immagini che seguono lo stile e la personalizzazione di un utente specifico.

  • Opzioni di modifica delle immagini: includono inpainting, outpainting, generazione di variazioni e modifica automatica senza maschera di immagine.

  • Inpainting: utilizza un’immagine e una maschera di segmentazione come input (fornite dall’utente o da una stima del modello) e ricostruisce la Regione all’interno della maschera. Utilizza l'inpainting per rimuovere gli elementi con maschera e sostituirli con pixel di sfondo.

  • Outpainting: utilizza un'immagine e una maschera di segmentazione come input (forniti dall'utente o da una stima del modello) e genera nuovi pixel che estendono senza interruzioni la Regione. Utilizza l'outpainting preciso per preservare i pixel dell'immagine con maschera quando estendi l'immagine fino ai confini. Utilizza l’outpainting predefinito per estendere i pixel dell’immagine con maschera fino ai confini dell’immagine in base alle impostazioni di segmentazione.

  • Variazione dell’immagine: utilizza da 1 a 5 immagini e un prompt opzionale come input. Genera una nuova immagine che conserva il contenuto delle immagini di input, ma ne modifica lo stile e lo sfondo.

  • Condizionamento delle immagini: (solo V2) utilizza un’immagine di riferimento per guidare la generazione. Il modello genera un’immagine di output in linea con il layout e la composizione dell’immagine di riferimento pur seguendo il prompt di testo.

  • Coerenza del soggetto: (solo V2) la coerenza del soggetto si ottiene eseguendo il fine-tuning del modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsa) nelle immagini generate.

  • Contenuto guidato dai colori: (solo V2) puoi fornire un elenco di codici colore esadecimali insieme a un prompt. Puoi fornire un intervallo da 1 a 10 codici esadecimali. L’immagine restituita da Titan Image Generator G1 V2 conterrà la palette di colori fornita dall’utente.

  • Rimozione dello sfondo: (solo V2) identifica automaticamente più oggetti nell’immagine di input e rimuove lo sfondo. L’immagine di output ha uno sfondo trasparente.

  • Provenienza dei contenuti: utilizza siti come Content Credentials Verify per verificare se un’immagine è stata generata dal Generatore di immagini Amazon Titan. La verifica indica che l’immagine è stata generata, a meno che i metadati non siano stati rimossi.

Nota

Se utilizzi un modello ottimizzato con fine-tuning, non puoi utilizzare le funzionalità di inpainting, outpainting o palette di colori dell’API o del modello.

Parametri

Per informazioni sui parametri di inferenza del Generatore di immagini Amazon Titan G1, consulta Parametri di inferenza dei modelli del Generatore di immagini Amazon Titan G1.

Fine-tuning

Per ulteriori informazioni sul fine-tuning dei modelli del Generatore di immagini Amazon Titan G1, consulta le pagine seguenti.

Fine-tuning e prezzi dei modelli del Generatore di immagini Amazon Titan G1

Il modello utilizza la seguente formula di esempio per calcolare il prezzo totale per processo:

Prezzo totale = Fasi * Dimensione del batch * Prezzo per immagine vista

Valori minimi (auto):

  • Fasi minime (auto): 500

  • Dimensione minima batch: 8

  • Tasso di apprendimento predefinito: 0,00001

  • Prezzo per immagine vista: 0,005

Fine-tuning delle impostazioni degli iperparametri

Fasi: numero di volte in cui il modello viene esposto a ciascun batch. Non è impostato un conteggio delle fasi predefinito. È necessario selezionare un numero compreso tra 10 e 40.000 o un valore String pari a “Auto”.

Impostazioni fasi - Automatica: Amazon Bedrock determina un valore ragionevole in base alle informazioni di formazione. Seleziona questa opzione per dare priorità alle prestazioni del modello rispetto ai costi di formazione. Il numero di fasi viene determinato automaticamente. Questo numero sarà generalmente compreso tra 1.000 e 8.000 in base al tuo set di dati. I costi del processo sono influenzati dal numero di fasi utilizzate per esporre il modello ai dati. Consulta la sezione degli esempi di prezzi nei dettagli sui prezzi per capire come viene calcolato il costo del processo. (Vedi la tabella di esempio sopra per capire come il conteggio delle fasi è correlato al numero di immagini quando è selezionata l’opzione Auto.)

Impostazioni delle fasi - Personalizzate: puoi inserire il numero di fasi in cui desideri che Bedrock esponga il tuo modello personalizzato ai dati di addestramento. Il valore deve essere compreso tra 10 e 40.000. Puoi ridurre il costo per immagine prodotta dal modello utilizzando un valore di conteggio delle fasi inferiore.

Dimensione batch: il numero di campioni elaborati prima dell’aggiornamento dei parametri del modello. Questo valore è compreso tra 8 e 192 ed è un multiplo di 8.

Velocità di apprendimento: la velocità con cui i parametri del modello vengono aggiornati dopo ogni batch di dati di addestramento. Si tratta di un valore float compreso tra 0 e 1. La velocità di apprendimento è impostata in modo predefinito su 0,00001.

Per ulteriori informazioni sulla procedura di fine-tuning, consulta Invio di un processo di personalizzazione del modello.

Output

Il Generatore di immagini Amazon Titan G1 utilizza la dimensione e la qualità dell’immagine di output per determinare il costo di un’immagine. I modelli del Generatore di immagini Amazon Titan G1 hanno due segmenti di prezzo in base alle dimensioni: uno per immagini 512*512 e un altro per immagini 1.024*1.024. I prezzi si basano sulla dimensione dell’immagine (altezza*larghezza), inferiore o uguale a 512*512 o superiore a 512*512.

Per ulteriori informazioni sui prezzi di Amazon Bedrock, consulta Prezzi di Amazon Bedrock.

Rilevamento della filigrana

Nota

Il rilevamento della filigrana per la console e l’API di Amazon Bedrock è disponibile nella versione di anteprima pubblica e rileva solo una filigrana generata dal Generatore di immagini Amazon Titan G1. Questa funzionalità non è al momento disponibile nelle Regioni us-west-2 e us-east-1. Il rilevamento della filigrana è un processo altamente accurato per individuare la filigrana generata dal Generatore di immagini Amazon Titan G1. Le immagini modificate rispetto all’immagine originale possono produrre risultati meno accurati.

Questo modello aggiunge una filigrana invisibile a tutte le immagini generate per ridurre la diffusione di disinformazione, contribuire alla protezione del copyright e monitorare l’utilizzo dei contenuti. Il rilevamento delle filigrane è disponibile per aiutarti a confermare se un’immagine è stata generata dal modello di Generatore di immagini Amazon Titan G1, che controlla se questa filigrana è presente.

Nota

L’API di rilevamento della filigrana è disponibile nella versione di anteprima ed è soggetta a modifiche. Consigliamo di creare un nuovo ambiente virtuale per utilizzare l’SDK. Poiché le API di rilevamento della filigrana non sono disponibili negli SDK più recenti, consigliamo di disinstallare l’ultima versione dell’SDK dall’ambiente virtuale prima di installare la versione con le API di rilevamento della filigrana.

Puoi caricare l’immagine per rilevare se su di essa è presente una filigrana del Generatore di immagini Amazon Titan G1. Utilizza la console per rilevare una filigrana da questo modello seguendo queste fasi.

Per rilevare una filigrana con il Generatore di immagini Amazon Titan G1:
  1. Apri la console Amazon Bedrock da console Amazon Bedrock.

  2. Seleziona Panoramica dal riquadro di navigazione di Amazon Bedrock. Scegli la scheda Crea e testa.

  3. Nella sezione Misure di salvaguardia, vai a Rilevamento della filigrana e scegli Visualizza il rilevamento della filigrana.

  4. Seleziona Carica immagine e individua un file in formato JPG o PNG. La dimensione massima consentita per il file è di 5 MB.

  5. Una volta caricata l’immagine, ne viene mostrata una miniatura con il nome, la dimensione del file e l’ultima data di modifica. Seleziona X per eliminare o sostituire l’immagine dalla sezione Carica.

  6. Seleziona Analizza per iniziare l’analisi del rilevamento della filigrana.

  7. L’immagine viene visualizzata in anteprima nella sezione Risultati e indica se viene rilevata una filigrana con Filigrana rilevata sotto l’immagine e un banner sull’immagine. Se non viene rilevata alcuna filigrana, il testo sotto l’immagine riporterà la dicitura Filigrana NON rilevata.

  8. Per caricare l’immagine successiva, seleziona X nella miniatura dell’immagine nella sezione Carica e scegli una nuova immagine da analizzare.

Linee guida sulla progettazione dei prompt

Prompt maschera: questo algoritmo classifica i pixel in concetti. L'utente può fornire una richiesta di testo che verrà utilizzata per classificare le aree dell'immagine a cui applicare la maschera, in base all'interpretazione del prompt di maschera. L'opzione prompt può interpretare prompt più complessi e codificare la maschera nell'algoritmo di segmentazione.

Maschera di immagine: puoi anche utilizzare una maschera di immagine per impostare i valori della maschera. La maschera di immagine può essere combinata con l'input del prompt della maschera per migliorare la precisione. Il file maschera immagine deve rispettare i seguenti parametri:

  • I valori dell'immagine della maschera devono essere 0 (nero) o 255 (bianco) per l'immagine della maschera. L'area della maschera dell'immagine con il valore 0 verrà rigenerata con l'immagine del prompt dell'utente e/o dell'immagine di input.

  • Il campo maskImage deve essere una stringa di immagine con codifica base64.

  • L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input (stessa altezza e larghezza).

  • È possibile utilizzare solo file PNG o JPG per l'immagine di input e l'immagine della maschera.

  • L'immagine della maschera deve utilizzare solo valori di pixel in bianco e nero.

  • L’immagine della maschera può utilizzare solo i canali RGB (il canale alfa non è supportato).

Per ulteriori informazioni sulle linee guida di progettazione dei prompt del Generatore di immagini Amazon Titan G1, consulta Best practice di progettazione dei prompt dei modelli del Generatore di immagini Amazon Titan G1.

Per le linee guida generali sulla progettazione dei prompt, consulta Linee guida sulla progettazione dei prompt.