Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Panoramica dei modelli Amazon Titan Image Generator G1
Amazon Titan Image Generator G1 è un modello di generazione di immagini. È disponibile in due versioni v1 e v2.
Amazon Titan Image Generator v1 consente agli utenti di generare e modificare immagini in modi versatili. Gli utenti possono creare immagini che corrispondono alle loro descrizioni testuali semplicemente inserendo istruzioni in linguaggio naturale. Inoltre, possono caricare e modificare immagini esistenti, inclusa l'applicazione di istruzioni basate su testo senza la necessità di una maschera o la modifica di parti specifiche di un'immagine utilizzando una maschera di immagine. Il modello supporta anche l'outpainting, che estende i confini di un'immagine, e l'inpainting, che riempie le aree mancanti. Offre la possibilità di generare variazioni di un'immagine sulla base di un messaggio di testo opzionale, oltre a opzioni di personalizzazione istantanea che consentono agli utenti di trasferire stili utilizzando immagini di riferimento o combinare stili da più riferimenti, il tutto senza richiedere alcuna regolazione di precisione.
Titan Image Generator v2 supporta tutte le funzionalità esistenti di Titan Image Generator v1 e aggiunge diverse nuove funzionalità. Consente agli utenti di sfruttare le immagini di riferimento per guidare la generazione delle immagini, in cui l'immagine di output si allinea al layout e alla composizione dell'immagine di riferimento pur seguendo le istruzioni testuali. Include anche una funzione di rimozione automatica dello sfondo, che può rimuovere gli sfondi dalle immagini contenenti più oggetti senza alcun input da parte dell'utente. Il modello offre un controllo preciso sulla tavolozza dei colori delle immagini generate, consentendo agli utenti di preservare l'identità visiva del marchio senza la necessità di ulteriori perfezionamenti. Inoltre, la funzione di coerenza del soggetto consente agli utenti di perfezionare il modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsetta) nelle immagini generate. Questa suite completa di funzionalità consente agli utenti di liberare il proprio potenziale creativo e dare vita alle proprie visioni fantasiose.
Per ulteriori informazioni sulle linee guida di progettazione dei modelli Amazon Titan Image Generator G1, consulta Amazon Titan Image Generator Prompt
Per continuare a supportare le migliori pratiche nell'uso responsabile dell'intelligenza artificiale, i Titan Foundation Models (FMs) sono progettati per rilevare e rimuovere i contenuti dannosi nei dati, rifiutare i contenuti inappropriati nell'input dell'utente e filtrare gli output dei modelli che contengono contenuti inappropriati (come incitamento all'odio, parolacce e violenza). Titan Image Generator FM aggiunge una filigrana invisibile e metadati C2PA a tutte le immagini generate.
Puoi utilizzare la funzione di rilevamento della filigrana nella console Amazon Bedrock o chiamare l'API di rilevamento della filigrana di Amazon Bedrock (anteprima) per verificare se un'immagine contiene una filigrana di Titan Image Generator. Puoi anche utilizzare siti come Content Credentials Verify per verificare
Panoramica di Amazon Titan Image Generator v1
ID modello:
amazon.titan-image-generator-v1
Numero massimo di caratteri di input: 512 caratteri
Dimensione massima dell'immagine di input: 5 MB (sono supportate solo alcune risoluzioni specifiche)
Dimensione massima dell'immagine con in/outpainting: 1.408 x 1.408 px
Dimensione massima dell'immagine utilizzando la variazione dell'immagine: 4.096 x 4.096 px
Lingue: inglese
Tipo di output: immagine
Tipi di immagini supportati: JPEG, JPG, PNG
Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata
Casi d'uso supportati: generazione di immagini, modifica delle immagini, variazioni delle immagini
Panoramica di Amazon Titan Image Generator v2
ID modello:
amazon.titan-image-generator-v2:0
Numero massimo di caratteri di input: 512 caratteri
Dimensione massima dell'immagine di input: 5 MB (sono supportate solo alcune risoluzioni specifiche)
Dimensione massima dell'immagine utilizzando la pittura in/outpainting, la rimozione dello sfondo, il condizionamento dell'immagine, la palette dei colori: 1.408 x 1.408 px
Dimensione massima dell'immagine utilizzando la variazione dell'immagine: 4.096 x 4.096 px
Lingue: inglese
Tipo di output: immagine
Tipi di immagini supportati: JPEG, JPG, PNG
Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata
Casi d'uso supportati: generazione di immagini, modifica delle immagini, variazioni delle immagini, rimozione dello sfondo, contenuti guidati dai colori
Funzionalità
-
Text-to-image Generazione (T2I): immette un prompt di testo e genera una nuova immagine come output. L'immagine generata acquisisce i concetti descritti dal prompt di testo.
-
Ottimizzazione di un modello T2I: importa diverse immagini per immortalare il tuo stile e la tua personalizzazione, quindi ottimizza il modello T2I principale. Il modello ottimizzato genera immagini che seguono lo stile e la personalizzazione di un utente specifico.
-
Opzioni di modifica delle immagini: includono: inpainting, outpainting, generazione di variazioni e modifica automatica senza maschera di immagine.
-
Inpainting: utilizza un'immagine e una maschera di segmentazione come input (forniti dall'utente o stimati dal modello) e ricostruisce la regione all'interno della maschera. Utilizza l'inpainting per rimuovere gli elementi con maschera e sostituirli con pixel di sfondo.
-
Outpainting: utilizza un'immagine e una maschera di segmentazione come input (forniti dall'utente o stimati dal modello) e genera nuovi pixel che estendono senza interruzioni la regione. Utilizza l'outpainting preciso per preservare i pixel dell'immagine con maschera quando estendi l'immagine fino ai confini. Utilizza l'outpainting predefinito per estendere i pixel dell'immagine con maschera fino ai confini dell'immagine in base alle impostazioni di segmentazione.
-
Variazione dell'immagine: utilizza da 1 a 5 immagini e un prompt opzionale come input. Genera una nuova immagine che conserva il contenuto delle immagini di input, ma ne modifica lo stile e lo sfondo.
-
Condizionamento dell'immagine: (solo V2) Utilizza un'immagine di riferimento di input per guidare la generazione dell'immagine. Il modello genera un'immagine di output che si allinea al layout e alla composizione dell'immagine di riferimento, pur seguendo le istruzioni testuali.
-
Coerenza del soggetto: (solo V2) La coerenza del soggetto consente agli utenti di ottimizzare il modello con immagini di riferimento per preservare il soggetto scelto (ad esempio, animale domestico, scarpa o borsetta) nelle immagini generate.
-
Contenuto guidato dai colori: (solo V2) È possibile fornire un elenco di codici cromatici esadecimali insieme a un prompt. È possibile fornire un intervallo da 1 a 10 codici esadecimali. L'immagine restituita da Titan Image Generator G1 V2 incorporerà la tavolozza dei colori fornita dall'utente.
-
Rimozione dello sfondo: (solo V2) Identifica automaticamente più oggetti nell'immagine di input e rimuove lo sfondo. L'immagine in uscita ha uno sfondo trasparente.
-
Provenienza dei contenuti: utilizza siti come Content Credentials Verify per verificare
se un'immagine è stata generata da Titan Image Generator. Questo dovrebbe indicare che l'immagine è stata generata a meno che i metadati non siano stati rimossi.
Nota
se state usando un modello perfezionato, non potete usare le funzioni di inpainting, outpainting o palette di colori dell'API o del modello.
Parametri
Per informazioni sui parametri di inferenza dei modelli Amazon Titan Image Generator G1, consulta Parametri di inferenza dei modelli Amazon Titan Image Generator G1.
Ottimizzazione
Per ulteriori informazioni sulla messa a punto dei modelli Amazon Titan Image Generator G1, consulta le pagine seguenti.
Ottimizzazione e prezzi dei modelli Amazon Titan Image Generator G1
Il modello utilizza la seguente formula di esempio per calcolare il prezzo totale per lavoro:
Prezzo totale = Fasi * Dimensione del batch * Prezzo per immagine vista
Valori minimi (auto):
-
Passi minimi (auto) - 500
-
Dimensione minima del lotto: 8
-
Tasso di apprendimento predefinito: 0,00001
-
Prezzo per immagine vista: 0,005
Ottimizzazione delle impostazioni degli iperparametri
Fasi: il numero di volte in cui il modello viene esposto a ciascun batch. Non è impostato un conteggio dei passaggi predefinito. È necessario selezionare un numero compreso tra 10 e 40.000 o un valore String pari a «Auto».
Impostazioni dei passaggi - Automatico: Amazon Bedrock determina un valore ragionevole in base alle informazioni di formazione. Seleziona questa opzione per dare priorità alle prestazioni del modello rispetto ai costi di formazione. Il numero di passaggi viene determinato automaticamente. Questo numero sarà in genere compreso tra 1.000 e 8.000 in base al set di dati. I costi del lavoro sono influenzati dal numero di passaggi utilizzati per esporre il modello ai dati. Consulta la sezione dedicata agli esempi di prezzo dei dettagli sui prezzi per capire come viene calcolato il costo del lavoro. (Vedi la tabella di esempio sopra riportata per vedere in che modo il conteggio dei passaggi è correlato al numero di immagini quando è selezionata l'opzione Auto).
Impostazioni dei passaggi - Personalizzate: puoi inserire il numero di passaggi in cui desideri che Bedrock esponga il tuo modello personalizzato ai dati di allenamento. Questo valore può essere compreso tra 10 e 40.000. È possibile ridurre il costo per immagine prodotta dal modello utilizzando un valore di conteggio dei passaggi inferiore.
Dimensione del batch: il numero di campioni elaborati prima dell'aggiornamento dei parametri del modello. Questo valore è compreso tra 8 e 192 ed è un multiplo di 8.
Tasso di apprendimento: la velocità con cui i parametri del modello vengono aggiornati dopo ogni batch di dati di addestramento. Si tratta di un valore flottante compreso tra 0 e 1. Il tasso di apprendimento è impostato su 0,00001 per impostazione predefinita.
Per ulteriori informazioni sulla procedura di messa a punto, consulta Inviare un processo di personalizzazione del modello.
Output
I modelli Amazon Titan Image Generator G1 utilizzano le dimensioni e la qualità dell'immagine di output per determinare il prezzo di un'immagine. I modelli Amazon Titan Image Generator G1 hanno due segmenti di prezzo in base alle dimensioni: uno per 512*512 immagini e un altro per 1024*1024 immagini. I prezzi si basano sulla dimensione dell'immagine (altezza*larghezza), inferiore o uguale a 512*512 o superiore a 512*512.
Per ulteriori informazioni sui prezzi di Amazon Bedrock, consulta la pagina dei prezzi di Amazon Bedrock
Rilevamento della filigrana
Nota
Il rilevamento delle filigrane per la console e l'API Amazon Bedrock è disponibile nella versione di anteprima pubblica e rileva solo una filigrana generata da Titan Image Generator G1. Questa funzionalità è attualmente disponibile solo nelle regioni e. us-west-2
us-east-1
Il rilevamento della filigrana è un rilevamento estremamente accurato della filigrana generata da Titan Image Generator G1. Le immagini modificate rispetto all'immagine originale possono produrre risultati di rilevamento meno accurati.
Questo modello aggiunge una filigrana invisibile a tutte le immagini generate per ridurre la diffusione di informazioni errate, contribuire alla protezione del copyright e tenere traccia dell'utilizzo dei contenuti. È disponibile un sistema di rilevamento della filigrana per aiutarvi a confermare se un'immagine è stata generata dal modello Titan Image Generator G1, che verifica l'esistenza di questa filigrana.
Nota
L'API Watermark Detection è disponibile in anteprima ed è soggetta a modifiche. Ti consigliamo di creare un ambiente virtuale per utilizzare l'SDK. Poiché il rilevamento delle filigrane APIs non è disponibile nella versione più recente SDKs, consigliamo di disinstallare l'ultima versione dell'SDK dall'ambiente virtuale prima di installare la versione con il rilevamento delle filigrane. APIs
Puoi caricare l'immagine per rilevare se sull'immagine è presente una filigrana di Titan Image Generator G1. Usa la console per rilevare una filigrana da questo modello seguendo i passaggi seguenti.
Per rilevare una filigrana con Titan Image Generator G1:
Apri la console Amazon Bedrock
. -
Seleziona Panoramica dal riquadro di navigazione in Amazon Bedrock. Scegli la scheda Build and Test.
-
Nella sezione Salvaguardie, vai a Rilevamento filigrana e scegli Visualizza rilevamento filigrana.
-
Seleziona Carica immagine e individua un file in formato JPG o PNG. La dimensione massima del file consentita è di 5 MB.
-
Una volta caricata, viene mostrata una miniatura dell'immagine con il nome, la dimensione del file e l'ultima data di modifica. Seleziona X per eliminare o sostituire l'immagine dalla sezione Carica.
-
Seleziona Analizza per iniziare l'analisi del rilevamento delle filigrane.
-
L'immagine viene visualizzata in anteprima nella sezione Risultati e indica se viene rilevata una filigrana con Filigrana rilevata sotto l'immagine e un banner sull'immagine. Se non viene rilevata alcuna filigrana, il testo sotto l'immagine riporterà la dicitura Filigrana NON rilevata.
-
Per caricare l'immagine successiva, seleziona X nella miniatura dell'immagine nella sezione Carica e scegli una nuova immagine da analizzare.
Linee guida sulla progettazione dei prompt
Prompt maschera: questo algoritmo classifica i pixel in concetti. L'utente può fornire una richiesta di testo che verrà utilizzata per classificare le aree dell'immagine a cui applicare la maschera, in base all'interpretazione del prompt di maschera. L'opzione prompt può interpretare prompt più complessi e codificare la maschera nell'algoritmo di segmentazione.
Maschera di immagine: puoi anche utilizzare una maschera di immagine per impostare i valori della maschera. La maschera di immagine può essere combinata con l'input del prompt della maschera per migliorare la precisione. Il file maschera immagine deve rispettare i seguenti parametri:
-
I valori dell'immagine della maschera devono essere 0 (nero) o 255 (bianco) per l'immagine della maschera. L'area della maschera dell'immagine con il valore 0 verrà rigenerata con l'immagine del prompt dell'utente e/o dell'immagine di input.
-
Il campo
maskImage
deve essere una stringa di immagine con codifica base64. -
L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input (stessa altezza e larghezza).
-
È possibile utilizzare solo file PNG o JPG per l'immagine di input e l'immagine della maschera.
-
L'immagine della maschera deve utilizzare solo valori di pixel in bianco e nero.
-
L'immagine della maschera può utilizzare solo i canali RGB (il canale alfa non è supportato).
Per ulteriori informazioni sulla progettazione dei prompt di Amazon Titan Image Generator, consulta i modelli Prompt Engineering di Amazon Titan Image Generator G1
Per le linee guida generali sulla progettazione dei prompt, consulta Linee guida sulla progettazione dei prompt.