Struttura di richiesta e risposta per la generazione di immagini

Generazione di immagini

Gli esempi seguenti presentano diversi casi d'uso per la generazione di immagini. Ogni esempio fornisce una spiegazione dei campi utilizzati per la generazione di immagini.

Text-to-image request


{
    "taskType": "TEXT_IMAGE",
    "textToImageParams": {
        "text": string,
        "negativeText": string,
        "style": "3D_ANIMATED_FAMILY_FILM" |
        "DESIGN_SKETCH" | "FLAT_VECTOR_ILLUSTRATION" |
        "GRAPHIC_NOVEL_ILLUSTRATION" | "MAXIMALISM" |
        "MIDCENTURY_RETRO" | "PHOTOREALISM" |
        "SOFT_DIGITAL_PAINTING"
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

In questa richiesta vengono utilizzati textToImageParams i seguenti campi:

text(Obbligatorio): una richiesta di testo per generare l'immagine. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.
style(Facoltativo): specifica lo stile utilizzato per generare l'immagine. Per ulteriori informazioni, consulta Stili visivi.

Nota

Evita di usare parole negative («no», «non», «senza», ecc.) nei tuoi valoritext. negativeText Ad esempio, se non vuoi che l'immagine contenga specchi, invece di includere «senza specchi» o «senza specchi» nel text campo, usa la parola «specchi» nel campo. negativeText

Text-to-image request with image conditioning


{
    "taskType": "TEXT_IMAGE",
    "textToImageParams": {
        "conditionImage": string (Base64 encoded image),
        "controlMode": "CANNY_EDGE" | "SEGMENTATION", 
        "controlStrength": float,
        "text": string,
        "negativeText": string,
        "style": "3D_ANIMATED_FAMILY_FILM" |
        "DESIGN_SKETCH" | "FLAT_VECTOR_ILLUSTRATION" |
        "GRAPHIC_NOVEL_ILLUSTRATION" | "MAXIMALISM" |
        "MIDCENTURY_RETRO" | "PHOTOREALISM" |
        "SOFT_DIGITAL_PAINTING"
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

In questa richiesta vengono utilizzati textToImageParams i seguenti campi:

conditionImage(Obbligatorio): un'immagine JPEG o PNG che guida il layout e la composizione dell'immagine generata. L'immagine deve essere formattata come stringa Base64. Vedi Immagini di input per la generazione di immagini per ulteriori requisiti.
controlMode(Facoltativo): specifica la modalità di condizionamento da utilizzare. Il valore predefinito è «CANNY_EDGE».
- CANNY_EDGE— Gli elementi dell'immagine generata seguiranno da vicino i contorni prominenti, o «bordi», dell'immagine della condizione.
- SEGMENTATION— L'immagine della condizione verrà analizzata automaticamente per identificare le forme di contenuto più importanti. Questa analisi produce una maschera di segmentazione che guida la generazione, ottenendo un'immagine generata che segue da vicino il layout dell'immagine condizionale ma consente al modello una maggiore libertà entro i limiti di ciascuna area di contenuto.
controlStrength(Facoltativo): specifica quanto devono essere simili il layout e la composizione dell'immagine generata a. conditionImage L'intervallo è compreso tra 0 e 1,0 e valori inferiori introducono una maggiore casualità. Il valore predefinito è 0,7.
text(Obbligatorio): una richiesta di testo per generare l'immagine. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.
style(Facoltativo): specifica lo stile utilizzato per generare l'immagine. Per ulteriori informazioni, consulta Stili visivi.

Nota

Color guided image generation request


{
    "taskType": "COLOR_GUIDED_GENERATION",
    "colorGuidedGenerationParams": {
        "colors": string[] (list of hexadecimal color values),
        "referenceImage": string (Base64 encoded image),
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

In questa richiesta vengono utilizzati colorGuidedGenerationParams i seguenti campi:

colors(Obbligatorio): un elenco di un massimo di 10 codici colore che definiscono la tavolozza di colori desiderata per l'immagine. Espressi come valori esadecimali nel formato "#RRGGBB». Ad esempio, "#00FF00" è verde puro e «# FCF2 AB» è un giallo caldo. L'colorselenco ha l'effetto più forte quando a non referenceImage viene fornito. Altrimenti, i colori dell'elenco e i colori dell'immagine di riferimento verranno entrambi utilizzati nell'output finale.
referenceImage(Facoltativo): un'immagine JPEG o PNG da utilizzare come soggetto e riferimento di stile. I colori dell'immagine verranno incorporati anche nell'output finale, insieme ai colori dell'colorselenco. Immagini di input per la generazione di immaginiPer ulteriori requisiti, consulta la sezione.
text(Obbligatorio): una richiesta di testo per generare l'immagine. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.

Nota

Evita di usare parole negative («no», «non», «senza», ecc.) nei tuoi text valori. negativeText Ad esempio, se non vuoi che l'immagine contenga specchi, invece di includere «senza specchi» o «senza specchi» nel text campo, usa la parola «specchi» nel campo. negativeText

Image variation request


{
    "taskType": "IMAGE_VARIATION",
    "imageVariationParams": {
        "images": string[] (list of Base64 encoded images),
        "similarityStrength": float,
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "height": int,
        "width": int,
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

In questa richiesta vengono utilizzati imageVariationParams i seguenti campi:

images(Obbligatorio): un elenco di 1—5 immagini da utilizzare come riferimenti. Ciascuna deve essere in formato JPEG o PNG e codificata come stringhe Base64. Vedi per ulteriori requisiti. Immagini di input per la generazione di immagini
similarityStrength(Facoltativo): specifica quanto deve essere simile l'immagine generata alle immagini di input. I valori validi sono compresi tra 0,2-1,0, mentre i valori più bassi vengono utilizzati per introdurre una maggiore casualità.
text(Obbligatorio): una richiesta di testo per generare l'immagine. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri. Se omettete questo campo, il modello rimuoverà gli elementi all'interno dell'area mascherata. Verranno sostituiti con un'estensione continua dello sfondo dell'immagine.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.

Nota

Modifica delle immagini

Gli esempi seguenti presentano diversi casi d'uso per la modifica delle immagini. Ogni esempio fornisce una spiegazione dei campi utilizzati per modificare l'immagine.

Inpainting request


{
    "taskType": "INPAINTING",
    "inPaintingParams": {
        "image": string (Base64 encoded image),
        "maskPrompt": string,
        "maskImage": string (Base64 encoded image),
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "numberOfImages": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int
    }
}

In questa richiesta vengono utilizzati inPaintingParams i seguenti campi:

image(Obbligatorio): il formato JPEG o PNG da modificare, formattato come stringa Base64. Per ulteriori requisiti, consulta la sezioneImmagini di input per la generazione di immagini.
maskPrompto maskImage (Obbligatorio): è necessario specificare il parametro maskPrompt o il maskImage parametro, ma non entrambi.

maskPromptÈ un prompt di testo in linguaggio naturale che descrive le aree dell'immagine da modificare.

maskImageÈ un'immagine che definisce le aree dell'immagine da modificare. L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input. Le aree da modificare sono ombreggiate in nero puro e le aree da ignorare sono ombreggiate in bianco puro. Non sono ammessi altri colori nell'immagine della maschera.

Nota che le richieste di inpainting e outpainting sono opposte per quanto riguarda i requisiti cromatici delle immagini della maschera.
text(Obbligatorio): un messaggio di testo che descrive cosa generare all'interno dell'area mascherata. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri. Se omettete questo campo, il modello rimuoverà gli elementi all'interno dell'area mascherata. Verranno sostituiti con un'estensione continua dello sfondo dell'immagine.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.

Nota

Outpainting request


{
    "taskType": "OUTPAINTING",
    "outPaintingParams": {
        "image": string (Base64 encoded image),
        "maskPrompt": string,
        "maskImage": string (Base64 encoded image),
        "outPaintingMode": "DEFAULT" | "PRECISE",
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "numberOfImages": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int
    }
}

In questa richiesta vengono utilizzati outPaintingParams i seguenti campi:

image(Obbligatorio): il formato JPEG o PNG da modificare, formattato come stringa Base64. Per ulteriori requisiti, consulta la sezioneImmagini di input per la generazione di immagini.
maskPrompto maskImage (Obbligatorio): è necessario specificare il parametro maskPrompt o il maskImage parametro, ma non entrambi.

maskPromptÈ un prompt di testo in linguaggio naturale che descrive le aree dell'immagine da modificare.

maskImageÈ un'immagine che definisce le aree dell'immagine da modificare. L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input. Le aree da modificare sono ombreggiate in nero puro e le aree da ignorare sono ombreggiate in bianco puro. Non sono ammessi altri colori nell'immagine della maschera.

Nota che le richieste di inpainting e outpainting sono opposte per quanto riguarda i requisiti cromatici delle immagini della maschera.
outPaintingMode- Determina come viene interpretata la maschera fornita.

Si usa DEFAULT per passare senza problemi tra l'area mascherata e l'area non mascherata. Alcuni dei pixel originali vengono utilizzati come punto di partenza per il nuovo sfondo. Questa modalità è generalmente migliore quando si desidera che il nuovo sfondo utilizzi colori simili a quelli dello sfondo originale. Tuttavia, è possibile ottenere un effetto alone se il prompt richiede un nuovo sfondo significativamente diverso dallo sfondo originale.

PRECISEDa utilizzare per rispettare rigorosamente i confini della maschera. Questa modalità è generalmente migliore quando si apportano modifiche significative allo sfondo.
text(Obbligatorio): un messaggio di testo che descrive cosa generare all'interno dell'area mascherata. La lunghezza del prompt deve essere compresa tra 1 e 1024 caratteri. Se omettete questo campo, il modello rimuoverà gli elementi all'interno dell'area mascherata. Verranno sostituiti con un'estensione continua dello sfondo dell'immagine.
negativeText(Facoltativo): un messaggio di testo per definire cosa non includere nell'immagine. Questo valore deve avere una lunghezza compresa tra 1 e 1024 caratteri.

Nota

Background removal request


{
    "taskType": "BACKGROUND_REMOVAL",
    "backgroundRemovalParams": {
        "image": string (Base64 encoded image)
    }
}

In questa richiesta viene utilizzato il seguente backgroundRemovalParams campo:

image(Obbligatorio): il formato JPEG o PNG che si desidera modificare, formattato come stringa Base64. Per ulteriori requisiti, consulta la sezioneImmagini di input per la generazione di immagini.

L'BACKGROUND_REMOVALoperazione restituirà un'immagine PNG con trasparenza completa a 8 bit. Questo formato offre un isolamento uniforme e pulito degli oggetti in primo piano e semplifica la composizione dell'immagine con altri elementi in un'app di modifica delle immagini, una presentazione o un sito Web. Lo sfondo può essere facilmente modificato in un colore solido utilizzando un semplice codice personalizzato.

Virtual try-on


{
    "taskType": "VIRTUAL_TRY_ON",
    "virtualTryOnParams": {
        "sourceImage": string (Base64 encoded image),
        "referenceImage": string (Base64 encoded image),
        "maskType": "IMAGE" | "GARMENT" | "PROMPT",
        "imageBasedMask":{
            "maskImage": string (Base64 encoded image),
        },
        "garmentBasedMask":{
            "maskShape": "CONTOUR" | "BOUNDING_BOX" | "DEFAULT",
            "garmentClass": "UPPER_BODY" | "LOWER_BODY" |
            "FULL_BODY" | "FOOTWEAR" | "LONG_SLEEVE_SHIRT" |
            "SHORT_SLEEVE_SHIRT" | "NO_SLEEVE_SHIRT" |
            "OTHER_UPPER_BODY" | "LONG_PANTS" | "SHORT_PANTS" |
            "OTHER_LOWER_BODY" | "LONG_DRESS" | "SHORT_DRESS" |
            "FULL_BODY_OUTFIT" | "OTHER_FULL_BODY" | "SHOES" |
            "BOOTS" | "OTHER_FOOTWEAR",
            "garmentStyling":{ 
                "longSleeveStyle": "SLEEVE_DOWN" | "SLEEVE_UP",
                "tuckingStyle": "UNTUCKED" | "TUCKED",
                "outerLayerStyle": "CLOSED" | "OPEN",
            }
        },
        "promptBasedMask":{
            "maskShape": "BOUNDING_BOX" | "CONTOUR" | "DEFAULT",
            "maskPrompt": string,
        },
        "maskExclusions": { 
            "preserveBodyPose": "ON" | "OFF" | "DEFAULT",
            "preserveHands": "ON" | "OFF" | "DEFAULT",
            "preserveFace": "OFF" | "ON" | "DEFAULT"
        },
        "mergeStyle" : "BALANCED" | "SEAMLESS" | "DETAILED" ,
        "returnMask": boolean,
    },
    "imageGenerationConfig": {
        "numberOfImages": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int
    }
}

In questa richiesta vengono utilizzati virtualTryOnParams i seguenti campi:

sourceImage(Obbligatorio): il formato JPEG o PNG che si desidera modificare, formattato come stringa Base64. Per ulteriori requisiti, consulta la sezioneImmagini di input per la generazione di immagini.
referenceImage(Obbligatorio): il formato JPEG o PNG che contiene l'oggetto da sovrapporre all'immagine sorgente, formattato come stringa Base64. Per ulteriori Immagini di input per la generazione di immagini requisiti, consulta la sezione.
maskType(Obbligatorio): specifica se la maschera viene fornita come immagine, messaggio o maschera per indumenti.
imageBasedMask— Obbligatoria quando è. maskType "IMAGE"

maskImageÈ un'immagine che definisce le aree dell'immagine da modificare. L'immagine della maschera deve avere le stesse dimensioni dell'immagine di input. Le aree da modificare sono ombreggiate in nero puro e le aree da ignorare sono ombreggiate in bianco puro. Non sono ammessi altri colori nell'immagine della maschera.
garmentBasedMask— Richiesto quando maskType è"GARMENT".
- maskShape(Facoltativo) — Definisce la forma del riquadro di delimitazione della maschera. La forma e le dimensioni del riquadro di selezione possono influire sul modo in cui l'immagine di riferimento viene trasferita all'immagine sorgente.
- garmentClass(Obbligatorio): definisce il capo di abbigliamento che viene trasferito. Questo parametro consente al modello di concentrarsi su parti specifiche dell'immagine di riferimento che si desidera trasferire.
- garmentStyling(Facoltativo) — Fornisce spunti di stile al modello per determinati capi di abbigliamento. I tuckingStyle parametri longSleeveStyle and si applicano solo agli indumenti per la parte superiore del corpo. Il outerLayerStyle parametro si applica solo allo strato esterno, agli indumenti per la parte superiore del corpo.
promptBasedMask(Obbligatorio) — Obbligatorio quando lo maskType è"PROMPT".
- maskShape(Facoltativo) — Definisce la forma del riquadro di delimitazione della maschera. La forma e le dimensioni del riquadro di selezione possono influire sul modo in cui l'immagine di riferimento viene trasferita all'immagine sorgente.
- maskPrompt(Obbligatorio): un messaggio di testo in linguaggio naturale che descrive le aree dell'immagine da modificare.
maskExclusions(Facoltativo) — Quando viene rilevata una persona nell'immagine sorgente, questi parametri determinano se la posa del corpo, le mani e il viso devono essere mantenuti nell'immagine di output o rigenerati.
mergeStyle(Facoltativo): determina il modo in cui le immagini di origine e di riferimento vengono unite. Ogni stile di fusione adotta un approccio diverso al modo in cui unisce gli elementi per creare l'immagine finale, ognuno con i propri vantaggi e compromessi.
- "BALANCED"- Protegge i pixel non mascherati dell'immagine originale, assicurando che rimangano accurati al 100% rispetto all'originale. In alcuni casi, nell'immagine di output si noterà una leggera discrepanza percettibile nel colore o nella texture, che si presenta come una sorta di immagine «fantasma» della forma della maschera. Ciò è più probabile che si verifichi quando l'immagine mostra una persona in piedi su uno sfondo a tinta unita o con texture uniforme. Per evitare ciò, puoi invece utilizzare lo stile di "SEAMLESS" unione.
- "SEAMLESS"- Assicura che non vi sia mai una linea di giunzione evidente tra le aree delle immagini mascherate e quelle non mascherate nell'immagine finale. Il compromesso è che questa modalità fa sì che tutti i pixel dell'immagine cambino leggermente e talvolta può ridurre i dettagli a grana fine nelle aree non mascherate dell'immagine.
- "DETAILED"- Può migliorare notevolmente i dettagli a grana fine come loghi e testo, specialmente quando l'area mascherata è relativamente piccola rispetto all'immagine complessiva. Il modello ottiene questo risultato eseguendo l'inpainting su una versione dell'immagine originale, ben ritagliata e ad alta risoluzione, che include solo l'area mascherata. Quindi unisce nuovamente il risultato nell'immagine originale. Analogamente alla "BALANCED" modalità di utilizzo, questa modalità a volte può generare una cucitura visibile.
returnMask(Facoltativo): specifica se l'immagine della maschera viene restituita con l'immagine di output.

Corpo di risposta

Il corpo della risposta conterrà uno o più dei seguenti campi:


{
    "images": "images": string[] (list of Base64 encoded images),
    "maskImage": string (Base64 encoded image),
    "error": string
}

images— In caso di successo, viene restituito un elenco di stringhe codificate in Base64 che rappresentano ogni immagine generata. Questo elenco non contiene sempre lo stesso numero di immagini richieste. Le singole immagini potrebbero essere bloccate dopo la generazione se non sono in linea con la politica di moderazione dei contenuti di AWS Responsible AI (RAI). Vengono restituite solo le immagini in linea con la politica RAI.
maskImage- Quando hai specificato che l'immagine della maschera deve essere restituita con l'output, è qui che viene restituita.
error— Se un'immagine non è in linea con la politica RAI, questo campo viene restituito. Altrimenti, questo campo viene omesso dalla risposta.

Il imageGenerationConfig campo è comune a tutti i tipi di attività tranneBACKGROUND_REMOVAL. È facoltativo e contiene i seguenti campi. Se si omette questo oggetto, vengono utilizzate le configurazioni predefinite.

widthe height (Facoltativo): definisce le dimensioni e le proporzioni dell'immagine generata. Entrambi i valori predefiniti sono 1024.

heightI valori width and non devono essere forniti per i tipi di "VIRTUAL_TRY_ON" attività "INPAINTING""OUTPAINTING", o.

Per l'elenco completo delle risoluzioni supportate, vedereRisoluzioni di immagine supportate.
quality(Facoltativo): specifica la qualità da utilizzare per la generazione dell'immagine: «standard» (impostazione predefinita) o «premium».
cfgScale(Facoltativo): specifica con quale rigore il modello deve rispettare il prompt. I valori vanno da 1,1 a 10 inclusi e il valore predefinito è 6,5.
- Valori bassi (1,1-3): maggiore libertà creativa per l'intelligenza artificiale, potenzialmente più estetica, ma basso contrasto e risultati meno immediati
- Valori medi (4-7): approccio bilanciato, generalmente consigliato per la maggior parte delle generazioni
- Valori elevati (8-10): aderenza rigorosa e tempestiva, che può produrre risultati più precisi, ma a volte a scapito dell'estetica naturale e di una maggiore saturazione del colore
numberOfImages(Facoltativo): il numero di immagini da generare.

Minimo Massimo Predefinita

1 5 1
seed(Facoltativo) — Determina l'impostazione iniziale del rumore per il processo di generazione. La modifica del valore iniziale lasciando invariati tutti gli altri parametri produrrà un'immagine completamente nuova che aderisce ancora al prompt, alle dimensioni e ad altre impostazioni. È comune sperimentare una varietà di valori iniziali per trovare l'immagine perfetta.

Minimo Massimo Predefinita

0 2.147.483.646 12

Minimo	Massimo	Predefinita
1	5	1

Minimo	Massimo	Predefinita
0	2.147.483.646	12

Importante

La risoluzione (widtheheight) e quality tutti hanno un impatto sul tempo necessario al completamento della generazione. numberOfImages L' AWS SDK ha un valore predefinito read_timeout di 60 secondi, che può essere facilmente superato quando si utilizzano valori più alti per questi parametri. Pertanto, si consiglia di aumentare il numero di chiamate read_timeout di invocazione ad almeno 5 minuti (300 secondi). Gli esempi di codice mostrano come eseguire questa operazione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Stili visivi

Gestione degli errori