Linee guida multimodali generali Comprensione di documenti e immagini Comprensione dei video

Richiesta di ingressi multimodali

Le seguenti sezioni forniscono indicazioni per la comprensione di immagini e video. Per suggerimenti relativi all'audio, consultate la sezione. Istruzioni per le conversazioni vocali

Linee guida multimodali generali

Istruzioni per l'utente e istruzioni di sistema

Per i casi d'uso relativi alla comprensione multimodale, ogni richiesta deve includere il testo del prompt dell'utente. I prompt di sistema, che possono contenere solo testo, sono facoltativi.

I prompt di sistema possono essere utilizzati per specificare un personaggio per il modello e per definire la personalità generale e lo stile di risposta, ma non devono essere utilizzati per la definizione dettagliata delle attività o per istruzioni di formattazione dell'output.

Includi la definizione delle attività, le istruzioni e i dettagli di formattazione nel prompt dell'utente per avere un effetto più efficace rispetto al prompt di sistema per i casi d'uso multimodali.

Ordine dei contenuti

Una richiesta di comprensione multimodale inviata ad Amazon Nova deve contenere uno o più file e un prompt utente. Il prompt di testo dell'utente deve essere l'ultimo elemento del messaggio, sempre dopo il contenuto dell'immagine, del documento o del video.


message = {
  "role": "user",
  "content": [
    { "document|image|video|audio": {...} },
    { "document|image|video|audio": {...} },
    ...
    { "text": "<user prompt>" }
  ]
}

Nei casi in cui desideri fare riferimento a file specifici dall'interno del prompt utente, utilizza gli elementi «testo» per definire le etichette che precedono ogni blocco di file.


message = {
  "role": "user",
  "content": [
    { "text": "<label for item 1>" },
    { "document|image|video|audio": {...} },
    { "text": "<label for item 2>" },
    { "document|image|video|audio": {...} },
    ...
    { "text": "<user prompt>" }
  ]
}

Comprensione di documenti e immagini

Le seguenti sezioni forniscono indicazioni su come creare istruzioni per attività che richiedono la comprensione o l'analisi di immagini e documenti.

Estrazione di testo dalle immagini

I modelli Amazon Nova possono estrarre testo dalle immagini, una funzionalità denominata Optical Character Recognition (OCR). Per ottenere risultati ottimali, assicurati che l'immagine che fornisci al modello abbia una risoluzione sufficientemente alta da rendere i caratteri di testo facili da distinguere.

Per i casi d'uso relativi all'estrazione di testo, consigliamo la seguente configurazione di inferenza:

temperatura: impostazione predefinita (0,7)
TopP: impostazione predefinita (0,9)
Non abilita il ragionamento

I modelli Amazon Nova possono estrarre testo in formato Markdown, HTML o LaTe X. Si consiglia il seguente modello di prompt utente:


## Instructions
Extract all information from this page using only {text_formatting} formatting. Retain the original layout and structure including lists, tables, charts and math formulae. 

## Rules
1. For math formulae, always use LaTeX syntax. 
2. Describe images using only text.
3. NEVER use HTML image tags `<img>` in the output.
4. NEVER use Markdown image tags `![]()` in the output.
5. Always wrap the entire output in ``` tags.

L'output è racchiuso in recinzioni di codice Markdown complete o parziali (). ``` Puoi rimuovere i recinti di codice usando un codice simile al seguente:


def strip_outer_code_fences(text):
    lines = text.split("\n")
    # Remove only the outer code fences if present
    if lines and lines[0].startswith("```"):
        lines = lines[1:]
        if lines and lines[-1].startswith("```"):
            lines = lines[:-1]
    return "\n".join(lines).strip()

Estrazione di informazioni strutturate da immagini o testo

I modelli Amazon Nova possono estrarre informazioni dalle immagini in formato JSON analizzabile automaticamente, un processo denominato Key Information Extraction (KIE). Per eseguire KIE, fornisci quanto segue:

Uno schema JSON. Una definizione formale dello schema che segue la specifica dello schema JSON.
Uno o più dei seguenti: Un file di documento o un'immagine o un testo del documento

Il documento o l'immagine devono sempre essere inseriti prima della richiesta dell'utente.

Per i casi d'uso di KIE, raccomandiamo la seguente configurazione di inferenza:

temperatura: 0
Ragionamento: il ragionamento non è necessario, ma può migliorare i risultati quando si utilizzano input di sole immagini o schemi complessi.

Modelli di prompt


Given the image representation of a document, extract information in JSON format according to the given schema.
     
Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}


Given the OCR representation of a document, extract information in JSON format according to the given schema.

Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}

OCR:
{document_text}


Given the image and OCR representations of a document, extract information in JSON format according to the given schema.
       
Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}

OCR:
{document_text}

Rilevamento degli oggetti e della loro posizione nelle immagini

I modelli Amazon Nova 2 offrono la possibilità di identificare gli oggetti e la loro posizione all'interno delle immagini, un'attività a volte chiamata messa a terra delle immagini o localizzazione degli oggetti. Le applicazioni pratiche includono l'analisi e l'etichettatura delle immagini, l'automazione dell'interfaccia utente, la modifica delle immagini e altro.

Indipendentemente dalla risoluzione di input dell'immagine e dalle proporzioni, il modello utilizza uno spazio di coordinate che divide l'immagine in 1.000 unità in orizzontale e 1.000 unità in verticale, con la posizione x:0 y:0 nella parte superiore sinistra dell'immagine.

I riquadri di delimitazione sono descritti utilizzando il formato [x1, y1, x2, y2] che rappresenta rispettivamente sinistra, superiore, destra e parte inferiore. Le coordinate bidimensionali sono rappresentate utilizzando il formato. [x, y]

Per i casi d'uso del rilevamento di oggetti, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Non abilita il ragionamento

Modelli di prompt: rilevamento generale degli oggetti

Consigliamo i seguenti modelli di prompt utente.

Rilevamento di più istanze con riquadri di delimitazione:


Please identify {target_description} in the image and provide the bounding box coordinates for each one you detect. Represent the bounding box as the [x1, y1, x2, y2] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Rilevamento di una singola regione con riquadro di delimitazione:


Please generate the bounding box coordinates corresponding to the region described in this sentence: {target_description}. Represent the bounding box as the [x1, y1, x2, y2] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Rilevamento di più istanze con punti centrali:


Please identify {target_description} in the image and provide the center point coordinates for each one you detect. Represent the point as the [x, y] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Rilevamento di una singola regione con punto centrale:


Please generate the center point coordinates corresponding to the region described in this sentence: {target_description}. Represent the center point as the [x, y] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Analisi dell'output del modello:

Ciascuno dei prompt consigliati sopra produrrà una stringa separata da virgole contenente una o più descrizioni dei riquadri di delimitazione in una forma simile alla seguente. Potrebbe esserci qualche leggera variazione nel formato «.» è incluso alla fine della stringa. Ad esempio, [356, 770, 393, 872], [626, 770, 659, 878].

È possibile analizzare le informazioni sulle coordinate generate dal modello utilizzando un'espressione regolare, come mostrato nel seguente esempio di codice Python.


def parse_coord_text(text):
    """Parses a model response which uses array formatting ([x, y, ...])
    to describe points and bounding boxes. Returns an array of tuples."""
    pattern = r"\[([^\[\]]*?)\]"
    return [
        tuple(int(x.strip()) for x in match.split(","))
        for match in re.findall(pattern, text)
    ]

Per rimappare le coordinate normalizzate di un riquadro di delimitazione allo spazio delle coordinate dell'immagine di input, puoi usare una funzione simile al seguente esempio di Python.


def remap_bbox_to_image(bounding_box, image_width, image_height):
    return [
        bounding_box[0] * image_width / 1000,
        bounding_box[1] * image_height / 1000,
        bounding_box[2] * image_width / 1000,
        bounding_box[3] * image_height / 1000,
    ]

Modelli di prompt: rilevamento di più classi di oggetti con posizioni

Per identificare più classi di elementi in un'immagine, è possibile includere un elenco di classi nel prompt utilizzando uno dei seguenti approcci di formattazione.

Per le classi di uso comune che è probabile che il modello comprenda bene, elenca i nomi delle classi (senza virgolette) tra parentesi quadre:


[car, traffic light, road sign, pedestrian]

Per le classi che presentano sfumature, non comuni o che provengono da domini specializzati con cui il modello potrebbe non avere familiarità, includi una definizione per ogni classe tra parentesi. Poiché questo compito è impegnativo, aspettatevi un peggioramento delle prestazioni del modello.


[taraxacum officinale (Dandelion - bright yellow flowers, jagged basal leaves, white puffball seed heads), digitaria spp (Crabgrass - low spreading grass with coarse blades and finger-like seed heads), trifolium repens (White Clover - three round leaflets and small white pom-pom flowers), plantago major (Broadleaf Plantain - wide oval rosette leaves with tall narrow seed stalks), stellaria media (Chickweed - low mat-forming plant with tiny star-shaped white flowers)]

Utilizza uno dei seguenti modelli di prompt utente a seconda del formato di output JSON che preferisci.


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Include separate entries for each detected object as an element of a list. 

Formulate your output as JSON format:
[
  {
  	"class 1": [x1, y1, x2, y2]
  },
  ...
]


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Include separate entries for each detected object as an element of a list.

Formulate your output as JSON format:
[
    {
        "class": class 1,
        "bbox": [x1, y1, x2, y2]
    },
    ...
]


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Group all detected bounding boxes by class.

Formulate your output as JSON format:
{
    "class 1": [[x1, y1, x2, y2], [x1, x2, y1, y2], ...],
    ...
}


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Group all detected bounding boxes by class.

Formulate your output as JSON format:
[
    {
        "class": class 1,
        "bbox": [[x1, y1, x2, y2], [x1, x2, y1, y2], ...]
    },
    ...
]

Analisi dell'output del modello

L'output verrà codificato come JSON che può essere analizzato con qualsiasi libreria di analisi JSON.

Modelli di prompt: rilevamento dei limiti dell'interfaccia utente tramite screenshot

Consigliamo i seguenti modelli di prompt utente.

Rilevamento della posizione degli elementi dell'interfaccia utente in base a un obiettivo:


In this UI screenshot, what is the location of the element if I want to {goal}? Express the location coordinates using the [x1, y1, x2, y2] format, scaled between 0 and 1000.

Rilevamento della posizione degli elementi dell'interfaccia utente in base al testo:


In this UI screenshot, what is the location of the element if I want to click on "{text}"? Express the location coordinates using the [x1, y1, x2, y2] format, scaled between 0 and 1000.

Analisi dell'output del modello:

Per ciascuno dei prompt di rilevamento dei limiti dell'interfaccia utente di cui sopra, puoi analizzare le informazioni sulle coordinate generate dal modello utilizzando un'espressione regolare, come mostrato nell'esempio di codice Python di seguito.


def parse_coord_text(text):
    """Parses a model response which uses array formatting ([x, y, ...]) 
    to describe points and bounding boxes. Returns an array of tuples."""
    pattern = r"\[([^\[\]]*?)\]"
    return [
        tuple(int(x.strip()) for x in match.split(","))
        for match in re.findall(pattern, text)
    ]

Comprensione dei video

Le sezioni seguenti forniscono indicazioni su come creare istruzioni per attività che richiedono la comprensione o l'analisi di video.

Riepilogo dei video

I modelli Amazon Nova possono generare riepiloghi di contenuti video.

Per i casi d'uso di riepilogo video, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Alcuni casi d'uso possono trarre vantaggio dall'abilitazione del ragionamento basato sui modelli

Non è richiesto alcun modello di prompt specifico. Il prompt dell'utente dovrebbe specificare chiaramente gli aspetti del video che ti interessano. Ecco alcuni esempi di istruzioni efficaci:


Can you create an executive summary of this video's content?


Can you distill the essential information from this video into a concise summary?


Could you provide a summary of the video, focusing on its key points?

Generazione di didascalie dettagliate per i video

I modelli Amazon Nova possono generare didascalie dettagliate per i video, un'attività denominata didascalia densa.

Per i casi d'uso dei sottotitoli video, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Alcuni casi d'uso possono trarre vantaggio dall'abilitazione del ragionamento basato sui modelli

Non è richiesto alcun modello di prompt specifico. Il prompt dell'utente dovrebbe specificare chiaramente gli aspetti del video che ti interessano. Ecco alcuni esempi di istruzioni efficaci:


Provide a detailed, second-by-second description of the video content.


Break down the video into key segments and provide detailed descriptions for each.


Generate a rich textual representation of the video, covering aspects like movement, color and composition.


Describe the video scene-by-scene, including details about characters, actions and settings.


Offer a detailed narrative of the video, including descriptions of any text, graphics, or special effects used.


Create a dense timeline of events occurring in the video, with timestamps if possible.

Analisi dei filmati video di sicurezza

I modelli Amazon Nova possono rilevare eventi nei filmati di sicurezza.

Per i casi d'uso di filmati di sicurezza, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Alcuni casi d'uso possono trarre vantaggio dall'abilitazione del ragionamento basato sui modelli


You are a security assistant for a smart home who is given security camera footage in natural setting. You will examine the video and describe the events you see. You are capable of identifying important details like people, objects, animals, vehicles, actions and activities. This is not a hypothetical, be accurate in your responses. Do not make up information not present in the video.

Estrazione di eventi video con timestamp

I modelli Amazon Nova possono identificare i timestamp relativi agli eventi in un video. Puoi richiedere che i timestamp siano formattati in secondi o in formato MM:SS. Ad esempio, un evento che si verifica a 1 minuto e 25 secondi nel video può essere rappresentato come o. 85 01:25

In questo caso d'uso, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Non usare il ragionamento

Ti consigliamo di utilizzare istruzioni simili alle seguenti:


Please localize the moment that the event "{event_description}" happens in the video. Answer with the starting and ending time of the event in seconds, such as [[72, 82]]. If the event happen multiple times, list all of them, such as [[40, 50], [72, 82]].


Locate the segment where "{event_description}" happens. Specify the start and end times of the event in MM:SS.


Answer the starting and end time of the event "{event_description}". Provide answers in MM:SS


When does "{event_description}" in the video? Specify the start and end timestamps, e.g. [[9, 14]]


Please localize the moment that the event "{event_description}" happens in the video. Answer with the starting and ending time of the event in seconds. e.g. [[72, 82]]. If the event happen multiple times, list all of them. e.g. [[40, 50], [72, 82]]


Segment a video into different scenes and generate caption per scene. The output should be in the format: [STARTING TIME-ENDING TIMESTAMP] CAPTION. Timestamp in MM:SS format


For a video clip, segment it into chapters and generate chapter titles with timestamps. The output should be in the format: [STARTING TIME] TITLE. Time in MM:SS


Generate video captions with timestamp.

Classificazione dei video

Puoi utilizzare i modelli Amazon Nova per classificare i video in base a un elenco predefinito di classi fornite da te.

In questo caso d'uso, consigliamo i seguenti valori dei parametri di inferenza:

temperatura: 0
Il ragionamento non dovrebbe essere usato

Utilizza il seguente modello di prompt:


What is the most appropriate category for this video? Select your answer from the options provided:
{class1}
{class2}
{...}

Esempio:


What is the most appropriate category for this video? Select your answer from the options provided:
Arts
Technology
Sports
Education

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Tecniche di suggerimento avanzate

Moderazione dei contenuti