# Prácticas recomendadas para peticiones de comprensión visual
<a name="prompting-video-understanding"></a>

**nota**  
Esta documentación corresponde a la versión 1 de Amazon Nova. Para obtener información sobre cómo formular peticiones de comprensión multimodal en Amazon Nova 2, consulte [Prompting multimodal inputs](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

La familia de modelos de Amazon Nova está equipada con capacidades de visión novedosas que permiten al modelo comprender y analizar imágenes y videos, lo que abre interesantes oportunidades de interacción multimodal. En las siguientes secciones, se describen las directrices para trabajar con imágenes y videos en Amazon Nova. Esto incluye las prácticas recomendadas, ejemplos de código y las limitaciones relevantes que se deben tener en cuenta.

Cuanto mayor sea la calidad de las imágenes o los videos que proporcione, mayores serán las posibilidades de que los modelos entiendan con precisión la información del archivo multimedia. Asegúrese de que las imágenes o los videos sean nítidos y no estén excesivamente borrosos o pixelados para garantizar resultados más precisos. Si los fotogramas de la imagen o del video contienen información de texto importante, compruebe que el texto sea legible y no demasiado pequeño. Evite recortar el contexto visual clave únicamente para ampliar el texto.

Los modelos de Amazon Nova permiten incluir un solo video en la carga útil, que puede proporcionarse en formato base64 o mediante un URI de Amazon S3. Al utilizar el método base64, el tamaño total de la carga útil debe ser menor de 25 MB. Sin embargo, puede especificar un URI de Amazon S3 para la comprensión de imágenes, videos y documentos. Usar Amazon S3 le permite aprovechar el modelo para archivos de mayor tamaño y varios archivos multimedia sin verse limitado por la restricción general del tamaño de la carga útil. Amazon Nova puede analizar el video de entrada y responder a preguntas, clasificar un video y resumir la información que contiene según las instrucciones proporcionadas.

Los modelos de Amazon Nova permiten incluir varias imágenes en la carga útil. El tamaño total de la carga útil no puede ser superior a 25 MB. Los modelos de Amazon Nova pueden analizar las imágenes pasadas y responder preguntas, clasificar una imagen y resumir las imágenes según las instrucciones proporcionadas.


**Información de la imagen**  

| Tipo de archivo multimedia | Formatos de archivo compatibles | Método de entrada | 
| --- |--- |--- |
| Image | PNG, JPG, JPEG, GIF, WebP | Base64 y URI de Amazon S3 | 


**Información del video**  

| Formato | Tipo MIME | Codificación de videos | 
| --- |--- |--- |
| MKV | video/x-matroska | H.264 | 
| MOV | video/quicktime |  H.264 H.265 ProRES  | 
| MP4 | video/mp4 |  DIVX/XVID H.264 H.265 J2K (JPEG2000) MPEG-2 MPEG-4 Parte 2 VP9  | 
| WEBM | video/webm |  VP8 VP9  | 
| FLV  | video/x-flv | FLV1 | 
| MPEG | video/mpeg | MPEG-1 | 
| MPG | video/mpg | MPEG-1 | 
| WMV | video/wmv | MSMPEG4v3 (MP43) | 
| 3GPP | video/3gpp | H.264 | 

No hay diferencias en el recuento de tokens de entrada de video, independientemente de si el video se pasa en base64 (siempre que se ajuste a las restricciones de tamaño) o a través de una ubicación de Amazon S3.

Tenga en cuenta que, para el formato de archivo 3gp, el campo “format” pasado en la solicitud de la API debe tener el formato “three\$1gp”.

Cuando utilice Amazon S3, asegúrese de configurar los metadatos “Content-Type” con el tipo MIME correcto para el video.

**Topics**
+ [

## Videos largos y con mucho movimiento
](#prompting-video-motion)
+ [

## Latencia
](#prompting-video-latency)
+ [

# Técnicas de peticiones para la comprensión visual
](prompting-vision-prompting.md)

## Videos largos y con mucho movimiento
<a name="prompting-video-motion"></a>

El modelo realiza la comprensión del video muestreando los fotogramas de los videos a una velocidad base de 1 fotograma por segundo (FPS). Se trata de un equilibrio entre la captura de detalles del video y el consumo de los tokens de entrada utilizados, lo que afecta al costo, la latencia y la duración máxima del video. Si bien muestrear un evento cada segundo debería ser suficiente para los casos de uso generales, es posible que algunos casos de uso en videos con mucho movimiento, como los videos deportivos, no funcionen bien.

Para poder procesar videos más largos, la frecuencia de muestreo se reduce en los videos de más de 16 minutos a 960 fotogramas fijos, espaciados a lo largo del video, para Amazon Nova Lite y Amazon Nova Pro. Esto significa que, si un video dura más de 16 minutos, los FPS serán menos y se capturarán menos detalles. Esto permite casos de uso como el resumen de videos más largos, pero agrava los problemas con los videos con mucho movimiento en los que los detalles son importantes. Para Amazon Nova Premier, la frecuencia de muestreo de 1 FPS se aplica hasta un límite de 3200 fotogramas.

En muchos casos, puede obtener un muestreo de 1 FPS en videos más largos mediante pasos de preprocesamiento y múltiples llamadas. El video se puede dividir en segmentos más pequeños y, a continuación, cada segmento se analiza utilizando las capacidades multimodelo del modelo. Las respuestas se agregan y, en un último paso, utilizando texto a texto, se genera una respuesta final. Tenga en cuenta que puede haber una pérdida de contexto al segmentar los videos de esta manera. Esto es similar a las compensaciones en la fragmentación para los casos de uso de RAG, y muchas de las mismas técnicas de mitigación se transfieren bien, como la ventana deslizante.

Tenga en cuenta que segmentar el video también puede reducir la latencia, ya que el análisis se realiza en paralelo, pero puede generar muchos más tokens de entrada, lo que afecta al costo.

## Latencia
<a name="prompting-video-latency"></a>

Los videos pueden ser de gran tamaño. Aunque proporcionamos medios para gestionar archivos de hasta 1 GB al subirlos a Amazon S3, lo que reduce las cargas útiles de invocación, los modelos aún necesitan procesar una cantidad potencialmente grande de tokens. Si utiliza llamadas síncronas a Amazon Bedrock, como Invoke o Converse, asegúrese de que su SDK esté configurado con un tiempo de espera adecuado.

En cualquier caso, el URI de Amazon S3 es la forma preferida cuando la latencia es un factor. Otra estrategia sería segmentar los videos tal y como se describe en la sección anterior. El preprocesamiento de videos de alta resolución y alta velocidad de fotogramas también puede ahorrar ancho de banda y procesamiento en el lado del servicio, lo que reduce la latencia.

# Técnicas de peticiones para la comprensión visual
<a name="prompting-vision-prompting"></a>

**nota**  
Esta documentación corresponde a la versión 1 de Amazon Nova. Para obtener información sobre cómo formular peticiones de comprensión multimodal en Amazon Nova 2, consulte [Prompting multimodal inputs](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Las siguientes técnicas de peticiones visuales le ayudarán a crear mejores peticiones para Amazon Nova.

**Topics**
+ [

## El orden importa
](#prompting-video-placement)
+ [

## Varios archivos multimedia con componentes visuales
](#prompting-video-vision-components)
+ [

## Utilice las instrucciones del usuario para mejorar el seguimiento de instrucciones en tareas de comprensión visual
](#prompting-video-instructions)
+ [

## Ejemplos con pocas muestras
](#prompting-video-exemplars)
+ [

## Detección del cuadro delimitador
](#prompting-video-bounding)
+ [

## Salidas o estilo más elaborados
](#prompting-video-richer-output)
+ [

## Extraer el contenido del documento en Markdown
](#prompting-video-markdown)
+ [

## Configuración de los parámetros de inferencia para la comprensión visual
](#prompting-video-parameters)
+ [

## Clasificación de vídeo
](#prompting-video-classification)

## El orden importa
<a name="prompting-video-placement"></a>

Le recomendamos que coloque los archivos multimedia (como imágenes o videos) antes de añadir cualquier documento y, a continuación, incluya el texto instructivo o las peticiones que sirvan de guía para el modelo. Aunque las imágenes colocadas después del texto o intercaladas con el texto seguirán funcionando adecuadamente, si el caso de uso lo permite, la estructura *\$1media\$1file\$1-then-\$1text\$1* es el enfoque preferido.

La siguiente plantilla se puede utilizar para colocar los archivos multimedia antes del texto al realizar una comprensión visual.

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### Ejemplo: Multimedia antes del texto
<a name="vision-collapsible"></a>


|  | **No se siguió ninguna estructura** | Petición optimizada | 
| --- |--- |--- |
| Usuario | Explica qué sucede en la imagen [Image1.png] |  [Image1.png] Explica qué sucede en la imagen.  | 

## Varios archivos multimedia con componentes visuales
<a name="prompting-video-vision-components"></a>

En situaciones en las que proporcione varios archivos multimedia en diferentes turnos, introduzca cada imagen con una etiqueta numerada. Por ejemplo, si usa dos imágenes, etiquételas con `Image 1:` y `Image 2:`. Si utiliza tres videos, etiquételos con `Video 1:`, ` Video 2:` y `Video 3:`. No necesita líneas nuevas entre las imágenes ni entre las imágenes y la petición.

La siguiente plantilla se puede utilizar para colocar varios archivos multimedia:

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| Petición no optimizada | Petición optimizada | 
| --- |--- |
|  Describe lo que ves en la segunda imagen. [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] Describe lo que ves en la segunda imagen.  | 
|  ¿Se describe la segunda imagen en el documento incluido? [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] ¿Se describe la segunda imagen en el documento incluido?  | 

Debido a la longitud de los tokens de contexto de los tipos de archivos multimedia, es posible que, en determinadas ocasiones, no se respete la petición del sistema indicada al principio de esta. En este caso, le recomendamos que traslade las instrucciones del sistema a los turnos del usuario y siga las instrucciones generales de *\$1media\$1file\$1-then-\$1text\$1*. Esto no afecta a las peticiones del sistema relacionadas con RAG, los agentes o el uso de herramientas.

## Utilice las instrucciones del usuario para mejorar el seguimiento de instrucciones en tareas de comprensión visual
<a name="prompting-video-instructions"></a>

Para la comprensión de video, el número de tokens en contexto hace que las recomendaciones en [El orden importa](#prompting-video-placement) sean muy importantes. Utilice la petición del sistema para cosas más generales, como el tono y el estilo. Le recomendamos que incluya las instrucciones relacionadas con el video en la petición del usuario para obtener un mejor rendimiento.

La siguiente plantilla se puede utilizar para mejorar las instrucciones:

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

Al igual que con el texto, recomendamos aplicar una cadena de pensamiento a las imágenes y los videos para mejorar el rendimiento. También recomendamos que coloque las directivas de cadena de pensamiento en el mensaje del sistema, mientras mantiene otras peticiones en el mensaje del usuario.

**importante**  
El modelo Amazon Nova Premier es un modelo de inteligencia superior de la familia Amazon Nova, capaz de gestionar tareas más complejas. Si sus tareas requieren un pensamiento avanzado de cadena de pensamiento, le recomendamos que utilice la plantilla de peticiones que se especifica en [Dele tiempo a Amazon Nova para pensar (cadena de pensamiento)](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html). Este enfoque puede ayudar a mejorar las capacidades analíticas y de resolución de problemas del modelo.

## Ejemplos con pocas muestras
<a name="prompting-video-exemplars"></a>

Al igual que con los modelos de texto, le recomendamos que proporcione ejemplos de imágenes para mejorar el rendimiento de la comprensión de imágenes (no se pueden proporcionar ejemplos de videos debido a la limitación de un solo video por inferencia). Le recomendamos que coloque los ejemplos en la petición del usuario, después del archivo multimedia, en lugar de proporcionarlos en la petición del sistema.


|  | 0-Shot | 2-Shot | 
| --- |--- |--- |
| User |  | [Image 1] | 
| Assistant |  | The image 1 description | 
| User |  | [Image 2] | 
| Assistant |  | The image 2 description | 
| User | [Image 3] Explique qué sucede en la imagen. | [Image 3] Explique qué sucede en la imagen. | 

## Detección del cuadro delimitador
<a name="prompting-video-bounding"></a>

Si necesita identificar las coordenadas del cuadro delimitador de un objeto, puede utilizar el modelo de Amazon Nova para generar cuadros delimitadores en una escala de [0, 1000). Una vez obtenidas estas coordenadas, puede redimensionarlas basándose en las dimensiones de la imagen como paso de posprocesamiento. Para obtener información más detallada sobre cómo realizar este paso de posprocesamiento, consulte el [cuaderno Localización de imágenes de Amazon Nova](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb).

El siguiente es un ejemplo de petición para la detección de cuadros delimitadores:

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## Salidas o estilo más elaborados
<a name="prompting-video-richer-output"></a>

La salida de comprensión de video puede ser muy corta. Si desea salidas más largas, le recomendamos crear una personalidad para el modelo. Puede indicarle a esta personalidad que responda de la manera que desee, de forma similar a como si utilizara el rol del sistema.

Se pueden hacer más modificaciones en las respuestas con técnicas de [un paso y pocos pasos](prompting-examples.md). Proporcione ejemplos de lo que debería ser una buena respuesta y el modelo podrá imitar algunos aspectos de ella mientras genera respuestas.

## Extraer el contenido del documento en Markdown
<a name="prompting-video-markdown"></a>

Amazon Nova Premier demuestra capacidades mejoradas para comprender los gráficos integrados en los documentos y capacidad de leer y comprender el contenido de dominios complejos, como artículos científicos. Además, Amazon Nova Premier muestra un rendimiento mejorado al extraer el contenido de los documentos y puede generar esta información en los formatos de tabla Markdown y Latex.

El siguiente ejemplo proporciona una tabla en una imagen, junto con una petición para que Amazon Nova Premier convierta el contenido de la imagen en una tabla Markdown. Una vez creada la tabla Markdown (o la representación Latex), puede utilizar herramientas para convertir el contenido en JSON u otro formato de salida estructurado.

```
Make a table representation in Markdown of the image provided.
```

![\[Una tabla de datos proporcionada como imagen en lugar de como documento\]](http://docs.aws.amazon.com/es_es/nova/latest/userguide/images/tableInImage.png)


A continuación se muestra la salida proporcionada por el modelo:

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

Esta salida utiliza una notación de tabla personalizada donde `||` se usa como separador de columnas y `&&` como separador de filas.

## Configuración de los parámetros de inferencia para la comprensión visual
<a name="prompting-video-parameters"></a>

Para los casos de uso de comprensión visual, le recomendamos que comience con los parámetros de inferencia `temperature` establecido en **0** y `topK` establecido en **1**. Tras observar el resultado del modelo, puede ajustar los parámetros de inferencia en función del caso de uso. Estos valores suelen depender de la tarea y de la varianza requerida. Aumente el ajuste de temperatura para inducir más variaciones en las respuestas.

## Clasificación de vídeo
<a name="prompting-video-classification"></a>

Para clasificar de manera eficaz el contenido de video en las categorías adecuadas, proporcione categorías que el modelo pueda utilizar para la clasificación. Considere el siguiente ejemplo de petición:

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**Etiquetado de videos**  
Amazon Nova Premier presenta una funcionalidad mejorada para crear etiquetas de video. A fin de obtener mejores resultados, utilice la siguiente instrucción que solicita etiquetas separadas por comas: “Usa comas para separar cada etiqueta”. A continuación se muestra una petición de ejemplo:

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**Subtitulado denso de videos**  
Amazon Nova Premier demuestra capacidades mejoradas para proporcionar subtítulos densos: descripciones textuales detalladas generadas para múltiples segmentos del video. A continuación se muestra una petición de ejemplo:

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```