비전 이해 프롬프팅 모범 사례 - Amazon Nova

비전 이해 프롬프팅 모범 사례

Amazon Nova 모델 패밀리에는 모델이 이미지와 비디오를 이해하고 분석할 수 있는 새로운 비전 기능이 탑재되어 있어 멀티모달 상호 작용을 위한 흥미로운 기회를 열어줍니다. 다음 섹션에서는 Amazon Nova에서 이미지 및 비디오 작업에 대한 지침을 간략하게 설명합니다. 여기에는 모범 사례, 코드 예제 및 고려해야 할 관련 제한 사항이 포함됩니다.

제공하는 이미지 또는 비디오의 품질이 높을수록 모델이 미디어 파일의 정보를 정확하게 이해할 가능성이 높아집니다. 이미지나 비디오가 선명하고 과도한 흐릿함이나 픽셀화가 없는지 확인하여 보다 정확한 결과를 보장합니다. 이미지 또는 비디오 프레임에 중요한 텍스트 정보가 포함된 경우 텍스트를 읽을 수 있고 너무 작지 않은지 확인합니다. 텍스트를 확대하기 위해 주요 시각적 컨텍스트를 잘라내지 마세요.

Amazon Nova 모델을 사용하면 base64 형식 또는 Amazon S3 URI를 통해 제공될 수 있는 페이로드에 단일 비디오를 포함할 수 있습니다. base64 메서드를 사용하는 경우 전체 페이로드 크기는 25MB보다 작아야 합니다. 그러나 이미지, 비디오, 문서의 이해를 위해 Amazon S3 URI를 지정할 수 있습니다. Amazon S3를 사용하면 전체 페이로드 크기 제한에 구애받지 않고 더 큰 파일과 여러 미디어 파일에 모델을 활용할 수 있습니다. Amazon Nova는 입력 비디오를 분석하고 질문에 답변하고, 비디오를 분류하고, 제공된 지침에 따라 비디오의 정보를 요약할 수 있습니다.

Amazon Nova 모델을 사용하면 페이로드에 여러 이미지를 포함할 수 있습니다. 총 페이로드 크기는 25MB 이하여야 합니다. Amazon Nova 모델은 전달된 이미지를 분석하고 질문에 답하고, 이미지를 분류하고, 제공된 지침에 따라 이미지를 요약할 수 있습니다.

이미지 정보

미디어 파일 유형

지원되는 파일 형식

입력 방법

이미지

PNG, JPG, JPEG, GIF, WebP

Base64 및 Amazon S3 URI

비디오 정보

형식

MIME 유형

비디오 인코딩

MKV

비디오/x-matroska

H.264

MOV

비디오/quicktime

H.264

H.265

ProRES

MP4

비디오/mp4

DIVX/XVID

H.264

H.265

J2K(JPEG2000)

MPEG-2

MPEG-4 파트 2

VP9

WEBM

비디오/webm

VP8

VP9

FLV

비디오/x-flv

FLV1

MPEG

비디오/mpeg

MPEG-1

MPG

비디오/mpg

MPEG-1

WMV

비디오/wmv

MSMPEG4v3(MP43)

3GPP

비디오/3gpp

H.264

비디오가 base64로 전달되는지(크기 제약 조건에 맞는 한) Amazon S3 로케이션을 통해 전달되는지에 관계없이 비디오 입력 토큰 수에는 차이가 없습니다.

3gp 파일 형식의 경우 API 요청에 전달된 ‘형식’ 필드는 ‘three_gp’ 형식이어야 합니다.

Amazon S3를 사용할 때 ‘Content-Type’ 메타데이터가 비디오에 대한 올바른 MIME 유형으로 설정되어 있는지 확인합니다.

긴 비디오 및 움직임이 많은 비디오

모델은 1FPS(초당 프레임 수)를 기준으로 비디오 프레임을 샘플링하여 비디오를 이해합니다. 이는 비디오에서 세부 정보를 캡처하는 것과 사용되는 입력 토큰을 사용하는 것 간의 균형으로 비용, 지연 시간 및 최대 비디오 길이에 영향을 미칩니다. 일반적인 사용 사례에서는 초당 하나의 이벤트를 샘플링하는 것으로 충분하지만, 스포츠 비디오와 같이 움직임이 많은 비디오의 일부 사용 사례에서는 성능이 제대로 발휘되지 않을 수 있습니다.

긴 비디오를 처리하기 위해 16분 이상의 비디오에서는 샘플링 속도가 Amazon Nova Lite 및 Amazon Nova Pro의 비디오 길이 전체에 걸쳐 고정된 960프레임으로 감소합니다. 즉, 비디오가 16분을 넘을수록 FPS가 낮아지고 캡처되는 세부 정보가 줄어듭니다. 이렇게 하면 긴 비디오를 요약하는 등의 사용 사례는 가능하지만, 디테일이 중요한 움직임이 많은 비디오에서는 문제가 악화됩니다. Amazon Nova Premier의 경우 1FPS 샘플링 속도가 최대 3,200프레임 한도까지 적용됩니다.

대부분의 경우 전처리 단계와 여러 번의 직접 호출을 사용하여 긴 비디오에서 1 FPS 샘플링을 얻을 수 있습니다. 비디오를 더 작은 세그먼트로 분할한 다음 모델의 다중 모델 기능을 사용하여 각 세그먼트를 분석할 수 있습니다. 응답이 집계되고 텍스트 투 텍스트를 사용하는 마지막 단계에서 최종 답변이 생성됩니다. 이러한 방식으로 비디오를 분할하면 컨텍스트가 손실될 수 있다는 점에 유의하세요. 이는 RAG 사용 사례에 대한 청킹의 절충안과 유사하며 슬라이딩 윈도우와 같은 많은 동일한 완화 기술이 잘 전달됩니다.

비디오를 분할하면 분석이 병렬로 수행되므로 지연 시간이 줄어들 수 있지만 훨씬 더 많은 입력 토큰이 생성되어 비용에 영향을 줄 수 있습니다.

지연 시간

비디오는 크기가 클 수 있습니다. Amazon S3에 업로드하여 최대 1GB의 파일을 처리할 수 있는 수단을 제공하여 간접 호출 페이로드를 매우 간소화하지만 모델은 여전히 잠재적으로 많은 수의 토큰을 처리해야 합니다. Invoke 또는 Converse와 같은 동기식 Amazon Bedrock 직접 호출을 사용하는 경우 SDK가 적절한 타임아웃으로 구성되어 있는지 확인합니다.

그럼에도 불구하고 지연 시간이 중요한 경우 Amazon S3 URI가 선호되는 방법입니다. 이전 섹션에서 설명한 대로 비디오를 분할하는 것도 또 다른 전략입니다. 고해상도, 고프레임 속도의 비디오를 사전 처리하면 서비스 크기에 따른 대역폭과 처리량이 줄어들어 지연 시간이 감소할 수 있습니다.