기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
TwelveLabs Marengo Embed 2.7
TwelveLabs Marengo Embed 2.7 모델은 비디오, 텍스트, 오디오 또는 이미지 입력에서 임베딩을 생성합니다. 이러한 임베딩은 유사성 검색, 클러스터링 및 기타 기계 학습 작업에 사용할 수 있습니다. 모델은 StartAsyncInvoke
API를 통한 비동기 추론을 지원합니다.
공급자 - TwelveLabs
범주 - 임베딩, 멀티모달
모델 ID -
twelvelabs.marengo-embed-2-7-v1:0
입력 양식 - 비디오, 텍스트, 오디오, 이미지
출력 양식 - 임베딩
최대 비디오 크기 - 2시간 길이의 비디오(< 2GB 파일 크기)
TwelveLabs Marengo Embed 2.7 요청 파라미터
다음 표에서는 TwelveLabs Marengo Embed 2.7 모델의 입력 파라미터를 설명합니다.
필드 | 유형 | 필수 | 설명 |
---|---|---|---|
inputType |
문자열 | 예 | 임베딩 방식입니다. 유효한 값: video , text , audio , image . |
inputText |
문자열 | No | 가 일 때 포함할 텍스트inputType 입니다text . inputType 이 text 인 경우 필수입니다. 텍스트 입력은 S3 URI에서 사용할 수 없으며 inputText 필드에서만 사용할 수 있습니다. |
startSec |
double | 아니요 | 처리가 시작되어야 하는 비디오 또는 오디오의 시작부터 초 단위의 시작 오프셋입니다. 0을 지정하면 미디어 시작부터 시작됩니다. 기본값: 0, 최소: 0. |
lengthSec |
double | 아니요 | 처리가에서 수행되는 비디오 또는 오디오의 초 단위 길이입니다startSec . 기본값: 미디어 지속 시간, 최대: 미디어 지속 시간. |
useFixedLengthSec |
double | 아니요 | audio 또는 video 입력에만 해당됩니다. 플랫폼이 임베딩을 생성하는 각 클립에 대해 원하는 고정 기간을 초 단위로 표시합니다. 최소: 2, 최대: 10. 누락된 경우 비디오의 경우: 세그먼트는 샷 경계 감지로 동적으로 분할되고, 오디오의 경우: 세그먼트는 10초에 가장 가깝게 균등하게 분할됩니다(따라서 50초 클립인 경우 각각 10초로 세그먼트 5개가 되지만, 16초 클립인 경우 각각 8초로 세그먼트 2개가 됩니다). |
textTruncate |
문자열 | No | text 입력 전용입니다. 플랫폼이 77개의 토큰을 초과하는 텍스트를 잘라내는 방법을 지정합니다. 유효한 값: end (텍스트 끝 잘라내기), none (텍스트가 제한을 초과하는 경우 오류 반환). 기본값: end . |
embeddingOption |
list | 아니요 | video 입력 전용입니다. 검색할 임베딩 유형을 지정합니다. 유효한 값: visual-text (텍스트 검색에 최적화된 시각적 임베딩), visual-image (이미지 검색에 최적화된 시각적 임베딩), audio (오디오 임베딩). 제공되지 않으면 사용 가능한 모든 임베딩이 반환됩니다. |
mediaSource |
객체 | 아니요 | 미디어 소스를 설명합니다. 입력 유형: image , video 및에 필요합니다audio . |
mediaSource.base64String |
문자열 | No | 미디어의 Base64 인코딩 바이트 문자열입니다. 최대: 36MB. mediaSource 를 사용하는 경우 base64String 또는를 제공해야 s3Location 합니다. |
mediaSource.s3Location.uri |
문자열 | No | 미디어를 다운로드할 수 있는 S3 URI입니다. 비디오의 경우 최대: 2시간(< 2GB 파일 크기). 를 사용하는 경우 필수입니다s3Location . |
mediaSource.s3Location.bucketOwner |
문자열 | No | 버킷 소유자의 AWS 계정 ID입니다. |
minClipSec |
int | 아니요 | video 입력 전용입니다. 최소 클립을 초 단위로 설정합니다. 참고:는이 값보다 커useFixedLengthSec 야 합니다. 기본값: 4, 최소: 1, 최대: 5. |
TwelveLabs Marengo Embed 2.7 응답 필드
다음 표에서는 TwelveLabs Marengo Embed 2.7 모델의 출력 필드를 설명합니다.
필드 | 유형 | 설명 |
---|---|---|
embedding |
이중 목록 | 값 임베딩 |
embeddingOption |
문자열 | 다중 벡터 출력의 임베딩 유형입니다(비디오에만 해당). 유효한 값: visual-text (텍스트 임베딩과 밀접하게 정렬된 시각적 임베딩), visual-image (이미지 임베딩과 밀접하게 정렬된 시각적 임베딩), audio (오디오 임베딩). |
startSec |
double | 클립의 시작 오프셋입니다. 텍스트 및 이미지 임베딩에는 적용되지 않습니다. |
endSec |
double | 클립의 끝 오프셋입니다. 텍스트 및 이미지 임베딩에는 적용되지 않습니다. |
TwelveLabs Marengo Embed 2.7 요청 및 응답
다음 예제에서는 다양한 입력 유형으로 TwelveLabs Marengo Embed 2.7 모델을 사용하는 방법을 보여줍니다. 는 처리를 위해 StartAsyncInvoke API를 TwelveLabs Marengo Embed 2.7 사용합니다.