Amazon Titan Text Embeddings 모델
Amazon Titan Embeddings 모델에는 Amazon Titan Text Embeddings V2 및 Titan Text Embeddings G1 모델이 포함됩니다.
텍스트 임베딩은 문서, 단락, 문장과 같은 비정형 텍스트를 유의미한 벡터로 표현한 것입니다. 텍스트의 본문을 입력하면 (1 x n) 벡터가 출력됩니다. 다양한 응용 분야에 임베딩 벡터를 사용할 수 있습니다.
Amazon Titan Text Embedding v2 모델(amazon.titan-embed-text-v2:0)은 최대 8,192개의 토큰 또는 50,000자를 받을 수 있으며 1,024개 차원의 벡터를 출력할 수 있습니다. 이 모델은 텍스트 검색 태스크에 최적화되어 있지만, 시맨틱 유사성 및 클러스터 작업과 같은 추가 태스크에도 활용할 수 있습니다.
Amazon Titan Embeddings 모델은 문서, 단락, 문장을 의미 있는 시맨틱 표현으로 생성합니다. Amazon Titan Text Embeddings는 텍스트 본문을 입력하는 역할을 하며 (1 x n) 벡터를 생성합니다. Amazon Titan Text Embeddings는 더 빠른 검색을 위한 지연 최적화 엔드포인트 간접 호출(검색 단계에서 권장됨)과 더 빠른 인덱싱을 위한 처리량 최적화 배치 작업을 통해 제공됩니다. Amazon Titan Text Embeddings v2는 긴 문서도 지원하지만, 검색 태스크의 경우 문서를 논리적 세그먼트(예: 단락 또는 섹션)로 분할하는 것이 좋습니다.
참고
Amazon Titan Text Embeddings v2 모델 및 Titan Text Embeddings v1 모델은 maxTokenCount 또는 topP와 같은 추론 파라미터를 지원하지 않습니다.
Amazon Titan Text Embeddings V2 모델
모델 ID –
amazon.titan-embed-text-v2:0최대 입력 텍스트 토큰 수 - 8,192
최대 입력 텍스트 문자 - 50,000자
언어 - 영어(100개 이상 언어를 미리 보기로 제공 중)
출력 벡터 크기 - 1,024(기본값), 512, 256
추론 유형 - 온디맨드, 프로비저닝된 처리량
지원되는 사용 사례 - RAG, 문서 검색, 순위 변경, 분류 등
참고
Titan Text Embeddings V2는 최대 8,192개의 토큰 또는 50,000자가 있는 비어 있지 않은 문자열을 입력으로 사용합니다. 영어로 된 문자 대 토큰 비율은 토큰당 평균적으로 4.7자입니다. Titan Text Embeddings V1 및 Titan Text Embeddings V2는 최대 8,192개의 토큰을 수용할 수 있지만 문서를 논리적 세그먼트(예: 단락 또는 섹션)로 분할하는 것이 좋습니다.
Amazon Titan Embedding Text v2 모델은 영어에 최적화되어 있으며 다음 언어를 다국어로 지원합니다. 교차 언어 쿼리(예: 한국어로 지식 기반을 제공하고 독일어로 쿼리)는 최적화되지 않은 결과를 반환합니다.
아프리칸스어
알바니아어
암하라어
아랍어
아르메니아어
아삼어
아제르바이잔어
바쉬르어
바스크어
벨라루스어
벵골어
보스니아어
브르타뉴어
불가리아어
버마어
카탈루냐어
세부아노어
중국어
코르시카어
크로아티아어
체코어
덴마크어
디베히어
네덜란드어
영어
에스페란토어
에스토니아어
파로어
핀란드어
프랑스어
갈리시아어
조지아어
독일어
구자라트어
아이티어
하우사어
히브리어
힌디어
헝가리어
아이슬란드어
인도네시아어
아일랜드어
이탈리아어
일본어
자바어
칸나다어
카자흐어
크메르어
키냐르완다어
키르기즈어
한국어
쿠르드어
라오스어
라틴어
라트비아어
리투아니아어
룩셈부르크어
마케도니아어
마다가스카르어
말레이어
말라얄람어
몰타어
마오리
마라티어
현대 그리스어
몽골어
네팔어
노르웨이어
노르웨이어 니노르스크
오크어
오리야어
펀자브어
페르시아어
폴란드어
포르투갈어
푸시토어
루마니아어
로만시어
러시아어
산스크리트어
스코틀랜드 게일어
세르비아어
신디어
싱할라어
슬로바키아어
슬로베니아어
소말리아어
스페인어
순다어
스와힐리어
스웨덴어
타갈로그어
타지크어
타밀어
타타르어
텔루구어
태국어
티베트어
터키어
투르크멘어
위구르어
우크라이나어
우르두어
우즈벡어
베트남어
와라이어
웨일스어
서부 프리지아어
코사족어
이디시어
요루바어
줄루어