

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Titan Multimodal Embeddings G1 模型
<a name="titan-multiemb-models"></a>

Amazon Titan 基礎模型 (FM) 是經過在大型資料集上預先訓練，使其成為功能強大的通用模型。這些模型依原狀使用，或可針對特定任務使用您自己的資料微調模型來最佳化，而無需註釋大量資料。

Titan 模型有三種類型：嵌入、文字產生和影像產生。

有兩種 Titan Multimodal Embeddings G1 模型。Titan 多模態嵌入 G1 模型會將文字輸入 (單字、片語或可能較大的文字單位) 轉譯為數字表示法 (稱為嵌入)，其中包含文字的語意意義。雖然此模型不會產生文字，但對於個人化和搜尋等應用程式很有用。透過比較嵌入，模型會產生比單字符合更相關且上下文更相符的回應。多模態嵌入 G1 模型用於如依文字、影像相似性或文字和影像的組合搜尋影像等使用案例。它會將輸入影像或文字轉譯為嵌入，其中包含相同語意空間中影像和文字的語意意義。

Titan Text 模型是適用於摘要、文字產生、分類、開放式 QnA 和資訊擷取等任務的生成式 LLM。這些模型也經過許多不同程式設計語言的訓練，以及如資料表、JSON 和 .csv 檔案等 RTF 文字格式及其他格式的訓練。

**Amazon Titan 多模態嵌入模型 G1**
+ **模型 ID** – `amazon.titan-embed-image-v1`
+ **最大輸入文字字符** – 256
+ **語言** — 英文 
+ **最大輸入影像大小** – 25 MB
+ **輸出向量大小** – 1,024 (預設值)、384、256
+ **推論類型** — 隨需、佈建的輸送量
+ **支援的使用案例** – 影像搜尋、建議和個人化。

Titan 文本嵌入 V1 採用最多 8,192 個字符的非空白字串做為輸入，並傳回 1,024 個維度嵌入。英文的字元對字符比率為平均 4.7 個字元/字符。RAG 使用案例注意事項：雖然 Titan 文本嵌入 V2 最多可容納 8,192 個字符，但建議將文件分割為邏輯區段 (例如段落或區段)。

## 內嵌長度
<a name="titanmm-embedding"></a>

設定自訂內嵌長度是選擇性的。內嵌的預設長度為 1024 個字元，適用於大多數使用案例。內嵌長度可以設定為 256、384 或 1024 個字元。較大的內嵌大小會產生更詳細的回應，但也會增加運算時間。較短的內嵌長度較不詳細，但會縮短回應時間。

```
    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })
```

## 微調
<a name="titanmm-finetuning"></a>
+ Amazon Titan Multimodal Embeddings G1 微調的輸入是影像文字配對。
+ 影像格式：PNG、JPEG
+ 輸入影像大小限制：25 MB
+ 影像維度：最小值：256 px，最大值：4，096 px
+ 字幕中字符數量上限：128
+ 訓練資料集大小範圍：1000 - 500,000
+ 驗證資料集大小範圍：8 - 50,000
+ 字幕長度 (以字元為單位)：0 - 2,560
+ 每張影像的總像素數上限：2048\$12048\$13
+ 長寬比 (w/h)：最小：0.25，最大：4

## 準備資料集
<a name="titanmm-datasets"></a>

有關訓練資料集，請建立具有多重 JSON 行的`.jsonl`檔案。每一 JSON 行都包含類似於 [Sageemaker 增強清單檔案格式](https://docs.aws.amazon.com/sagemaker/latest/dg/augmented-manifest.html)的 `image-ref` 和 `caption` 屬性。驗證資料集是必要的。目前不支援自動字幕。

```
   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
```

對於訓練和驗證資料集，請建立具有多重 JSON 行的`.jsonl`檔案。

Amazon S3 路徑必須位於您為 Amazon Bedrock 提供許可權的相同資料夾中，以透過將 IAM 政策附加到 Amazon Bedrock 服務角色的方式來存取資料。如需授予用於訓練資料的 IAM 政策的詳細資訊，請參閱[授予訓練資料的的自訂任務存取權](https://docs.aws.amazon.com/bedrock/latest/userguide/security_iam_id-based-policy-examples.html#security_iam_id-based-policy-examples-model-customization)。

## 超參數
<a name="titanmm-hyperparameters"></a>

這些值可以針對 Multimodal Embeddings 模型超參數進行調整。預設值適用於大多數使用案例。
+ 學習率 - (最小/最大學習速率) — 預設：5.00E-05，最小值：5.00E-08，最大值：1
+ 批次大小 - 有效批次大小 — 預設值：576，最小值：256，最大值：9,216 
+ 最大 epoch — 預設值："auto"，最小值：1，最大值：100