向量概觀 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

向量概觀

向量是數值表示法,可協助機器了解和處理資料。在生成式 AI 中,它們提供兩個主要目的:

  • 代表以壓縮形式擷取資料結構的隱含空間

  • 為文字、句子和影像等資料建立內嵌

內嵌 Word2VecGloVeAmazon Titan Text Embeddings 等模型會透過稱為內嵌的程序將資料轉換為向量。這些內嵌模型可以執行下列動作:

  • 從內容中學習,以將單字表示為向量。

  • 將類似的字詞放在向量空間中更接近的位置。

  • 讓機器能夠處理連續空間中的資料。

下圖提供內嵌程序的高階概觀:

  1. Amazon Simple Storage Service (Amazon S3) 儲存貯體包含的檔案是系統會從中讀取和處理資訊的資料來源。S3 儲存貯體是在 Amazon Bedrock 知識庫組態期間指定,這也包括與知識庫同步資料

  2. 內嵌模型會將 S3 儲存貯體中物件檔案的原始資料轉換為向量內嵌。例如,Object1 會轉換為向量 【0.6、0.7、...】,代表其在多維空間中的內容。

內嵌模型會將 Amazon S3 儲存貯體中的物件轉換為向量內嵌。

文字內嵌對於自然語言處理 (NLP) 至關重要,因為它們會執行下列動作:

  • 擷取字詞之間的語意關係。

  • 啟用產生內容相關的文字。

  • 支援大型語言模型 LLMs) 來產生類似人類的回應。