向量概述 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

向量概述

向量是帮助机器理解和处理数据的数值表示。在生成式人工智能中,它们有两个关键用途:

  • 表示以压缩形式捕获数据结构的潜在空间

  • 为单词、句子和图像等数据创建嵌入式

诸如 Word2Vec GloVe和 A mazon Titan 文本嵌入之类的嵌入模型通过称为嵌入的过程将数据转换为向量。这些嵌入模型可以执行以下操作:

  • 从上下文中学习,将单词表示为向量。

  • 在向量空间中将相似的单词放得更近。

  • 使计算机能够在连续的空间中处理数据。

下图简要概述了嵌入过程:

  1. Amazon Simple Storage Service (Amazon S3) 存储桶包含文件,这些文件是系统从中读取和处理信息的数据源。S3 存储桶是在 Amazon Bedrock 知识库配置过程中指定的,其中还包括将数据与知识库同步

  2. 嵌入模型将 S3 存储桶中目标文件中的原始数据转换为矢量嵌入。例如,Object1 被转换为向量 [0.6、0.7、...],表示其在多维空间中的内容。

嵌入模型会将 Amazon S3 存储桶中的对象转换为矢量嵌入。

单词嵌入对于自然语言处理 (NLP) 至关重要,因为它们具有以下作用:

  • 捕捉单词之间的语义关系。

  • 启用生成与上下文相关的文本。

  • 为大型语言模型 (LLMs) 提供支持,以生成类似人类的响应。